POSITIONAL NORMALIZATION

1. どんなもの?

  • pixelごとにチャネル方向に串刺しにして正規化する系の正規化手法
  • Encoder-Decoder構造(Domain transferなど)に適用すると良い生成

2. 先行研究と比べてどこがすごい?

  • BN,LN,INなどとは違って,空間解像度を保った正規化なのでstructuralな情報が残せる
  • もちろん収束は早くなるし,安定もする

3. 技術や手法の"キモ"はどこ?

Positional Normalization

  • feature mapの各Pixel(position)ごとにチャネル方向にstaticsを求める
  • つまり,staticsのshapeは(b, h, w)

$$ \mu_{b, h, w}=\frac{1}{C} \sum_{c=1}^{C} X_{b, c, h, w}, \quad \sigma_{b, h, w}=\sqrt{\frac{1}{C} \sum_{c=1}^{C}\left(X_{b, c, h, w}^{2}-\mu_{b, h, w}\right)+\epsilon} $$

$$ X_{b, c, h, w}^{\prime}=\gamma\left(\frac{X_{b, c, h, w}-\mu}{\sigma}\right)+\beta $$

  • VGGにponoを差し込んでみると,画像の構造をstaticsが捉えているように見える
  • ただDenseNetでは,map端に望まない反応が見られる

Moment Shortcut

  • Encoder-Decoder構造において,Encoderのponoで得られたstd $\sigma$を$\gamma$,mean $\mu$を$\beta$として $$ x' = \gamma x + \beta $$
  • CycleGANやPix2Pixで有効
  • $\mu$,$\sigma$に対して,convして,$\beta,\gamma \in \mathbb{R}^{B \times H \times W \times C}$にしてからAffineするDynamic Moment Shortcutも提案

4. どうやって有効だと検証した?

  • Domain transfer (Map <-> Photo, Horse <-> Zebra)で実験
  • CycleGAN (baseline)を上回るのはもちろん,SPADEにも勝っている
  • parameter数も少ない

5. 議論はあるか?

  • 情報量的には軽量版Unetと感じた
  • Unetはパラメータ数,計算量も格段に多くなるのでGood
  • MUNITはlatent spaceにたどり着かないかもしれない情報がでるけど,大丈夫なのか

6. 次に読むべき論文はある?

Avatar
中塚 俊介
R&D Engineer

My research interests are in computer vision, especially in anomaly detection and XAI.

comments powered by Disqus