씀씀이00 2022. 2. 3. 23:52

Abstract

→ Image completion을 위해 여러 GAN이 만들어졌으나, large-scale missing을 처리할 때 한계가 있다. 이를 극복하기 위해 conditional representation과 stochastic representation의 co-modulation을 통해 conditional GAN과 recent modulated unconditional GAN 간의 gap을 연결하는 방식을 제안한다. Image completion을 위한 정량적 측정 지표로써 새로운 P-IDS/U-IDS를 제안.

Large-scale missing을 잘 처리할 수 없었던 이유?

→ 기본 Generative capability가 부족하기 때문이다. Image-conditional and unconditional generative architectures간의 격차를 해소함으로써 Generative capability를 갖출 수 있다.

Introduction

  • Co-modulated를 통해 Conditional 및 Stochastic style representation을 모두 포함하면서 unconditional modulated architecture의 generative capability를 활용하는 co-modulated GAN을 제안한다.
  • 소규모, 대규모 inpating 가능
  • 일반 mask, 비정규 mask 모두 지원
  • 기존 연구들은 L1, L2, SSIM 등의 지표들에 대해 성능 향상을 추구한다. 하지만 이 메트릭은 흐릿한 결과를 크게 선호하기 때문에 부적절할 수 있다.
  • 새로운 Paired/Unpaired Inception Discriminative Score (P-IDS/U-IDS)를 제안한다.
  • P-IDS/U-IDS는 미묘한 차이를 포착하는데 효과적이며, 인간의 선호와 상관관계가 있다.

Related Work

  • Image-Conditional GANs
    • image-to-image 변환 작업에 적용
    • unpaired setting은 paired setting을 사용할 수 없는 경우 investigated 된다.
    • 최근 연구는 conditional input이나 다른 reference image에서 학습된 style representation이 포함된 normalization layer를 이용해 output fidelity를 향상시킨다.
    • 하지만 여전히 stochastic generative capability가 부족하여 conditional information이 제한적일 땐 잘 일반화되지 않는다.
    • Co-Mod GAN은 stochasticity를 본질적으로 학습하고 trade-off를 쉽게 제어할 수 있다.

Co-Modulated Generative Adversarial Networks

  • Image-conditional GAN은 image-form conditional input $y$를 output image $x$로 변환하는 문제를 해결한다.
  • Generator는 latent vector $z$와 input image $y$를 받아 출력 $x$를 생성한다.
  • Discriminator는 ($x, y$)를 input으로 받아 가짜로 생성된 pairs를 실제 분포와 구별한다.
  • Image completion은 known pixels이 변경되지 않도록 제한되는 constrained image-conditional generation problem으로 볼 수 있다.
  • image-conditional GAN과 unconditional modulated architectures를 연결하는 방식을 소개한다.

Revisiting Modulation Approaches

  • Modulation Approach는 normalized 된 feature map에 scalar denormalization factors를 적용하는 반면, 학습된 denormalization factor는 class label이나 latent vector 같은 side information에 따라 조절된다.
  • Modulation block으로 사용되는 대표적인 normalization layer는 batch normalization, adaptive instance normalization, weight demodulation.

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/29264d32-0c02-4ee4-a5f3-ddc7064f5f69/Untitled.png

  • $y$ : conditional input, $z$ : latent vector, ε : conditional encoder, $D$ : generative decoder, $M$ : mapping network

  • 그림 2 (a)에서 Decoder $D$는 단순히 학습된 constant에서 비롯되지만 latent vector $z$는 multi-layer fully connected mapping network $M$을 통과한다.

  • 매핑된 latent vector는 학습된 affine transformation $A$를 통해 each subsequent modulation에 대한 style vector $s$를 linear하게 생성한다.

    https://s3-us-west-2.amazonaws.com/secure.notion-static.com/b9de81b2-d64a-44c1-8214-06d5c1d7e3b8/Untitled.png

  • kernel weights $w_{ijk}$인 vanilla convolutional layer를 생각해보자.($i$ : input channels, $j$ : output channels, $k$: convolution)

  • $s_j'=\sqrt{1/\sum{}_{i,k}(s_iw_ijk)^2}$

  • (b)는 Vanilla image-conditional generator, (c)는 conditional modulated generator

  • modulation은 인코더 $E$로부터 학습된 flattened feature에 따라 조절된다.

  • style vector $s$를 다시 쓰면 아래와 같다.

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/8b523561-4936-44a1-836f-2433329d9588/Untitled.png

  • 그러나, Conditional modulation approach는 stochastic generative capability의 부족이라는 단점을 갖는다. 그래서 large-scale Image completion에서는 conditional input이 부족해 다양한 output을 만들어내지 못한다.

Co-Modulation

  • unconditional modulated generator에서 image-conditional generator로 generative capability를 쉽게 조정하는 Co-modulation을 제안한다.

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/67c82ec1-c2b3-40c6-a636-156795b94295/Untitled.png

  • 두 style representation에 대한 affine transformation conditioning
  • style vector는 non-linear일 수 있지만 style space에서 linearly correlated하다고 가정한다.

Paired/Unpaired Inception Discriminative Score (P-IDS/U-IDS)

  • P-IDS : fake sample이 real로 간주될 확률

    https://s3-us-west-2.amazonaws.com/secure.notion-static.com/3fe8755f-23af-440f-b407-84f18c5d47a9/Untitled.png

  • U-IDS : misclassification rate

    https://s3-us-west-2.amazonaws.com/secure.notion-static.com/46e7b787-30cd-4cc1-8676-2dee6b731602/Untitled.png