제 6회 모각코 회고
Abstract
→ Image completion을 위해 여러 GAN이 만들어졌으나, large-scale missing을 처리할 때 한계가 있다. 이를 극복하기 위해 conditional representation과 stochastic representation의 co-modulation을 통해 conditional GAN과 recent modulated unconditional GAN 간의 gap을 연결하는 방식을 제안한다. Image completion을 위한 정량적 측정 지표로써 새로운 P-IDS/U-IDS를 제안.
Large-scale missing을 잘 처리할 수 없었던 이유?
→ 기본 Generative capability가 부족하기 때문이다. Image-conditional and unconditional generative architectures간의 격차를 해소함으로써 Generative capability를 갖출 수 있다.
Introduction
- Co-modulated를 통해 Conditional 및 Stochastic style representation을 모두 포함하면서 unconditional modulated architecture의 generative capability를 활용하는 co-modulated GAN을 제안한다.
- 소규모, 대규모 inpating 가능
- 일반 mask, 비정규 mask 모두 지원
- 기존 연구들은 L1, L2, SSIM 등의 지표들에 대해 성능 향상을 추구한다. 하지만 이 메트릭은 흐릿한 결과를 크게 선호하기 때문에 부적절할 수 있다.
- 새로운 Paired/Unpaired Inception Discriminative Score (P-IDS/U-IDS)를 제안한다.
- P-IDS/U-IDS는 미묘한 차이를 포착하는데 효과적이며, 인간의 선호와 상관관계가 있다.
Related Work
- Image-Conditional GANs
- image-to-image 변환 작업에 적용
- unpaired setting은 paired setting을 사용할 수 없는 경우 investigated 된다.
- 최근 연구는 conditional input이나 다른 reference image에서 학습된 style representation이 포함된 normalization layer를 이용해 output fidelity를 향상시킨다.
- 하지만 여전히 stochastic generative capability가 부족하여 conditional information이 제한적일 땐 잘 일반화되지 않는다.
- Co-Mod GAN은 stochasticity를 본질적으로 학습하고 trade-off를 쉽게 제어할 수 있다.
Co-Modulated Generative Adversarial Networks
- Image-conditional GAN은 image-form conditional input $y$를 output image $x$로 변환하는 문제를 해결한다.
- Generator는 latent vector $z$와 input image $y$를 받아 출력 $x$를 생성한다.
- Discriminator는 ($x, y$)를 input으로 받아 가짜로 생성된 pairs를 실제 분포와 구별한다.
- Image completion은 known pixels이 변경되지 않도록 제한되는 constrained image-conditional generation problem으로 볼 수 있다.
- image-conditional GAN과 unconditional modulated architectures를 연결하는 방식을 소개한다.
Revisiting Modulation Approaches
- Modulation Approach는 normalized 된 feature map에 scalar denormalization factors를 적용하는 반면, 학습된 denormalization factor는 class label이나 latent vector 같은 side information에 따라 조절된다.
- Modulation block으로 사용되는 대표적인 normalization layer는 batch normalization, adaptive instance normalization, weight demodulation.
$y$ : conditional input, $z$ : latent vector, ε : conditional encoder, $D$ : generative decoder, $M$ : mapping network
그림 2 (a)에서 Decoder $D$는 단순히 학습된 constant에서 비롯되지만 latent vector $z$는 multi-layer fully connected mapping network $M$을 통과한다.
매핑된 latent vector는 학습된 affine transformation $A$를 통해 each subsequent modulation에 대한 style vector $s$를 linear하게 생성한다.
kernel weights $w_{ijk}$인 vanilla convolutional layer를 생각해보자.($i$ : input channels, $j$ : output channels, $k$: convolution)
$s_j'=\sqrt{1/\sum{}_{i,k}(s_iw_ijk)^2}$
(b)는 Vanilla image-conditional generator, (c)는 conditional modulated generator
modulation은 인코더 $E$로부터 학습된 flattened feature에 따라 조절된다.
style vector $s$를 다시 쓰면 아래와 같다.
- 그러나, Conditional modulation approach는 stochastic generative capability의 부족이라는 단점을 갖는다. 그래서 large-scale Image completion에서는 conditional input이 부족해 다양한 output을 만들어내지 못한다.
Co-Modulation
- unconditional modulated generator에서 image-conditional generator로 generative capability를 쉽게 조정하는 Co-modulation을 제안한다.
- 두 style representation에 대한 affine transformation conditioning
- style vector는 non-linear일 수 있지만 style space에서 linearly correlated하다고 가정한다.
Paired/Unpaired Inception Discriminative Score (P-IDS/U-IDS)
P-IDS : fake sample이 real로 간주될 확률
U-IDS : misclassification rate