제 6회 모각코 회고

2022 동계 모각코/개인 목표 및 회고

제 6회 모각코 회고

씀씀이00 2022. 2. 3. 23:52

Abstract

→ Image completion을 위해 여러 GAN이 만들어졌으나, large-scale missing을 처리할 때 한계가 있다. 이를 극복하기 위해 conditional representation과 stochastic representation의 co-modulation을 통해 conditional GAN과 recent modulated unconditional GAN 간의 gap을 연결하는 방식을 제안한다. Image completion을 위한 정량적 측정 지표로써 새로운 P-IDS/U-IDS를 제안.

Large-scale missing을 잘 처리할 수 없었던 이유?

→ 기본 Generative capability가 부족하기 때문이다. Image-conditional and unconditional generative architectures간의 격차를 해소함으로써 Generative capability를 갖출 수 있다.

Introduction

Co-modulated를 통해 Conditional 및 Stochastic style representation을 모두 포함하면서 unconditional modulated architecture의 generative capability를 활용하는 co-modulated GAN을 제안한다.
소규모, 대규모 inpating 가능
일반 mask, 비정규 mask 모두 지원
기존 연구들은 L1, L2, SSIM 등의 지표들에 대해 성능 향상을 추구한다. 하지만 이 메트릭은 흐릿한 결과를 크게 선호하기 때문에 부적절할 수 있다.
새로운 Paired/Unpaired Inception Discriminative Score (P-IDS/U-IDS)를 제안한다.
P-IDS/U-IDS는 미묘한 차이를 포착하는데 효과적이며, 인간의 선호와 상관관계가 있다.

Related Work

Image-Conditional GANs
- image-to-image 변환 작업에 적용
- unpaired setting은 paired setting을 사용할 수 없는 경우 investigated 된다.
- 최근 연구는 conditional input이나 다른 reference image에서 학습된 style representation이 포함된 normalization layer를 이용해 output fidelity를 향상시킨다.
- 하지만 여전히 stochastic generative capability가 부족하여 conditional information이 제한적일 땐 잘 일반화되지 않는다.
- Co-Mod GAN은 stochasticity를 본질적으로 학습하고 trade-off를 쉽게 제어할 수 있다.

Co-Modulated Generative Adversarial Networks

Image-conditional GAN은 image-form conditional input $y$를 output image $x$로 변환하는 문제를 해결한다.
Generator는 latent vector $z$와 input image $y$를 받아 출력 $x$를 생성한다.
Discriminator는 ($x, y$)를 input으로 받아 가짜로 생성된 pairs를 실제 분포와 구별한다.
Image completion은 known pixels이 변경되지 않도록 제한되는 constrained image-conditional generation problem으로 볼 수 있다.
image-conditional GAN과 unconditional modulated architectures를 연결하는 방식을 소개한다.

Revisiting Modulation Approaches

Modulation Approach는 normalized 된 feature map에 scalar denormalization factors를 적용하는 반면, 학습된 denormalization factor는 class label이나 latent vector 같은 side information에 따라 조절된다.
Modulation block으로 사용되는 대표적인 normalization layer는 batch normalization, adaptive instance normalization, weight demodulation.

$y$ : conditional input, $z$ : latent vector, ε : conditional encoder, $D$ : generative decoder, $M$ : mapping network
그림 2 (a)에서 Decoder $D$는 단순히 학습된 constant에서 비롯되지만 latent vector $z$는 multi-layer fully connected mapping network $M$을 통과한다.
매핑된 latent vector는 학습된 affine transformation $A$를 통해 each subsequent modulation에 대한 style vector $s$를 linear하게 생성한다.
kernel weights $w_{ijk}$인 vanilla convolutional layer를 생각해보자.($i$ : input channels, $j$ : output channels, $k$: convolution)
$s_j'=\sqrt{1/\sum{}_{i,k}(s_iw_ijk)^2}$
(b)는 Vanilla image-conditional generator, (c)는 conditional modulated generator
modulation은 인코더 $E$로부터 학습된 flattened feature에 따라 조절된다.
style vector $s$를 다시 쓰면 아래와 같다.

그러나, Conditional modulation approach는 stochastic generative capability의 부족이라는 단점을 갖는다. 그래서 large-scale Image completion에서는 conditional input이 부족해 다양한 output을 만들어내지 못한다.

Co-Modulation

unconditional modulated generator에서 image-conditional generator로 generative capability를 쉽게 조정하는 Co-modulation을 제안한다.

두 style representation에 대한 affine transformation conditioning
style vector는 non-linear일 수 있지만 style space에서 linearly correlated하다고 가정한다.

Paired/Unpaired Inception Discriminative Score (P-IDS/U-IDS)

P-IDS : fake sample이 real로 간주될 확률
U-IDS : misclassification rate

저작자표시 비영리 변경금지