본문 바로가기
Domain Adaptation/Object Detection

Diversify and Match: A Domain Adaptive Representation Learning Paradigm for Object Detection 리뷰

by khslab 2022. 8. 5.

이 논문은 Domain adaptation object detection 패러다임을 제시하는 논문이다.
그리고 저자가 KAIST 인데 괜히 한국사람이 쓴 논문을 보면
반갑기도 하고 그렇다. ㅋㅋㅋ
카이스트 짱

CVPR' 2019
https://arxiv.org/abs/1905.05396

 

Diversify and Match: A Domain Adaptive Representation Learning Paradigm for Object Detection

We introduce a novel unsupervised domain adaptation approach for object detection. We aim to alleviate the imperfect translation problem of pixel-level adaptations, and the source-biased discriminativity problem of feature-level adaptations simultaneously.

arxiv.org


이 논문의 learning 패러다임은 Domain Diversification(DD) 와
Multi-domain-invariant Representation Learning (MRL)로 구성되어 있다.
이 프레임 워크는 domain-invriant object detection layer를 학습시키고
동시에, 분산된 domains을 하나의 common feature space로 모으는 과정을 한다.

위가 이 논문의 architecture다.
1. Domain Diversification
2. Base conv.
3. Object Detection Module
4. Multi-domain Discriminator
로 구성돼있는 것을 알 수 있다. (핵심은 빨간색 표시)


Domain Diversification(DD) 는 source domain을
다른 도메인으로 shift 를 하여 domain 다양화를 하는 것이다.
다양화된 domain을 통해 특정 domain에 편향되지 않은 featrues를 학습할 수 있게 된다.

Domain Diversification은 Cycle-GAN을 활용하여 구현된다.

loss GAN은 Cycle-GAN의 그 loss다.
그리고 여기에 추가적으로 constraint loss가 β와 붙었다.
G는 Generator, D는 Discriminator, M은 additional Modules 다.
 x는 data sample.

constraint loss를 어떻게 주느냐에 따라 다양한 domain shift가 가능해진다.
본 논문에서는 3가지의 constraint loss를 만들었다.

1. Color Preservation (CP)

2. Reconstruction (R)

2번째 부분에서 그냥 x로 돼있는데 개인적인 생각으로는 x^t 일것 같다.

3. Color Preservation + Reconstructoin (CP + R)

이를 통해 다음과 같은 DD 결과를 만들 수 있다.


DD부분은 독립적으로 구성되어 다양한 domains를 만들고 나면
추가적인 연산 없이 역할이 끝난다.

Multi-domain-invariant Representation Learning (MRL) 은
논문 architecture의 Multi-domain Discriminator를 통해 이루어 진다.

먼저 domain이 n + 2개가 있다고 가정한다.
(1개의 source + 1개의 target + n개의 shifted = n + 2)
이를 discriminator를 통해 domain을 구분하는데
GRL 논문에서 활용된것과 달리 discriminator가 n + 2개의 output을 가진다.
그리고 cross entropy loss를 통해 domains들을 구분하게 된다.

​이때 GRL을 사용하여 반대로 domains를 구분할 수 없게 만들었다.
그래서 domain-invariant한 feature을 [Base conv.] 에서 얻을 수 있다.

x^f 는 discriminator로 얻은 feature map
1{i}는 singleton {i}에 대한 indicator function
p는 x^f의 (u, v) 자리의  i번째 domain에 대한 domain probability
D는 ground-truth다. (??무슨말인지 모르겠다.)


전체적인 Domain Adaptation Object Dectection loss는 다음과 같다.

y는 label
G_Base는 base convolutional network
LOC loss는 regression loss
CLS loss는 classification loss

LOC loss와 CLS loss 는 object detector  모델의 loss다.


실험은
Real-word Dataset : PASCAL VOC 2007, 2012
Artistic Media Datasets (AMDs) : Clipart1k, Watercolor2k, Comic2k
Urban Street Datasets (USDs) : Cityscapes, Foggy Cityscapes
로 진행되었다.

그리고 object detection part와 Base conv. 는
Faster R-CNN과 VGG-16 (pretrained ImageNet)가 사용되었다.


이 논문은 multi-domains adaptation의 기초 논문인데
discriminator가 multi-domains을 구분한다는 개념은 향후 연구에서도
계속 사용된다.
그리고 그 방법에는 GRL이 들어가 있다.