본문 바로가기
Domain Adaptation/Object Detection

Strong-Weak Distribution Alignment for Adaptive Object Detection 리뷰

by khslab 2022. 9. 1.

오늘로 연구실 생활 거의 만 6개월인데 아직 너무 모르는게 많다.

내 아이디어로 논문 작성을 할 수 있을 단계까지 가려면 아직 한참은 남은거 같다ㅋㅋㅋ

주식 사모으는거 마냥 논문 하나씩 리뷰하면서 장투해야지

 

CVPR'19

https://arxiv.org/abs/1812.04798

 

Strong-Weak Distribution Alignment for Adaptive Object Detection

We propose an approach for unsupervised adaptation of object detectors from label-rich to label-poor domains which can significantly reduce annotation costs associated with detection. Recently, approaches that align distributions of source and target image

arxiv.org


이 논문은 2단계에 걸쳐서 Alignment를 하여 Domain Adaptation을 한다.

순서대로 Local feature에는 Strong Alignment를 하고

Global feature에는 Weak Alignment를 한다.

위 그림이 이 논문의 대략적인 구조이다.

 

Local-Strong Alignment는 다른 논문에서도 알 수 있는것 처럼

domain-invariant한 feature을 추출하기 위해 존재한다.

 

Global-Weak Alignment는 다음과 같다.

위 그림처럼 global로 유사한 이미지에 adversarial alignment 초점을 맞추고 다른 이미지로 부터 떨어지게 한다.


전체적인 구조는 위와 같다.

 

먼저 Weak Global Feature Alignment부터 설명하자면

먼저 source에 대한 target feature을 align하기 위해 domain classifier을 단다.

(보통 논문마다 domain classifier대신 domain discriminator라고도 함.)

본 논문에서는 weak global feature alignment가 주요 contribution이라고 한다.

 

저자는 domain classifier가 쉽게 분류되는 examples을 무시하고 분류하기 어려운 examples에만 집중하기를 원했다.

이를 해결하기위해 Focal Loss를 사용하였다.

modulating factor f(pt) cross-entropy loss에 추가한것이 다음과 같은 Focal Loss이다.

p는 label d = 1로 분류할 확률이다.

modulating factor는 다음과 같이 쓸 수 있다.

γ는 0.5로 했다.

 

이에 따라 weak global-level domain flassifier loss는 다음과 같다.

ns, nt는 각각 source, target 이미지 수다.


local-level에서 feature align을 해야 하지만 위의 Lglobal로는 효과가 떨어진다.

그래서 다이렉트로 alignment하는 방법을 소개한다.

 

global에서 feature alignment를 수행한 것 같이 local에서도 classfier를 통해 alignment를 수행한다.

feature extractor F는 F1, F2로 구성되는데, F2는 위의 weak global feature alignment가 이루어 지고

F1에서 strong local feature alignment가 이루어진다.

Lloc는 다음과 같다.


저자는 모델의 퍼포먼스를 개선하기 위해 regularization techique를 추가했다고 한다.

domain classifier에 segmentation loss로 regularizing을 하는것은 domain adaptive segmentation에서 안정적인 adversarial training을 하는데에 효과적이라고 한다.

이에 아이디어를 얻어 저자는 두개의 domain classifier의 중간 layers로 부터 vectors v1, v2를 추출한다.

이 vectors는 전체 이미지의 information을 포함하고 있다. 이 벡터를 "context"라고 한다.

그래서 이 "context"를 모든 region-wise featurs에 연관시켜서 학습을 시킨다.

(위 내용이 이해가 잘 안되지만, 아마 transformer 쪽 내용일것 같다는 생각을 하고 있다. 위 내용을 보강할 예정이다.)


먼저 detection loss는 다음과 같다.

여기서 위의 global, local loss는 모두 adversarial loss역할을 한다.

이에 따라 최종적인 loss는 다음과 같이 학습된다.

λ는 1이다.

 

GRL에 따라 아마 최종 Loss는 다음과 같이 쓸 수 있을 것이다.

Lfin = Lcls + Ladv


이 논문은 backbone network에서 2번의 alignment를 진행한 논문이다.

Multi-Source Domain Adaptation for Object Detection논문과 약간 비슷하니 이 논문도 읽어보길 바란다.

향후 DA연구는 최대한 backbone 단계에서 domain adaptation을 진행한 뒤,

이후 단계에서 한번더 adaptation을 하는 방향으로 발전할 것 같다.