본 논문은 Affordance Detection이라는 task 논문이다.
Affordance Detection은 행동 유도성 감지로
위 그림 처럼 '가방'이라는 object가 감지되었을 때
'grab'이라는 task를 수행하기 위해
'가방'의 어디를 감지해야 하는지 찾아내는 것이다.
컴퓨터 비전 관점에서는 part segmenation과 유사하다.
본 논문은 로봇 학회 논문이다.
IROS'23
https://arxiv.org/abs/2303.02401
Open-Vocabulary Affordance Detection in 3D Point Clouds
Affordance detection is a challenging problem with a wide variety of robotic applications. Traditional affordance detection methods are limited to a predefined set of affordance labels, hence potentially restricting the adaptability of intelligent robots i
arxiv.org
Abstract
affordance라는 것은 robot과 로봇 주위의 환경간의
잠재적인 상호작용을 나타내는데 사용된다.
저자들은 Open-Vocabulary Affordance Detection (OpenAD)를 제안한다.
이것은 point clodus에서 거의 무제한의 affordance를 감지하기 위해 제안되었다.
이를 통해 unseen affordacne에 대해서도
zero-shot으로 detection이 가능하다.
3. Open-Vocabulary Affordance Detection
A. Problem Formulation
입력으로는 $n$개의 point clouds $C=\left\{p_{1}, p_{2},...,p_{n}\right\}$를
입력받는다. $p_{i} \in \mathbb{R}^{3}$
또 자연어 형태로 affordance label을 준비한다.
$L=\left\{l_{1}, l_{2},...,l_{m}\right\}$
사실 $m$은 무한으로 만들 수 있다.
B. Open-Vocabulary Affordance Detection
Text encoder
text encoder $f_{text}(\cdot)$은 affordance label을
$\mathbb{R}^{D}$ embedding으로 만든다.
저자들은 CLIP을 사용한다.
이를 통해 $m$개의 word embedding $T_{m}$을 만든다.
CLIP은 freezing하여 사용한다.
Point clouds network
저자들은 point cloud network $f_{pc}(\cdot)$을 통해
point clouds로 word embedding을 만들고자 한다.
network는 PointNet++을 사용하는데 output dimension을
맞추기 위하여 Conv1D+BN을 사용하는 것으로 보인다.
Learning text-point correlation
저자들은 내적을 통해 correlation value $F_{i,j}$를 구한다.
이후 softmax를 통해 point당 affordance 확률을 구한다.
$\tau$는 learnable parameter라고 한다.
loss로는 weighted negative log-likelihood loss를 사용한다.
참고로 pytorch에서 cross-entropy loss의 input은
softmax가 적용되기 전 raw output이 입력된다.
softmax를 적용한 후에는 위의 NLLloss를 사용해야 한다.
(in pytorch, cross-entropy = softmax+NLL)
4. Experiments
데이터셋은 3D AffordanceNet을 사용한다.
평가지표는 mIoU, Acc, mAcc를 사용하는것으로 보아
일반적인 part segmentatation과 유사하다.
다음은 new affordance label에 대한 일반성을 보여준다.
다음은 unseen에 대한 일반성을 보여준다.
다음은 여러개의 affordance를 감지하는 것을 보여준다.
다음은 ablation study를 보여준다.
다음은 openAD가 항상 잘 되는것은 아니라는 것을 보여준다.