본문 바로가기

Open Vocabulary12

[논문리뷰]Masked Point-Entity Contrast for Open-Vocabulary 3D Scene Understanding Paper OverviewCVPR'25https://arxiv.org/abs/2504.19500 Masked Point-Entity Contrast for Open-Vocabulary 3D Scene UnderstandingOpen-vocabulary 3D scene understanding is pivotal for enhancing physical intelligence, as it enables embodied agents to interpret and interact dynamically within real-world environments. This paper introduces MPEC, a novel Masked Point-Entity Contrastive larxiv.orgAbstract.. 2025. 7. 23.
[논문리뷰]CLIP goes 3D: Leveraging Prompt Tuning for Language Grounded 3D Recognition Paper OverviewICCVW'23https://arxiv.org/abs/2303.11313 CLIP goes 3D: Leveraging Prompt Tuning for Language Grounded 3D RecognitionVision-Language models like CLIP have been widely adopted for various tasks due to their impressive zero-shot capabilities. However, CLIP is not suitable for extracting 3D geometric features as it was trained on only images and text by natural language suparxiv.orgAbs.. 2025. 3. 27.
[논문 리뷰] OpenScene: 3D Scene Understanding with Open Vocabularies 3D Open-vocabulary 논문들이CVPR 2023에 쏟아져 나온다.재밌는게 초창기 논문도 CVPR'23이고후속논문도 CVPR'23이다.AI 분야 다른 분야에 비해 발전 속도가 정말 빠른데이제 학회마저 발전 속도를 못따라가는듯 하다. CVPR'23https://arxiv.org/abs/2211.15654 OpenScene: 3D Scene Understanding with Open VocabulariesTraditional 3D scene understanding approaches rely on labeled 3D datasets to train a model for a single task with supervision. We propose OpenScene, an alternative app.. 2023. 12. 27.
[논문리뷰] Lowis3D: Language-Driven Open-WorldInstance-Level 3D Scene Understanding 이제 학부생 과정을 전부 다 끝냈다..지난 시간을 되돌아보면 게으른적도 많았지만나쁘진 않은것 같다.그래도 인공지능 기초는 떼고 석사과정 올라가자는 목표는이룬 것 같은데 석사를 박사같이 하는것은 많이 어려울 것 같다.. ㅋㅋ교수님께서 투자해주시는 것에 비해 결과가 안나와서 항상 죄송할 따름이다.. 각설하고 본 논문은 이전에 리뷰한 PLA 논문의 후속 버전이다.PLA의 저널 버전이라 할 수 있을 만큼 실험이 많고PLA의 instance segmentation 성능을 높인 논문이다.큰 틀에서는 PLA와 같으니 참고하도록 하자. arXiv' 23https://arxiv.org/abs/2308.00353 Lowis3D: Language-Driven Open-World Instance-Level 3D Scene U.. 2023. 12. 19.
[논문 리뷰]Open-Vocabulary Affordance Detection in 3D Point Clouds 본 논문은 Affordance Detection이라는 task 논문이다.Affordance Detection은 행동 유도성 감지로위 그림 처럼 '가방'이라는 object가 감지되었을 때'grab'이라는 task를 수행하기 위해'가방'의 어디를 감지해야 하는지 찾아내는 것이다.컴퓨터 비전 관점에서는 part segmenation과 유사하다.본 논문은 로봇 학회 논문이다. IROS'23https://arxiv.org/abs/2303.02401 Open-Vocabulary Affordance Detection in 3D Point CloudsAffordance detection is a challenging problem with a wide variety of robotic applications. Trad.. 2023. 11. 23.
[논문리뷰]PLA: Language-Driven Open-Vocabulary 3D Scene Understanding 이 논문은 3D segmentation에open-vocabulary를 적용한 논문이다.해당 논문은 CLIP의 textual encoder에 초점을 둔 논문이다.처음에 사전 지식 하나 없이 읽었다가 이해 못하고 넘어갔었던 논문이다. CVPR'23https://arxiv.org/abs/2211.16312 PLA: Language-Driven Open-Vocabulary 3D Scene UnderstandingOpen-vocabulary scene understanding aims to localize and recognize unseen categories beyond the annotated label space. The recent breakthrough of 2D open-vocabulary perce.. 2023. 11. 7.