2023년 International Conference on Computer Vision (ICCV) – 양창희, 박준호

[학회 후기]
컴퓨터비전 분야 top-tier 학회인 ICCV 2023에 발표자로 참석하였다. 2023년 10월 2일부터 6일까지 5일간 열렸고, 프랑스 파리에서 개최되었다. 2-3일은 workshop이, 4-6일은 main conference가 진행되었다. 우선 workshop 기간에는 “Observing and Understanding Hands in Action”과 “Creative Video Editing and Understanding”에 참석하였다. 각 workshop은 hand pose와 video editing 분야에서 권위 있는 workshop으로써, 관련 분야의 유명 연구원들도 여럿 참석하여 그들과 연구 방향 및 정보를 공유할 수 있는 소중한 시간을 가질 수 있었다. 특히, hand & human pose 대가로 불리는 문경식 박사님, Michael J. Black과 기념 사진 촬영도 하고 이 분야의 future work에 대하여 논의할 수 있어서 영광이었다. 한편, main conference의 “Humans, 3D modeling, and driving” 세션에서 3D 분야에 대한 선진 연구를 살펴볼 수 있었다. 특히, “Text2Room: Extracting Textured 3D Meshes from 2D Text-to-Image Models”을 통해 text를 이용하여 3D indoor scene을 생성하는 새로운 task에 대하여 자세히 이해할 수 있었고, “DECO: Dense Estimation of 3D Human-Scene Contact In the wild”를 통해 최근 human 분야의 contact에 대한 연구에 관심이 많이 있었는데, oral까지 된 것을 보니 확실히 뜨거운 분야임을 알 수 있었다. 또한, ”Probabilistic Human Mesh Recovery in 3D Scenes from Egocentric Views”를 보며 egocentric vision의 경우 Apple에서 나온 VR기기를 통해서 관심이 뜨거울 것으로 예상했는데, 역시나 oral 발표인 것을 보니 이에 대한 확신이 들었다. 뿐만 아니라 컴퓨터비전 분야 top-tier 학회인 만큼 최신 기술들이 나오며 여러 분야를 접할 수 있어서 정말 인상적이었다.

[발표 후기]
Human pose estimation에서 복잡한 포즈와 가림에 대한 문제점을 해결하는 논문을 발표하면서, Sony, 한화 비젼, Adobe, PoseTrans 저자 등 전문가들과의 대화를 통해 해당 분야의 다양한 문제와 이번 논문에서 해결한 방식 및 문제점에 대해서 흥미롭게 바라본 것이 기억이 난다. 무엇보다도 Michael J. Black에게 직접 발표하면서 많은 피드백을 받고 도움이 많이 되었다. 한편, 발표에서 가장 많이 나온 질문은 다음과 같다.
(질문) Video 환경에서도 가능한지?
(답변) 아무래도 단일 image에서만 진행하다 보면 video에서 흔들리거나 제대로 작동하지 않을 수 있다고 판단한 것 같다. 프로젝트 페이지(https://yangchanghee.github.io/ICCV2023_SEFD_page/)를 보면 비디오 영상에 대한 결과까지 시각화함으로써 video에서도 충분히 적용할 수 있는 것을 확인할 수 있다.

또한, hand pose estimation에 대한 in-the-wild 데이터셋을 생성하여 domain gap을 극복하는 논문을 발표하면서, hand pose를 연구하는 여러 유명 연구자들과 이야기를 나눌 수 있었다. 특히, 세계적인 연구자들 앞에서 논문의 motivation 및 method에 대하여 설명하니 그들이 납득하고 흥미로워 하는 모습을 보면서, 디퓨전을 활용한 연구에 대한 방향성을 확인함과 동시에 추후 연구에 대한 확실한 동기 부여도 되었다. 한편, 발표에서 가장 많이 나온 질문은 다음과 같다.
(질문) Text prompt와 visual prompt 각각의 역할이 무엇인지?
(답변) Text prompt는 다양한 in-the-wild 상황을 연출하는 역할을, visual prompt는 특정 hand pose에 대한 이미지를 생성하는 역할을 가지고 있다. 이 두 가지의 prompt로 conditioning 함으로써, hand-annotated in-the-wild 데이터셋을 생성할 수 있다.