콘텐츠로 건너뛰기

2024년 The 18th European Conference on Computer Vision (ECCV) – 박준호

[학회 후기]

최고 권위의 컴퓨터 비전 분야 학회인 ECCV2024에 총 3개 논문에 대한 발표자로 참석하였다. 1개 논문은 main conference의 oral presentation이고, 2개 논문은 workshop의 oral 및 poster 이다.
우선 workshop에서는 각 분야의 권위자들의 강연과 연구자들의 연구 성과를 통해 각 분야의 동향을 파악할 수 있었다. 특히, “Observing and Understanding Hands in Action” workshop에서 hand와 관련된 다양한 연구 주제를 접할 수 있었고, 그 중에서 Meta에서 발표한 “Sapiens: Foundation for Human Vision Models”의 저자의 강연이 가장 기억에 남았다. 일반적으로 foundation model이라고 하면 object detection, semantic segmentation, depth estimation과 같은 다양한 vision task를 해결하는 하나의 대규모 모델을 말하는데, human 및 hand에 관한 vision task는 기존 vision task와는 경향이 달라서 해결하는데 어려움을 겪고 있었다. 그러나, Meta가 이번에 human task에 대한 첫 foundation model을 발표함으로써, 추후에 다양한 human 및 hand 관련 foundation model이 등장할 것으로 기대가 되었다. 또한, Meta가 개최한 튜토리얼인 “Project Aria”에서 egocentric vision에 대한 이해를 높일 수 있었다. 특히, 최근에 Meta가 “오라이언”이라는 AR/VR glasses를 발표하여 egocentric vision에 대한 연구자들의 뜨거운 관심도 느낄 수 있었다. 본인도 Meta 부스에 가서 glasses를 착용해보았고, 그 성능과 확장성을 확인함과 동시에 한계점도 느낄 수 있는 시간이었다.
Main conference 기간에는 컴퓨터 비전의 전체적인 연구 동향을 파악하는 시간이었다. 여러 분야에서 다양한 논문이 발표되었지만, 분야를 막론하고 언어, 소리 및 센서 등과 같은 다양한 모달리티와 결합하여 vision task를 해결하려는 multimodal에 관한 연구가 다수 등장하였다. 추후 연구를 진행하게 된다면 관련 연구들을 적극적으로 검토하면 좋겠다는 생각이 들었다. 또한, 세계의 다양한 연구자들과 네트워킹하는 시간도 기억에 남았다. 앞으로도 다양하고 재밌는 연구를 활발하게 진행할 것이고, 국제 학회에 다시 한번 참석하여 연구 성과를 공유할 수 있으면 좋겠다.

[발표 후기]

본인은 diffusion 기반의 text-to-hand image 생성 모델을 제안하였고, oral 및 poster 발표를 진행하였다. Session chair를 비롯한 다양한 연구자들이 각자의 관점으로 여러 질문을 던져주었고, 간혹 생각지도 못한 질문을 받아서 인사이트를 키울 수 있는 시간이었다. 대표적인 질문을 정리하면 다음과 같다.
질문 : 제안 방법을 hand가 아닌 body, face와 같은 다른 domain에도 적용할 수 있는가?
답변 : 물론이다. 제안 방법은 특정 text 및 visual condition에 attention하는 것인데, domain이 변경되더라도 해당 domain에 맞게끔 attention하는 방식을 변경해주면 충분히 적용할 수 있다고 생각한다.