[학회 후기]
컴퓨터비전 분야 top-tier 학회인 ECCV 2024에 발표자로 참석하였다. 이번 ECCV는 9월 29일부터 10월 4일까지 총 6일간 열렸고, 9월 29-30일은 워크샵이 진행되고 10월 1-4일은 main conference가 진행되었다. 우선 Workshop 기간에는 기존에 관심있던 efficiency와 관련된 주제를 선정하여 세미나에 참석하였다. 참석한 주제는 “Efficient Deep Learning for Foundation Models”, “Computational Aspects of Deep Learning” 등이 있었다. 놀라웠던 점은 경량화 하는 대상이 대규모 foundation model을 타겟으로 하는 연구들이었기 때문에, 경량화 된 모델 사이즈도 1B 스케일의 파라미터를 갖고 있는 딥러닝 모델이었다. 즉, 70B 정도의 foundation 모델을 1B 스케일로 줄이는 연구 등이 있었다. 이를 통해 최근에는 대규모 모델에 관심이 많으며 경량화를 한다고 하더라도 많은 GPU 자원을 요구하는 연구가 대세를 이루고 있다는 것을 알 수 있었다. 또한 main conference에도 참석하여 여러 포스터 발표자들과 연구 이야기를 나눌 수 있었다. 인상깊었던 논문은 “DenseNets Reloaded: Paradigm Shift Beyond ResNets and ViTs”과 “SeiT++: Masked Token Modeling Improves Storage-efficient Training” 이었다. DensNets은 매우 옛날에 제안된 구조로 residual summation 구조 대신 concatenate 방법으로 이전 layer의 feature information을 다음으로 넘겨준다는 것이었다. 하지만 이 방법에는 computational cost가 많이 든다는 단점이 있었는데 channel을 조정하여 이 단점을 개선하여 성능 개선을 이룬 연구였다. 이와 같이 단순하면서 효과적인 구조를 제안하는 연구들이 항상 대단하다고 느낀다. 그리고 두번째로 SeiT는 vision data를 tokenize를 통해 size를 줄여서 학습을 진행하는 분야에 대한 연구였다. 이를 통해 ImageNet-1k를 1%까지 줄여서 학습시킬 수 있는 결과를 보여주고 있다. ImageNet은 데이터 크기가 매우 커서 학습이 오래걸리는데 추후의 연구에 해당 framework를 도입할 수 있겠다는 생각이 들어서 인상적이었다.
[발표 후기]
우리 팀은 Transformer 구조를 기반으로 한 경량 구조 및 방법에 대한 내용으로 포스터 발표를 진행하였다. 감사하게도 생각보다 많은 사람들이 관심을 가져주었고, 다양한 기업의 사람들과 연구에 대한 이야기를 할 수 있다는 점이 즐거웠고 앞으로의 연구 방향성에도 큰 도움이 되었다. 발표에서 나온 질문은 다음과 같다.
질문 : 제안하는 경량 구조 및 방법이 vision task 뿐만 아니라 diffusion 이나 multi-modal과 같은 task에도 적용될 수 있는지?
대답 : 제안하는 방법은 attention 기반의 transformer 구조를 기반으로 한다. 따라서 transformer 구조를 기반으로 하는 다양한 task에 범용적으로 적용할 수 있다.
위의 질문을 통해 최근에는 vision 분야에서 diffusion 및 multi-modal task가 활발하게 연구되고 있다는 것을 알 수 있었다. 따라서 추후 연구를 진행할 때 그쪽에서의 추가적인 검증 실험이 필요하다는 것을 배울 수 있었다.