서강대(총장 심종혁) 전자공학과 강석주 교수 연구팀(문승훈·유현우 석박통합과정, 이해욱 석사)의 논문이 세계 최고 권위를 인정받는 인공지능(AI) 학회 ‘ICLR 2026(International Conference on Learning Representations)’에 채택됐다고 서강대가 11일 전했다.
서강대에 따르면, ICLR은 구글 스콜라(Google Scholar) h-index 기준 인공지능 분야 글로벌 최상위권에 위치한 국제 학술대회다. 올해는 논문 채택률이 약 28%에 불과할 정도로 엄격한 심사가 이뤄졌다. 학술대회는 오는 4월 23~27일 브라질 리우 데 자네이루에서 열린다.
강 교수팀의 논문은 ‘WIMFRIS: WIndow Mamba Fusion and Parameter Efficient Tuning for Referring Image Segmentation’으로, 텍스트 설명을 기반으로 이미지 내 특정 객체를 픽셀 단위로 정확히 찾아내는 ‘지시어 기반 이미지 분할(RIS)’ 기술의 새로운 프레임워크를 제안하였다.
연구팀은 기존의 파라미터 효율적 튜닝(PET) 방법들이 단순히 층별(layer-wise) 특징 정렬에만 집중해 시각 정보와 언어 정보를 융합하는 ‘넥(Neck)’ 모듈의 중요성을 간과하고 있다는 점에 주목했다. 이로 인해 발생하는 성능 병목 현상을 해결하기 위해, 연구팀은 강력한 넥 구조와 효율적인 튜닝 전략을 결합한 ‘WIMFRIS’를 개발했다.
이 논문의 핵심은 ‘계층적 맘바 퓨전(HMF)’ 블록과 이를 구성하는 ‘윈도우 맘바 퓨저(WMF)’ 모듈이다. 기존의 상태 공간 모델(SSM)인 맘바(Mamba)는 긴 시퀀스를 처리할 때 정보가 소실되는 문제가 있었으나, 연구팀은 이미지를 겹치지 않는 윈도우(Window) 단위로 분할해 처리함으로써 이 문제를 해결했다. 이를 통해 이미지의 지역적 정보와 전역적 언어 정보를 효과적으로 융합할 수 있게 됐다.
또, 연구팀은 텍스트 정보를 강화하는 ‘맘바 텍스트 어댑터(MTA)’와 시각-언어 정렬을 정교화하는 ‘멀티 스케일 정렬기(MSA)’를 도입, 전체 모델 파라미터의 약 1.3~2.2%만을 업데이트하면서도 기존 최고 성능 모델들을 뛰어넘는 결과를 달성했다. 실험 결과 WIMFRIS는 RefCOCO, RefCOCO+, G-Ref 등 주요 벤치마크 데이터셋에서 모두 최고점(State-of-the-Art)을 기록했다.
제안한 WIMFRIS 기술은 복잡한 배경이나 가려진 객체, 모호한 텍스트 설명이 주어진 상황에서도 타겟을 정확히 분할해낼 수 있어 인간과 로봇의 상호작용(HRI), 자율주행, 지능형 이미지 편집 등 다양한 산업 분야의 원천 기술로 활용될 것으로 기대된다.
연구를 이끈 강석주 교수는 “WIMFRIS는 기존 경량화 튜닝 기법들이 놓치고 있던 중간 단계의 정보 융합 중요성을 입증하고 차세대 딥러닝 모델인 맘바(Mamba)를 비전-언어 태스크에 최적화하여 적용한 사례”라며 “향후 다양한 멀티모달 AI 시스템의 효율성을 높이는 데 크게 기여할 것”이라고 말했다.
이번 연구는 2026년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원·한국연구재단·정보통신기획평가원-대학ICT연구센터 지원을 받아 수행됐다.
이은주 기자주요뉴스
이슈NOW
기사 추천
- 추천해요 0
- 좋아요 0
- 감동이에요 0
- 화나요 0
- 슬퍼요 0