
(서울=뉴스1) 나연준 기자 = 과학기술정보통신부와 한국연구재단은 이달의 과학기술인상 10월 수상자로 추가 학습 없이 사실상 무한한 길이의 영상을 생성할 수 있는 추론 알고리즘을 개발한 한보형 서울대 전기·정보공학부 교수를 선정했다고 1일 밝혔다.
인공지능(AI) 연구에서 영상 생성은 가장 고난도의 기술적 도전 과제로 꼽힌다. 기존의 확산(Diffusion) 모델은 원하는 설명에 맞는 영상을 생성하는 데 활용되고 있으나, 생성하는 영상 길이에 비례해 메모리 사용량이 기하급수적으로 증가한다는 한계가 있었다.
한 교수는 사전 학습된 확산 모델을 그대로 활용하면서도 사실상 무한히 긴 영상을 생성할 수 있는 선입선출 디퓨전(FIFO-Diffusion : First-In-First-Out)이라는 추론 알고리즘을 개발해 이 문제를 해결했다.
피포 디퓨전의 핵심은 대각선 디노이징(Diagonal denoising)으로 컨베이어 벨트처럼 순차적으로 프레임을 배치해 앞쪽부터 단계적으로 영상을 생성(노이즈를 제거)하는 방식이다. 이 방식은 비디오 길이가 늘어나더라도 메모리 사용량이 고정되어 기존 모델의 메모리 한계를 극복할 수 있다.
또한 한보형 교수는 긴 시퀀스를 작은 구간으로 나눠 안정성을 높이는 '잠재 구간 분할'(Latent Partitioning)과 상대적으로 깨끗한 프레임을 활용하여 품질을 개선하참조 디노이징'''(Lookahead Denoising) 기법을 더해 장시간 영상에서도 높은 화질과 시간적 일관성을 확보하였다.
해당 연구 성과는 2024년 12월 신경정보처리시스템학회(NeurIPS)에서 발표됐으며, 연구팀이 공개한 소스코드는 현재 깃허브(GitHub)에서 450개 이상의 별(star)을 받으며 전 세계 연구자와 개발자들에게 활용되고 있다.
한 교수는 “이번 연구는 기존 비디오 생성 모델이 가진 고정 길이 및 메모리 병목 문제를 새로운 추론 알고리즘으로 해결한 데 의의가 있다"며 "향후 영화, 게임, 광고 등 다양한 응용 분야에서 콘텐츠 제작 비용 및 제작 시간을 획기적으로 단축할 수 있을 것"이라고 말했다.
yjra@news1.kr