(서울=뉴스1) 김민석 기자 = 알리바바가 세계 최초로 전문가 혼합(MoE) 아키텍처를 적용한 오픈소스 시네마틱 영상 생성 모델 'Wan2.2' 시리즈를 공개했다고 30일 밝혔다.
알리바바 측은 "Wan2.2 시리즈는 텍스트와 이미지 등 다양한 입력 방식을 단일 프레임워크에 통합해 클릭 한 번으로 고품질 영상을 생성할 수 있다"고 설명했다.
Wan2.2 시리즈는 △텍스트 기반 영상 생성(T2V) 모델 Wan2.2-T2V-A14B △이미지 기반 생성(I2V) 모델 Wan2.2-I2V-A14B △텍스트·이미지 통합 하이브리드 모델 Wan2.2-TI2V-5B 등으로 구성됐다.
알리바바 측은 "이들 모델과 MoE 아키텍처 기반으로 조명·시간대·색조·구도·초점 거리·카메라 앵글 등 다양한 미적 요소를 세밀하게 제어할 수 있다"며 "인물의 표정 변화, 손 제스처, 스포츠 동작 등 복합적 움직임 묘사에서 뛰어난 성능을 보이며, 현실 세계의 물리 법칙을 반영한 사실적 영상을 제작할 수 있다"고 설명했다.
알리바바에 따르면 Wan2.2 시리즈는 노이즈 제거(denoising) 단계에서 전체 장면을 담당하는 '고노이즈 엑스퍼트'(High-Noise Expert)와 디테일을 다듬는 '저노이즈 엑스퍼트'(Low-Noise Expert) 도입해 연산 부담도 줄였다.
해당 엑스퍼트 모델이 번갈아 동작하며 총 270억 개 파라미터 중 매 스텝에서 140억 개만 활성화시켜 연산 부담을 최대 50%까지 줄였다는 설명이다.
Wan2.2는 시네마틱 프롬프트 시스템을 지원한다. 기존 Wan2.1 대비 이미지 데이터는 65.6%, 영상 데이터는 83.2% 이상 늘린 학습 데이터 세트를 바탕으로 복잡한 장면과 창의적 표현을 구현한다.
Wan2.2 시리즈는 △허깅페이스 △깃허브 △알리바바 클라우드 모델스코프 등에서 오픈소스로 내려받을 수 있다. 알리바바는 올해 2월 Wan2.1 시리즈 4종, 5월 영상 생성·편집 통합 모델 Wan2.1-VACE를 오픈소스로 공개한 바 있다.
ideaed@news1.kr
