中알리바바, 오픈소스 시네마틱 영상생성 모델 'Wan2.2' 공개

전문가혼합 아키텍처 기반 통합 모델…프롬프트 지원
"복잡하고 창의적 영상도 클릭 한 번에 생성"

알리바바 로고 ⓒ AFP=뉴스1
알리바바 로고 ⓒ AFP=뉴스1

(서울=뉴스1) 김민석 기자 = 알리바바가 세계 최초로 전문가 혼합(MoE) 아키텍처를 적용한 오픈소스 시네마틱 영상 생성 모델 'Wan2.2' 시리즈를 공개했다고 30일 밝혔다.

알리바바 측은 "Wan2.2 시리즈는 텍스트와 이미지 등 다양한 입력 방식을 단일 프레임워크에 통합해 클릭 한 번으로 고품질 영상을 생성할 수 있다"고 설명했다.

Wan2.2 시리즈는 △텍스트 기반 영상 생성(T2V) 모델 Wan2.2-T2V-A14B △이미지 기반 생성(I2V) 모델 Wan2.2-I2V-A14B △텍스트·이미지 통합 하이브리드 모델 Wan2.2-TI2V-5B 등으로 구성됐다.

알리바바 측은 "이들 모델과 MoE 아키텍처 기반으로 조명·시간대·색조·구도·초점 거리·카메라 앵글 등 다양한 미적 요소를 세밀하게 제어할 수 있다"며 "인물의 표정 변화, 손 제스처, 스포츠 동작 등 복합적 움직임 묘사에서 뛰어난 성능을 보이며, 현실 세계의 물리 법칙을 반영한 사실적 영상을 제작할 수 있다"고 설명했다.

알리바바에 따르면 Wan2.2 시리즈는 노이즈 제거(denoising) 단계에서 전체 장면을 담당하는 '고노이즈 엑스퍼트'(High-Noise Expert)와 디테일을 다듬는 '저노이즈 엑스퍼트'(Low-Noise Expert) 도입해 연산 부담도 줄였다.

해당 엑스퍼트 모델이 번갈아 동작하며 총 270억 개 파라미터 중 매 스텝에서 140억 개만 활성화시켜 연산 부담을 최대 50%까지 줄였다는 설명이다.

Wan2.2는 시네마틱 프롬프트 시스템을 지원한다. 기존 Wan2.1 대비 이미지 데이터는 65.6%, 영상 데이터는 83.2% 이상 늘린 학습 데이터 세트를 바탕으로 복잡한 장면과 창의적 표현을 구현한다.

Wan2.2 시리즈는 △허깅페이스 △깃허브 △알리바바 클라우드 모델스코프 등에서 오픈소스로 내려받을 수 있다. 알리바바는 올해 2월 Wan2.1 시리즈 4종, 5월 영상 생성·편집 통합 모델 Wan2.1-VACE를 오픈소스로 공개한 바 있다.

ideaed@news1.kr

대표이사/발행인 : 이영섭

|

편집인 : 채원배

|

편집국장 : 김기성

|

주소 : 서울시 종로구 종로 47 (공평동,SC빌딩17층)

|

사업자등록번호 : 101-86-62870

|

고충처리인 : 김성환

|

청소년보호책임자 : 안병길

|

통신판매업신고 : 서울종로 0676호

|

등록일 : 2011. 05. 26

|

제호 : 뉴스1코리아(읽기: 뉴스원코리아)

|

대표 전화 : 02-397-7000

|

대표 이메일 : webmaster@news1.kr

Copyright ⓒ 뉴스1. All rights reserved. 무단 사용 및 재배포, AI학습 활용 금지.