中알리바바, 오픈소스 시네마틱 영상생성 모델 'Wan2.2' 공개

(서울=뉴스1) 김민석 기자 = 알리바바가 세계 최초로 전문가 혼합(MoE) 아키텍처를 적용한 오픈소스 시네마틱 영상 생성 모델 'Wan2.2' 시리즈를 공개했다고 30일 밝혔다.

알리바바 측은 "Wan2.2 시리즈는 텍스트와 이미지 등 다양한 입력 방식을 단일 프레임워크에 통합해 클릭 한 번으로 고품질 영상을 생성할 수 있다"고 설명했다.

Wan2.2 시리즈는 △텍스트 기반 영상 생성(T2V) 모델 Wan2.2-T2V-A14B △이미지 기반 생성(I2V) 모델 Wan2.2-I2V-A14B △텍스트·이미지 통합 하이브리드 모델 Wan2.2-TI2V-5B 등으로 구성됐다.

알리바바 측은 "이들 모델과 MoE 아키텍처 기반으로 조명·시간대·색조·구도·초점 거리·카메라 앵글 등 다양한 미적 요소를 세밀하게 제어할 수 있다"며 "인물의 표정 변화, 손 제스처, 스포츠 동작 등 복합적 움직임 묘사에서 뛰어난 성능을 보이며, 현실 세계의 물리 법칙을 반영한 사실적 영상을 제작할 수 있다"고 설명했다.

알리바바에 따르면 Wan2.2 시리즈는 노이즈 제거(denoising) 단계에서 전체 장면을 담당하는 '고노이즈 엑스퍼트'(High-Noise Expert)와 디테일을 다듬는 '저노이즈 엑스퍼트'(Low-Noise Expert) 도입해 연산 부담도 줄였다.

해당 엑스퍼트 모델이 번갈아 동작하며 총 270억 개 파라미터 중 매 스텝에서 140억 개만 활성화시켜 연산 부담을 최대 50%까지 줄였다는 설명이다.

Wan2.2는 시네마틱 프롬프트 시스템을 지원한다. 기존 Wan2.1 대비 이미지 데이터는 65.6%, 영상 데이터는 83.2% 이상 늘린 학습 데이터 세트를 바탕으로 복잡한 장면과 창의적 표현을 구현한다.

Wan2.2 시리즈는 △허깅페이스 △깃허브 △알리바바 클라우드 모델스코프 등에서 오픈소스로 내려받을 수 있다. 알리바바는 올해 2월 Wan2.1 시리즈 4종, 5월 영상 생성·편집 통합 모델 Wan2.1-VACE를 오픈소스로 공개한 바 있다.

ideaed@news1.kr

용어설명

전문가 혼합(MoE)

전문가 혼합(Mixture-of-Experts)은 인공지능 모델의 효율성과 확장성을 극대화하기 위해 설계된 혁신적인 아키텍처다. 이 기법은 입력 데이터에 따라 특화된 하위 모델(전문가)을 선택적으로 활성화해 연산 비용을 절감하면서도 대규모 모델의 장점을 유지한다.

고노이즈 엑스퍼트

고노이즈 엑스퍼트(High-Noise Expert)는 초기 전체 장면의 구조와 큰 윤곽을 담당하는 전문가다. 이미지 생성 초반 복잡하고 다양한 노이즈가 존재할 때 대규모 연산을 통해 전체적인 형태와 구성을 빠르고 효율적으로 잡아주는 역할을 한다.

저노이즈 엑스퍼트

저노이즈 엑스퍼트(Low-Noise Expert)는 장면의 뼈대가 완성된 상태에서 세밀한 디테일과 미세한 질감·완성도를 높이는 전문가다. 상대적으로 적은 연산으로 고품질의 최종 결과물을 만들어 낸다.

中알리바바, 오픈소스 시네마틱 영상생성 모델 'Wan2.2' 공개

전문가혼합 아키텍처 기반 통합 모델…프롬프트 지원
"복잡하고 창의적 영상도 클릭 한 번에 생성"

뉴스1 부산ㆍ경남

뉴스1 제주

中알리바바, 오픈소스 시네마틱 영상생성 모델 'Wan2.2' 공개

전문가혼합 아키텍처 기반 통합 모델…프롬프트 지원"복잡하고 창의적 영상도 클릭 한 번에 생성"

전문가혼합 아키텍처 기반 통합 모델…프롬프트 지원
"복잡하고 창의적 영상도 클릭 한 번에 생성"