카카오, 차세대 멀티모달 AI '카나나' 발표…서비스 최적화 속도

[if(kakao)25] 김병학 카나나 성과리더 "에이전틱 AI 현실화"

김병학 카나나 성과리더 (카카오 제공)
김병학 카나나 성과리더 (카카오 제공)

(서울=뉴스1) 손엄지 기자 = 카카오(035720)가 자체 개발한 AI 모델 '카나나(Kanana)'를 앞세워 차세대 에이전틱(Agentic) AI 비전을 공개했다. '카나나'는 언어·음성·영상까지 아우르는 멀티모달 모델로 진화하며, 실제 서비스에 최적화된 고성능 AI 구현을 목표로 하고 있다.

김병학 카나나 성과리더는 24일 경기 용인시 카카오AI캠퍼스에서 열린 개발자 콘퍼런스 '이프 카카오'(if(kakao)25)에서 자체 개발 카나나 모델을 소개했다.

카나나 모델은 롱컨텍스트 처리와 멀티모달 이해, 추론 능력, 외부 도구를 활용하는 능력을 집중적으로 강화하고 있다.

김 성과리더는 "카나나 모델 진화의 근간에는 강력한 언어모델이 존재한다"고 설명했다.

카카오는 올해 2월 언어모델의 라인업을 완성했고, 3개월 만에 수학, 코딩 등의 고난도 문제 해결 능력을 향상시킨 Kanana-1.5를 공개했다.

이후 Kanana-1.5를 기반으로 필요한 상황에 따라 똑똑한 모델을 나눠 쓰는 전문가 혼합(MoE) 구조의 모델을 개발했고, 추론 모델 연구를 진행해 왔다.

현재 Kanana-1.5를 통해 축적한 기술을 확장해 고성능과 효율성, 그리고 실제 서비스에서 가장 편리한 AI를 목표로 Kanana-2를 개발 중이다.

김 성과리더는 장기적으로 지시를 따르는 'Instruct'(지시) 모델과 깊게 생각하는 'Resoning'(추론) 모델을 통합해 카카오 서비스에 최적화된 하이브리드 언어모델을 완성할 계획이라고 밝혔다.

아울러 고성능 언어모델을 기반으로 다양한 형태의 정보를 자유자재로 이해하고 생성하는 '애니 투 애니'(Any-to-Any) 구조의 옴니모달 모델 방향성도 언급했다.

김 성과리더는 실제로 사람 간의 대화처럼 자연스럽고 몰입감있는 대화 역량 확보하는 것을 목표로 수립하고 △음성 기반의 멀티턴 대화 처리 능력 △사람처럼 끊김없이 소통하는 풀 듀플렉스(Full-duplex) 음성 대화 지원 △인간의 가치에 부합하는 답변을 위한 학습과 안전성 강화를 위해 집중할 계획이라고 말했다.

카카오는 멀티모달 이해를 넘어 생성하는 능력까지 고도화하기 위해 현재 이미지 생성 모델 '카나나 콜라주'(Kanana-kollage)를 개발해 서비스에 적용하고 있다. 동영상 생성 모델인 '카나나 키네마'(Kanana-kinema)로 확장하고 있다.

김 성과리더는 "인물의 포즈를 정교하게 제어하는 모듈을 추가해 자연스러운 인물 영상을 만들어내고, 생성 속도 단축을 위해 최적화 작업을 진행중"이라며 "음성모델의 경우 연내 최대 5개의 언어를 지원할 수 있도록 확대할 예정"이라고 말했다.

이어 "카나나 모델을 바탕으로 이용자의 마음을 먼저 읽고, 알아서 도와주는 에이전틱 AI를 현실로 만들어 나갈 것"이라고 강조했다.

eom@news1.kr

대표이사/발행인 : 이영섭

|

편집인 : 채원배

|

편집국장 : 김기성

|

주소 : 서울시 종로구 종로 47 (공평동,SC빌딩17층)

|

사업자등록번호 : 101-86-62870

|

고충처리인 : 김성환

|

청소년보호책임자 : 안병길

|

통신판매업신고 : 서울종로 0676호

|

등록일 : 2011. 05. 26

|

제호 : 뉴스1코리아(읽기: 뉴스원코리아)

|

대표 전화 : 02-397-7000

|

대표 이메일 : webmaster@news1.kr

Copyright ⓒ 뉴스1. All rights reserved. 무단 사용 및 재배포, AI학습 활용 금지.