카카오 "사람처럼 보고 듣고 말하며 공감하는 AI 공개"

손엄지 기자

2025.05.01 오전 09:52

국내 최초 텍스트·음성·이미지 통합 언어모델 선봬

카나나-o의 자연스러운 음성생성

(서울=뉴스1) 손엄지 기자 = 카카오(035720)가 텍스트 중심 인공지능(AI)을 넘어 사람처럼 보고 듣고 말하며 공감하는 멀티모달 언어모델을 국내 최초로 공개했다.

카카오는 1일 공식 테크블로그를 통해 통합 멀티모달 언어모델 '카나나(Kanana)-o'와 오디오 언어모델 'Kanana-a'의 성능과 개발 후기를 공개했다.

통합 멀티모달 언어모델인 'Kanana-o'는 텍스트, 음성, 이미지 중 어떠한 조합으로 질문을 입력하더라도 처리 가능하다. 상황에 맞는 텍스트나 자연스러운 음성으로 응답 가능한 구조로 설계됐다.

카카오는 '모델 병합'(Model Merging) 기술을 기반으로 이미지 처리에 특화된 모델 'Kanana-v'와 오디오 이해·생성에 특화된 'Kanana-a' 모델을 통합해 'Kanana-o'를 개발했다.

통합 후에는 이미지, 오디오, 텍스트 데이터를 동시에 학습하는 '병합 학습'(Joint Training)을 통해 시각과 청각 정보를 동시에 이해하고, 텍스트와 연결 지을 수 있도록 통합 훈련을 거쳤다.

이러한 과정을 통해 기존 초거대언어모델(LLM) 구조에서 이미지 이해 능력과 음성 인식과 합성, 감정 이해 등 고도화된 오디오 능력을 확장시킨 통합 멀티모달 언어모델이 구현됐다.

본문 이미지 - 카나나-o 창작 예시 — 카나나-o 창작 예시

Kanana-o는 음성 감정 인식 기술을 통해 사용자의 의도를 올바르게 해석하고, 상황에 맞는 적절한 반응과 답변을 제공한다.

억양, 말투, 목소리 떨림 등 비언어적 신호를 분석하고, 대화 맥락에 맞는 감정적이고 자연스러운 음성의 응답을 생성하는 것이 특징이다.

대규모 한국어 데이터셋을 활용해 한국어의 특수한 발화 구조, 억양, 어미 변화 등을 정밀하게 반영하기도 했다. 제주도, 경상도 등 지역 방언도 인식한다.

지속적인 성능의 고도화를 위해 카카오는 현재 독자적인 한국어 음성 토크나이저(오디오 신호를 일정 단위로 작게 분해하는 도구) 개발을 진행 중이다.

본문 이미지 - 카나나-o 성능 — 카나나-o 성능

Kanana-o는 한국어·영어 벤치마크에서 글로벌 최고 모델들과 유사 수준을 기록했다. 한국어 벤치마크에서는 높은 우위를 보였다.

특히 감정인식 능력에서는 한국어와 영어 모두에서 큰 격차를 기록했다. 감정까지 이해하고 소통할 수 있는 AI 모델의 가능성을 입증했다.

카카오는 향후 'Kanana-o'를 통해 △다중 턴(Multi-turn) 대화 처리 △Full-duplex(양방향 데이터 동시 송수신 기술) 대응 능력 강화 △부적절한 응답 방지를 위한 안전성 확보 등을 목표로 연구 개발을 지속해 갈 계획이다.

카카오는 "실제 대화에 가까운 자연스러운 상호작용을 실현해 가는 것이 목표"라고 말했다.

eom@news1.kr

관련 키워드

손엄지 기자