카나나, 폰 안의 'AI 비서'…검색·숏폼·녹음 '알아서 척척'

"카나나, 온디바이스와 에이전틱 AI 모델로 진화할 것"
음성·이미지 다루는 멀티모달로…타 모델 대비 고성능·저비용

김병학 카나나 성과리더가 23일 경기 용인시 카카오AI캠퍼스에서 열린 개발자 콘퍼런스 '이프 카카오'(if(kakao)25)에서 기조연설을 하고 있다. 2025.09.23. ⓒ 뉴스1 신은빈 기자

(용인=뉴스1) 신은빈 기자 = 카카오(035720)의 자체 인공지능(AI) 모델 '카나나'(Kanana)가 장치에 탑재된 채 이용자 기대에 맞는 서비스를 제공하는 'AI 비서'로 진화한다.

김병학 카나나 성과리더는 23일 경기 용인시 카카오AI캠퍼스에서 열린 개발자 콘퍼런스 '이프 카카오'(if(kakao)25)에서 카나나 모델의 개발과 적용 계획을 소개했다.

카카오는 카나나를 온디바이스(장치 탑재)와 에이전틱 AI 모델로 발전시키고 있다. 더불어 텍스트뿐 아니라 음성과 이미지까지 다루는 멀티 모달 모델로 고도화할 예정이다.

김 성과리더는 "카나나는 국내 최초로 텍스트·음성·이미지를 동시에 얘기하고 텍스트와 음성으로 답변하는 모델"이라고 설명했다.

예를 들어 넷플릭스 시리즈 '폭싹 속았수다' 포스터를 카나나에 입력하면 카나나는 텍스트와 함께 음성으로 "이 이미지는 넷플릭스 시리즈 '폭싹 속았수다'의 포스터예요"라며 "제주도의 멋진 풍경과 가족, 사랑, 우정 얘기가 담겨 많은 분들에게 감동을 주는 작품"이라고 답한다.

카나나가 이미지만 보고 해당 작품이 제주도를 배경으로 했으며 제주도 방언을 쓰고 있다는 사실을 명확히 인지했다는 뜻이다.

김 성과리더는 "카나나는 한국어와 한국 문화에 특화돼 제주도 사투리도 정확하게 인식하고 내용을 설명한다"고 말했다.

카카오톡에는 카나나 1.5 버전이 온디바이스 형태로 탑재된다. 지식 증류 기법과 경량화, 양자화 기술을 자체적으로 적용해 작은 모델이지만 뛰어난 성능과 속도를 제공하도록 구현했다. 이 모델은 2월 오픈소스 공개 후 5월 업그레이드를 거쳤다.

그는 "이제 이용자는 민감한 데이터를 서버에 전송하지 않고 네트워크 연결 없이도 AI를 안전하고 빠르게 활용할 수 있게 됐다"고 말했다.

음성 인식 모델 카나나-카브(Kanana-karve)는 통화 녹음 기능에 적용된다. 이 모델은 최대 30분간의 통화 내용을 10초 안에 텍스트로 변환한다. 오픈AI의 GPT-4o mini 모델과 비교해 정확도는 105%에 달하지만 처리 비용은 2% 수준으로 구현했다.

카나나-1.5-9.8b는 통화와 대화 내용의 주요 주제를 6초 안에 다섯 문장으로 요약한다. 특히 통화 참여자의 익명성을 보장하면서 GPT-4o 대비 101% 정확도의 성능을 0.5% 수준의 비용으로 달성했다.

통합 멀티 모달 언어 모델 카나나-o는 숏폼(짧은 동영상) 추천을 위한 비디오 분석 기능에 접목됐다. 이 모델은 오디오의 비주얼 정보를 동시에 구성해 1.4초 만에 숏폼을 추천하는 핵심 키워드나 요약 등 데이터를 제출한다.

숏폼 생성 모델 카나나-키네마는 이용자가 이미지를 업로드하면 1초 분량 영상을 8초 만에 생성한다. 다양한 생성 비율을 지원하고 카메라 움직임을 제어하며, 처리 비용은 구글의 영상 생성 AI '비오3 패스트'(Veo3 Fast)의 35% 수준이다.

김 성과리더는 "카나나는 글로벌 모델과 견줄 수 있는 성능과 효율성, 서비스 특성에 맞는 최적화, 보안과 안전성에 집중하고 있다"며 "향후 다양한 카카오 서비스에서 카나나 모델을 자연스럽게 경험할 것"이라고 말했다.

bean@news1.kr