LG AI연구원, 멀티모달 AI '엑사원 4.5' 공개…GPT-5 mini 앞서
비전 이코더·거대언어모델 구조 통합한 비전-언어 모델
오픈 웨이트 공개로 AI 생태계 확장 기여…한국 이해 AI로 진화
- 원태성 기자
(서울=뉴스1) 원태성 기자 = LG AI연구원이 9일 텍스트와 이미지를 동시에 이해하고 추론하는 멀티모달 AI 모델 '엑사원(EXAONE) 4.5'를 공개했다.
엑사원 4.5는 LG AI연구원이 2021년 12월 국내 최초 멀티모달 AI 모델 '엑사원 1.0'을 개발하며 축적한 기술력을 바탕으로 자체 개발한 비전 인코더(Vision Encoder)와 거대언어모델(LLM)을 하나의 구조로 통합한 비전-언어 모델(VLM)이다.
엑사원 4.5의 가장 큰 특징은 산업 현장에서 실제로 마주하는 복잡한 비정형 데이터를 읽고 분석하는 '실전형 추론 능력'이다.
단순히 사진 속 사물을 인식하는 수준을 넘어 복잡한 설계 도면이나 재무제표, 각종 기술 계약서에 담긴 텍스트와 시각 정보를 유기적으로 연결해 맥락을 파악한다. 이는 AI가 가상 세계의 데이터를 넘어 실제 산업 현장의 난제들을 해결할 수 있는 '피지컬 인텔리전스'로 진화하기 위한 핵심 단계다.
성능 평가 결과 엑사원 4.5는 AI 시각 처리와 추론 능력을 측정하는 13개 지표 평균 점수에서 오픈AI의 'GPT-5 mini'와 앤트로픽의 '클로드 소넷 4.5' 등 글로벌 경쟁사 모델을 상회했다.
특히 STEM(과학·기술·공학·수학) 성능 지표에서 77.3점을 기록하며 글로벌 최고 수준의 경쟁력을 입증했다. 코딩 성능 지표와 복잡한 차트 분석 능력에서도 구글의 최신 모델을 앞서는 성과를 보였다.
효율성 측면에서도 괄목할 만한 성과를 냈다. 엑사원 4.5는 파라미터 규모를 기존 모델의 7분의 1 수준인 330억 개로 줄였음에도 하이브리드 어텐션 구조 등 고속 추론 기술을 적용해 동등한 수준의 텍스트 추론 성능을 유지했다. 지원 언어 역시 한국어와 영어를 포함해 스페인어, 일본어, 베트남어 등 6개 언어로 확장됐다.
LG AI연구원은 AI 생태계 확장을 위해 엑사원 4.5를 글로벌 플랫폼 허깅페이스에 연구 및 교육 목적으로 공개했다. 이는 국내 AI 파운데이션 모델 프로젝트인 'K-엑사원'의 모달리티 확장을 위한 준비 단계다. 향후 음성과 영상은 물론 물리적 환경까지 이해하고 판단하는 '피지컬 인텔리전스'로 발전시킨다는 목표다.
신뢰성 확보를 위한 노력도 병행한다. 자체 설계한 AI 위험 분류체계를 기반으로 한국의 역사와 문화적 맥락을 깊이 이해하는 모델로 진화시키기 위해 유관 기관과 고품질 데이터 학습 협업을 지속할 방침이다.
이진식 LG AI연구원 엑사원랩장은 "엑사원 4.5는 텍스트를 넘어 시각 정보까지 완벽히 이해하는 멀티모달 시대로의 진입을 알리는 신호탄"이라며 "앞으로 이해 범위를 음성과 영상, 더 나아가 물리적 환경까지 확장해 산업 현장에서 실질적으로 판단하고 행동하는 AI를 만들어가겠다"고 강조했다.
khan@news1.kr
Copyright ⓒ 뉴스1. All rights reserved. 무단 전재 및 재배포, AI학습 이용금지.









