GIST, 거대언어모델 추론 능력 정량적 평가 방법 개발

AI융합학과 김선동 교수팀…"인간과 비교하면 아직은 한계"

신동현·이승필 학생, 김선동 교수, 김세진 연구원(왼쪽부터)(지스트 제공)/뉴스1

(광주=뉴스1) 조영석 기자 = 광주과학기술원(GIST)은 AI융합학과 김선동 교수 연구팀이 거대언어모델(LLM)의 추론 능력을 정량적으로 측정할 수 있는 새로운 프레임워크를 개발했다고 13일 밝혔다.

오픈AI가 챗GPT에 적용된 거대언어모델(LLM)인 GPT-4는 언어 능력과 기억력에서 큰 발전을 이뤘지만 실제 논리적 사고나 추론 능력은 여전히 제한적이라는 평가를 받고 있다.

연구팀은 인간의 인지 과정이 '사고 언어'로 매개된다는 인지심리학의 ‘사고 언어 가설’을 기반으로 LLM의 추론 과정을 평가하는 방법을 제시했다.

연구팀은 가설에 따라 인간의 추론 과정인 △논리적 일관성 △구성성 △생성성의 세 가지 특징에 초점을 맞춰 LLM의 추론 및 문맥 이해 능력을 평가하는 새로운 접근 방식을 도출했다.

연구 결과 LLM의 추론 능력은 논리적 일관성 부문에서 증강(변형) 문제에 대해 평균 18.2%의 정확도를, 구성성 부문에서 조합 과제에 대해 5~15%의 정확도를, 생성성 부문에서는 17.12%의 생성 타당도를 보였다.

연구팀은 LLM이 일부 추론 능력을 보이지만 계획 단계가 길고 입출력 이미지가 복잡해지면 단계적인 추론을 거치지 못해 논리적 일관성이나 구성성, 생성성에서 한계를 보이며, 인간과 비교했을 때 추론 능력은 여전히 뒤처져 있다고 설명했다.

김선동 교수는 "이전의 LLM 평가 방식이 특정 벤치마크에 의한 성능 측정에 치중한 반면, 이번 연구는 LLM의 추론 과정과 인간의 차이를 분석한 것이 특징"이라며 "향후 AI 로봇을 비롯한 인공지능 시스템이 인간 수준의 추론 능력을 갖추는 데 기여할 것으로 기대한다"고 말했다.

김선동 교수가 지도하고 이승필 학사과정생, 심우창·신동현 석사과정생이 수행한 이번 연구는 국제학술지 'ACM Transactions on Intelligent Systems and Technology(TIST)'에 지난 1월 20일 온라인 게재됐다.

kanjoys@news1.kr