KISTI, 과기 특화 LLM 고도화 'AI 연구동료 개발' 추진

핵심 기술 연구논문 2편 AI 국제학회서 동시 채택

한국과학기술정보연구원(KISTI) 과학기술 특화 생성형 거대 언어 모델(LLM) 고니(KONI) BI(KISTI 제공) /뉴스1

(대전=뉴스1) 김종서 기자 = 한국과학기술정보연구원(KISTI)은 과학기술 특화 생성형 거대 언어 모델(LLM) 고니(KONI) 연구진의 논문 2편이 인공지능(AI) 분야 최고 권위 학술대회인 국제표현학습학회(ICLR)에 동시 채택되며 한국어 LLM의 글로벌 경쟁력을 입증했다고 30일 밝혔다.

ICLR은 신경정보처리시스템학회(NeurIPS), 국제머신러닝학회(ICML)와 함께 세계 3대 AI 학회로 꼽힌다. 딥러닝과 표현 학습 분야에서 최정상급 학회로 인정받아 구글, 메타, 오픈AI 등 글로벌 빅테크 기업들이 주목하고 있다.

KONI팀은 비영리 오픈소스 연구단체 해례(HAERAE)팀과 협력해 한국어 특화 추론 모델 개발 프로젝트를 수행했다. 579만건의 한국어 네이티브 프롬프트와 370만건의 장문 추론 경로를 포함한 '이상(Yi-SANG)' 학습 데이터세트를 구축했으며, 이는 공개된 한국어 사후 학습 데이터자원 중 최대 규모다.

또 KONI팀은 사고 과정에서는 영어를 활용하고 최종 답변은 한국어로 도출하는 '혼합 언어 단계적 사고' 기법을 적용했다. 이를 통해 한국어 전용 모델의 논리적 한계를 극복하고 번역 어투를 최소화하면서도 추론 효율을 극대화했다.

이 기술을 이용해 학습된 모델은 딥시크-R1-32B 등 유사 규모의 글로벌 모델을 제치고 최고 수준의 한국어 추론 성능을 기록했다.

KONI팀은 특정 언어나 도메인에 모델을 적응시킬 때 기존 지식을 잊어버리는 '치명적 망각' 문제를 해결하는 '저계층 적응 기반 대조 보정(LGCD)' 기술도 개발했다. 이 기술은 추가 모델 훈련 없이 추론 시점에만 작동하며 모델 내부 지식을 동적으로 추출해 사실 관계를 보정한다. 고도의 정확성이 요구되는 전문 분야에서 환각 현상을 억제하는 데 도움을 줄 수 있다.

KISTI는 이번 성과로 최근 과학기술정보통신부가 요청한 '독자 파운데이션 모델(독파모) 기반 KONI 업데이트'에 부응하는 핵심 기술적 토대를 마련했다.

KONI팀은 이번 연구를 바탕으로 연구자의 파트너로서 가설을 세우고 실험 데이터를 분석하는 'AI 연구동료' 기술 개발을 추진할 계획이다.

복잡한 과학적 난제를 함께 해결할 수 있는 지능형 연구 에이전트 시스템을 구축해 국가 AI 주권을 확보하고 대한민국 연구 현장을 '과학을 위한 AI' 체제로 전환하는 데 기여할 방침이다.

이식 원장은 "이번 성과는 한국어 AI 기술의 글로벌 경쟁력을 입증한 것"이라며 "KONI 고도화를 지속 추진해 AI 연구동료 개발과 과학을 위한 AI 혁신을 선도하겠다"고 말했다.

jongseo12@news1.kr