韓 AI 모델 수능수학 풀이했더니…챗GPT·제미나이·딥시크와 격차

서강대 김종락 교수팀 테스트서 기존 韓모델 성능 큰격차
"파이선 도구 허용해도 낮은 정답률…새버전 재평가 예정"

2025.12.15 오전 08:54

구글 제미나이 이미지 생성 요청

(서울=뉴스1) 김민석 기자 = 국가대표 인공지능(AI)에 도전하는 한국 팀들의 기존 LLM 모델들이 수학 수능·논술 문제 풀이에서 챗GPT와 제미나이 등 글로벌 모델에 못 미치는 성능을 내는 것으로 분석됐다.

김종락 서강대 수학과 교수 연구팀은 국내 대표 AI 도전 5개 팀의 LLM 모델과 챗GPT·제미나이 등 5개 모델을 대상으로 수능 수학 20문제·논술 30문제를 풀게 한 결과 이같이 나타났다고 발표했다.

연구팀은 수능 수학의 △공통과목 △확률과 통계 △미적분 △기하 영역에서 가장 어려운 5문항씩 총 20문제를, 서울 주요대학 10곳의 논술 기출문제와 인도 대학 입시, 일본 도쿄대 공대 대학원 입시문제 각 10문항씩 총 30문제를 선정해 평가를 진행했다.

한국 모델로는 △업스테이지 솔라 프로-2 △LG AI연구원 엑사원 4.0.1 △네이버 HCX-007 △SK텔레콤 A.X 4.0(72B) △엔씨소프트 라마 바르코 8B 인스트럭트 등을 테스트했다.

미국·중국 모델로는 △오픈AI GPT-5.1 △구글 제미나이 3 프로 프리뷰 △앤트로픽 클로드 오푸스 4.5 △xAI 그록 4.1 패스트 △딥시크 V3.2 등을 선택했다.

테스트 결과 해외 모델의 점수는 76점~92점으로 고르게 높았지만, 한국 모델은 솔라 프로-2가 58점으로 가장 높았고 나머지는 20점대에 머물렀다. 경량모델인 라마 바르코 8B 인스트럭트는 2점을 기록했다.

연구팀은 한국 모델들이 단순 추론으로는 대부분 문제를 풀지 못해 파이선(Python) 계산 툴을 활용할 수 있도록 설정했음에도 낮은 정답률을 보였다고 설명했다.

연구진이 대학생 수준부터 교수급 연구 난도까지 세분화한 자체 문제 세트 '엔트로피매스'(EntropyMath) 100문제 중 10문항을 추가로 구성해 진행한 테스트에서도 격차는 컸다. 미·중 모델은 82.8좀~90점을, 한국 모델은 7.1~53.3점 수준이었다.

문제 풀이를 3번 시도해 정답을 맞히면 통과로 조건을 완화했을 때도 미·중 모델은 대부분 90점 이상을 받았고, 그록은 만점을 기록했다.

같은 조건에서 솔라 프로-2는 70점, 엑사원은 60점, HCX-007은 40점, A.X 4.0은 30점, 라마 바르코는 20점에 그쳤다.

김 교수는 "최근 여러 곳에서 한국 AI 모델들의 수능·논술 성능 평가 문의가 있어 자체적으로 검증을 진행했다"며 "한국 AI가 해외 프런티어 모델과의 기술 격차를 좁히기 위해선 근본적인 모델 구조 개선과 데이터 품질 강화가 필요하다"고 말했다.

이어 "한국 5개 모델은 기존 공개 버전인 만큼 각 팀의 국가대표 AI 버전이 새로 공개되면 자체 개발 문제로 다시 성능을 테스트하겠다"고 덧붙였다.

ideaed@news1.kr