SKT, 제한된 GPU로 519B급 초거대 AI 구현…기술보고서 공개

수학·코딩 분야서 딥시크-V3.1 대비 각각 102%, 110%로 앞서
연내 멀티모달 추가 ·조 단위 파라미터 규모로 모델 확장 예정

지난해 12월 30일 오후 서울 강남구 코엑스 오디토리움에서 열린 '독자 AI파운데이션 프로젝트' 발표회에서 참관객들이 SK텔레콤의 AI모델 'A.X K1'을 체험하기 위해 줄을 서고 있다. 2025.12.30/뉴스1 ⓒ News1 구윤성 기자

(서울=뉴스1) 김민수 기자 = SK텔레콤(017670) 정예팀이 매개변수 5190억 개(519B) 규모의 초거대 인공지능(AI) 모델 'A.X K1'의 기술 보고서를 오픈소스 플랫폼 허깅페이스에 7일 공개했다.

A.X K1은 약 4개월의 짧은 개발 기간과 제한된 GPU 자원 속에서 500B급 초거대 모델 구현에 성공한 것이 특징이다.

정예팀은 약 1000개의 GPU로 학습을 진행했으며, 학습 기간과 자원 규모를 고려해 투입 가능한 연산량을 수학적으로 설계해 519B라는 드문 모델 구조를 채택했다.

학습에는 웹 데이터, 코드, 과학·기술·공학·수학(STEM) 데이터, 추론 데이터 등 고품질 데이터 등 약 10조 개의 고품질 데이터가 활용됐다.

'A.X K1'는 수학과 코딩 등 초거대 인공지능 모델의 능력을 필요로 하는 분야에서 우수한 성능을 나타냈다. 특히 글로벌 오픈소스 대표 모델인 '딥시크-V3.1'과 비교한 벤치마크에서 규모 대비 높은 성능을 기록했다.

수학 올림피아드 기반 AIME25에서는 89.8점으로 딥시크(88.4점) 대비 102% 수준의 앞선 성능이 확인됐다. AIME25는 미국 고등학생 수학 올림피아드 문제로 AI의 수학 실력을 측정하며, 창의적이고 복잡한 난이도의 문제가 출제된다.

AI가 실시간으로 나오는 최신 코딩 문제를 얼마나 잘 푸는지 측정하는 시험인 LiveCodeBench에서도 영어 75.8점, 한국어 73.1점으로 각각 딥시크 대비 109%, 110% 수준의 성능을 보였다.

A.X K1은 전체 519B 파라미터 중 33B만 활성화하는 전문가 혼합(MoE) 구조를 채택해 연산 효율과 학습 안정성을 동시에 확보했다. MoE란 여러 개의 작은 전문가 모델들이 모여서 하나의 큰 문제를 해결하는 방식이다. 각 전문가 모델은 특정 유형의 데이터를 잘 처리하도록 특화돼 있고, 입력 데이터에 따라 가장 적합한 전문가가 선택되어 문제를 해결한다.

또한 A.X K1은 최대 128K 토큰의 긴 문맥을 처리할 수 있다. 한국어 기준 약 10만 단어로, 인공지능 모델이 소설책 한 권 또는 기업 연간 보고서 한 권도 동시에 검토할 수 있다.

이번 개발은 정부 지원 없이 자체 조달한 GPU 자원만으로 이뤄졌다. SKT는 연내 멀티모달 기능을 추가하고 조 단위 파라미터로 확대할 계획이다.

kxmxs4104@news1.kr