SKT, 제한된 GPU로 519B급 초거대 AI 구현…기술보고서 공개
수학·코딩 분야서 딥시크-V3.1 대비 각각 102%, 110%로 앞서
연내 멀티모달 추가 ·조 단위 파라미터 규모로 모델 확장 예정
- 김민수 기자
(서울=뉴스1) 김민수 기자 = SK텔레콤(017670) 정예팀이 매개변수 5190억 개(519B) 규모의 초거대 인공지능(AI) 모델 'A.X K1'의 기술 보고서를 오픈소스 플랫폼 허깅페이스에 7일 공개했다.
A.X K1은 약 4개월의 짧은 개발 기간과 제한된 GPU 자원 속에서 500B급 초거대 모델 구현에 성공한 것이 특징이다.
정예팀은 약 1000개의 GPU로 학습을 진행했으며, 학습 기간과 자원 규모를 고려해 투입 가능한 연산량을 수학적으로 설계해 519B라는 드문 모델 구조를 채택했다.
학습에는 웹 데이터, 코드, 과학·기술·공학·수학(STEM) 데이터, 추론 데이터 등 고품질 데이터 등 약 10조 개의 고품질 데이터가 활용됐다.
'A.X K1'는 수학과 코딩 등 초거대 인공지능 모델의 능력을 필요로 하는 분야에서 우수한 성능을 나타냈다. 특히 글로벌 오픈소스 대표 모델인 '딥시크-V3.1'과 비교한 벤치마크에서 규모 대비 높은 성능을 기록했다.
수학 올림피아드 기반 AIME25에서는 89.8점으로 딥시크(88.4점) 대비 102% 수준의 앞선 성능이 확인됐다. AIME25는 미국 고등학생 수학 올림피아드 문제로 AI의 수학 실력을 측정하며, 창의적이고 복잡한 난이도의 문제가 출제된다.
AI가 실시간으로 나오는 최신 코딩 문제를 얼마나 잘 푸는지 측정하는 시험인 LiveCodeBench에서도 영어 75.8점, 한국어 73.1점으로 각각 딥시크 대비 109%, 110% 수준의 성능을 보였다.
A.X K1은 전체 519B 파라미터 중 33B만 활성화하는 전문가 혼합(MoE) 구조를 채택해 연산 효율과 학습 안정성을 동시에 확보했다. MoE란 여러 개의 작은 전문가 모델들이 모여서 하나의 큰 문제를 해결하는 방식이다. 각 전문가 모델은 특정 유형의 데이터를 잘 처리하도록 특화돼 있고, 입력 데이터에 따라 가장 적합한 전문가가 선택되어 문제를 해결한다.
또한 A.X K1은 최대 128K 토큰의 긴 문맥을 처리할 수 있다. 한국어 기준 약 10만 단어로, 인공지능 모델이 소설책 한 권 또는 기업 연간 보고서 한 권도 동시에 검토할 수 있다.
이번 개발은 정부 지원 없이 자체 조달한 GPU 자원만으로 이뤄졌다. SKT는 연내 멀티모달 기능을 추가하고 조 단위 파라미터로 확대할 계획이다.
kxmxs4104@news1.kr
Copyright ⓒ 뉴스1. All rights reserved. 무단 전재 및 재배포, AI학습 이용금지.









