업스테이지, 국대 AI 첫 성과 오픈소스 공개…"中 딥시크 능가"

"바닥부터 자체 설계" 프롬스크래치 강조…고품질 데이터가 비결
"GPU 효율화로 120억원 절감…산업 AI 전환 박차 가할 것"

본문 이미지 - 솔라 오픈 벤치마크(업스테이지 제공) — 솔라 오픈 벤치마크(업스테이지 제공)

(서울=뉴스1) 윤주영 기자 = 업스테이지(486550)는 자체 개발한 거대언어모델(LLM) '솔라 오픈 100B'를 오픈소스로 6일 공개했다.

이는 과학기술정보통신부의 '독자 AI 파운데이션 모델 프로젝트'의 일환으로 개발한 첫 결과물이다. 데이터 구축부터 학습까지의 전 과정을 독자적으로 진행한 '프롬 스크래치' 방식으로 개발했다.

모델은 글로벌 오픈소스 플랫폼 '허깅페이스'에 공개됐다. 개발 과정과 기술적 세부 내용을 담은 테크 리포트도 함께 발표됐다.

1020억 매개변수 규모의 솔라 오픈은 중국 '딥시크 R1' 대비 크기는 15%에 불과하지만, 한국어(110%)·영어(103%)·일본어(106%) 등 3개 국어 주요 벤치마크 평가에서 이를 상회한다.

특히 한국 문화 이해도, 한국어 지식 등 주요 한국어 벤치마크에선 딥시크 R1의 2배 이상 성능이다. 유사 규모의 오픈AI 'GPT-OSS-120B-미디엄'과 비교해도 마찬가지다.

수학, 복합 지시 수행, 에이전트 등 고차원적 지식에선 딥시크 R1과 대등한 성능을 확보했다. 종합 지식 및 코드 작성 능력도 대등한 수준이다.

고성능의 배경은 약 20조 토큰 규모의 고품질 사전학습 데이터세트다. 업스테이지는 한국어 데이터의 부족함을 극복하고자 다양한 합성 데이터와 금융·법률·의학 등 분야별 특화 데이터를 활용했다. 효과적 학습을 위해 필터링 방법론도 고도화했다.

향후 업스테이지는 데이터 세트의 일부를 한국지능정보사회진흥원(NIA)의 'AI 허브'를 통해 개방할 예정이다. 국내 AI 연구 생태계 활성화를 위해서다.

이 밖에도 솔라 오픈은 컴퓨팅 측면에서 효율적이다. 129개의 전문가 모델을 혼합한 'MoE(Mixture-of-Experts)' 구조를 통해 실제 연산에는 120억 개 매개변수만을 활성화하기 때문이다. 그래픽 처리장치(GPU) 최적화를 통해 초당 토큰 처리량(TPS)을 약 80% 높였고, 자체 강화학습 프레임워크 '스냅PO'를 통해 학습 기간도 반절로 줄였다.

이를 통해 약 120억 원에 달하는 GPU 인프라 비용 절감 효과를 거뒀다.

업스테이지는 자사 컨소시엄에 참여 중인 △노타(486990) △래블업 △플리토 △한국과학기술원(KAIST) △서강대 등과 기술력을 결집했으며, 향후 산업별 특화 서비스 개발에도 박차를 가한다. 금융결제원(금융), 로앤컴퍼니(법률), 마키나락스(국방·제조), 뷰노(의료), 오케스트로(공공), 데이원컴퍼니(교육) 등 각 분야 대표 기업들과 협력해 AI 전환을 가속한다.

이 외에도 230만 사용자를 보유한 '애스크업'과 업무 지원 서비스 'AI 워크스페이스'에 솔라 오픈을 적용해 민간·공공 전반으로 활용성을 넓혀갈 계획이다. 자체 플랫폼인 '업스테이지 콘솔'을 통해 모델을 응용 프로그램 인터페이스(API) 형태로 배포, 개발자 활용을 돕는다.

legomaster@news1.kr

용어설명

프롬 스크래치

AI 모델을 만들 때 기존 모델을 활용하거나 파인튜닝하지 않고, 데이터 수집부터 아키텍처 등 맨 처음 단계부터 모두 직접 설계하고 개발하는 방식

파운데이션 모델

광범위한 데이터를 기반으로 훈련된 AI 신경망이다. 광범위한 작업에 응용이 가능하다. 오픈AI의 챗GPT와 구글 제미나이(Gemini)가 대표적이다. 이 모델들은 텍스트 생성, 이미지 분석, 코드 작성 등 여러 분야에서 활용된다.

업스테이지, 국대 AI 첫 성과 오픈소스 공개…"中 딥시크 능가"

"바닥부터 자체 설계" 프롬스크래치 강조…고품질 데이터가 비결
"GPU 효율화로 120억원 절감…산업 AI 전환 박차 가할 것"

뉴스1 부산ㆍ경남

뉴스1 제주

업스테이지, 국대 AI 첫 성과 오픈소스 공개…"中 딥시크 능가"

"바닥부터 자체 설계" 프롬스크래치 강조…고품질 데이터가 비결"GPU 효율화로 120억원 절감…산업 AI 전환 박차 가할 것"

"바닥부터 자체 설계" 프롬스크래치 강조…고품질 데이터가 비결
"GPU 효율화로 120억원 절감…산업 AI 전환 박차 가할 것"