中알리바바 오픈소스 AI '큐원3-코더' 클로드 소넷4에 도전
SWE-벤치서 '오픈AI GPT 4.1·구글 제미나이 2.5프로' 추월
현존 오픈소스 모델 중 최고성능…美·中 AI 성능격차 줄어
- 김민석 기자
(서울=뉴스1) 김민석 기자 = 중국 알리바바가 오픈소스로 공개한 인공지능(AI) 코딩 모델 '큐원3-코더'(Qwen3-coder)가 주요 성능 벤치마크에서 오픈AI와 구글의 최신 모델을 앞선 것으로 나타났다.
25일 IT 업계와 외신에 따르면 큐원3-코더는 총 4800억개의 파라미터를 갖춘 전문가 혼합(MoE) 방식으로 쿼리마다 350억 개 파라미터와 160개 전문가 중 8개만 활성화하는 구조를 채택했다.
큐원3-코더는 프로그래밍 에이전트 평가 'SWE-벤치'에서 정답률 67.0%(표준), 69.6%(500턴 테스트)를 기록해 GPT-4.1(54.6%)과 제미나이 2.5 프로(49.0%) 등을 앞섰다. 클로드 '소넷4'(70.4%)에도 근접한 수치다.
알리바바 측은 "큐원3-코더는 7.5조개 토큰을 학습했고 이 중 70%는 코드 데이터"라며 "모델 성능을 높이기 위해 '코드 강화학습'(Code RL)으로 다양한 코딩 작업 테스트 케이스를 자동 생성해 고품질 훈련 인스턴스를 만들었다"고 말했다.
이어 "'장기 강화학습'(Agent RL)을 통해 모델이 도구를 사용해 다중 턴 상호작용으로 실제 문제를 해결하도록 했다"며 "이를 위해 알리바바 클라우드 인프라를 활용해 2만 개의 독립적인 환경을 병렬 실행하는 대규모 시스템을 구축했다"고 설명했다.
그러면서 "큐원3 활용 시 주니어 단계 개발자도 시니어 개발자가 일주일 동안 걸리는 프로그래밍 작업을 하루 만에 완료할 수 있다"며 "기업 웹사이트도 5분 만에 만들 수 있다"고 했다.
알리바바는 개발자 터미널용 오픈소스 코딩 도구 '큐원 코드'(Qwen Code)도 함께 공개했다. 구글 제미나이 CLI를 기반으로 큐원3-코더 모델에 최적화한 형태의 코딩 도구로 명령줄 터미널에서 직접 실행된다.
최근 알리바바의 큐원 시리즈와 딥시크 등 중국 AI 모델이 약진하고 있다. 스탠포드대 보고서에 따르면 중국과 미국 AI 모델 성능 격차는 2024년 1월 103포인트에서 2025년 2월 23포인트로 크게 줄었다.
ideaed@news1.kr
Copyright ⓒ 뉴스1. All rights reserved. 무단 전재 및 재배포, AI학습 이용금지.









