"TPU보다 성능 높다"…MS 차세대 AI 가속기 '마이아 200' 공개

MS 엔드투엔드 자체설계…TSMC 3nm 공정기반 차세대 칩
"FP4 기준 트레이니움 3배 성능에 구글 TPU 상회"

마이아 200(Maia 200)(마이크로소프트 제공)

(서울=뉴스1) 김민석 기자 = 마이크로소프트가 생성형 인공지능(AI) 추론 효율을 높인 차세대 가속기 '마이아(Maia) 200'을 공개했다고 27일 밝혔다.

마이아 200 칩은 애저(Azure) 데이터센터 전반에 걸쳐 AI 모델 구동 속도와 경제성을 끌어올리는 데 초점을 맞췄다.

마이아 200은 TSMC 3나노미터(㎚) 공정 기반으로 1400억개 이상의 트랜지스터를 집적했다. 216GB 용량의 HBM3e 메모리(초당 7TB 대역폭)를 탑재하고 FP8·FP4 텐서 코어를 결합해 초대형 언어모델 추론 성능을 발휘한다.

칩 설계 전력은 750W 수준이다. FP4 기준 10페타플롭스(PFLOPS), FP8 기준 5PFLOPS 이상의 연산 성능을 구현한다.

마이크로소프트 마이아 200 등 주요 AI 가속기별 성능 지표(Industry-leading capability)(마이크로소프트 제공)

MS에 따르면 메모리 하위시스템을 전면 재설계해 토큰 처리 효율을 높였다. 표준 이더넷 기반의 2계층 스케일업 네트워크(전용 패브릭 없이 초당 2.8TB 양방향 대역폭)를 새로 도입했다.

트레이(Tray) 단위로 4개의 가속기를 직접 연결하는 구조를 적용하고 동일 통신 프로토콜을 사용해 랙(Rack) 단위까지 쉽게 확장할 수 있도록 설계했다. 이를 통해 최대 6144개의 가속기를 연결하는 대규모 클러스터를 구축할 수 있다.

MS 측은 "실제 성능은 FP4 기준 아마존의 3세대 트레이니움(Trainium) 대비 3배, FP8 기준으로는 구글 7세대 TPU를 상회하는 수준"이라며 "자사는 동일 세대 하드웨어 대비 달러당 성능을 30% 개선했다"고 설명했다.

마이아 200은 오픈AI의 GPT‑5.2 등 최신 모델 추론을 지원한다.

마이크로소프트 파운드리(Microsoft Foundry)와 MS 365 코파일럿(Microsoft 365 Copilot) 서비스 등에도 적용된다.

마이아 200은 미국 아이오와주 디모인 인근 'US Central' 리전을 시작으로 애리조나 피닉스 등 서부 지역으로 순차 확대 적용할 방침이다.

MS는 이같은 차세대 가속기 적용 로드맵을 기반으로 전력 효율을 높이고 총소유비용(TCO)을 절감한다는 계획이다.

마이크로소프트는 학계·개발자·오픈소스 커뮤니티가 마이아 기반 모델을 조기 최적화할 수 있도록 '마이아 200 SDK' 프리뷰를 공개했다. SDK에는 △트라이튼(Triton) 컴파일러 △파이토치(PyTorch) 지원 △비용 계산기 등이 포함됐다.

ideaed@news1.kr