
(서울=뉴스1) 김민석 기자 = 퓨리오사AI가 독자 텐서축약프로세서아키텍처를 멀티다니를 멀티다이 칩렛 구조로 확장하는 차세대 인공지능AI) 추론 플랫폼 개발에 브로드컴을 파트너로 끌어들였다. 양사는 2나노 공정·HBM4/4E 기반 3세대 AI 가속기 공동 개발에 나선다.
28일 업계에 따르면 퓨리오사AI는 브로드컴과 전략적 파트너십을 맺고 2나노 공정·HBM4/4E 기반 3세대 AI 가속기와 이를 중심으로 한 차세대 추론 플랫폼을 공동 개발한다.
퓨리오사AI가 독자 설계한 TCP 아키텍처를 멀티다이 기반 칩렛 구조로 고도화하고 브로드컴은 고대역폭 이더넷 스위치·XPU IP·패키징 기술을 더해 랙 단위로 확장되는 하이퍼스케일 추론 인프라를 구현하는 역할을 맡는다.
TCP는 텐서 축약을 기본 연산 단위로 삼는 구조다. GPU·NPU 등이 행렬 연산·특정 연산 패턴에 최적화돼 있는 것과 달리, TCP는 8개 프로세싱 엘리먼트(PE)를 중심으로 다양한 크기의 텐서를 유연하게 처리하고, 동일 데이터를 반복 재활용하는 방식으로 연산 효율을 높인다.
이를 통해 추론 과정에서 불필요한 메모리 이동과 연산 낭비를 줄이고, 전력 대비 성능 극대화에 초점을 맞췄다. 초거대 언어모델과 에이전틱 AI처럼 토큰 흐름이 폭증하는 워크로드에서 데이터 재사용 비율을 높여야 하는 상황에 적합한 구조라는 게 회사 측 설명이다.
찰리 카와스 브로드컴 반도체 설루션 그룹 사장은 "AI 추론에서는 이제 연산량보다 데이터 재사용과 통신 효율성이 더 중요해졌다"며 "TCP 아키텍처와 브로드컴 XPU·이더넷 스케일업 네트워킹을 결합해 대규모 에이전틱 AI 환경의 병목을 해결하는 플랫폼을 만들 것"이라고 말했다.
파트너십의 기반은 상용화 단계에 올라선 2세대 추론 가속기 'RNGD'(레니게이드)다. RNGD는 TSMC 5나노 공정과 SK하이닉스 HBM3 기반의 180W PCIe 카드형 AI 가속기다. 대규모 언어모델(LLM)·에이전틱 AI 워크로드에서 전력 대비 성능을 앞세워 데이터센터 추론 시장을 공략하고 있다. 삼성SDS, LG AI연구원 등 국내외 고객 환경에서 실사용 검증을 마쳤고 파트너 생태계 확장도 진행 중이다.
3세대 제품은 2나노 공정 기반 컴퓨트 다이와 HBM4/4E 대역폭을 바탕으로 멀티다이 칩렛 구조를 채택한다. 브로드컴의 첨단 패키징과 고대역폭 이더넷·스위치 기술을 결합해 서버·랙 단위에서 발생하는 동서 트래픽(East-West traffic) 병목을 줄이고 동일 전력·동일 랙 기준 처리 가능한 토큰 수를 극대화하는 방향이다.
국내외 AI 반도체 시장에서는 브로드컴이 구글의 TPU와 메타·앤트로픽 맞춤형 가속기 등 AI 칩을 다수 설계·공급해 온 만큼 한국 TCP 아키텍처 기반 가속기가 같은 생태계에 편입될 경우 글로벌 파트너·고객 풀에 동시 접근할 수 있는 통로가 열릴 것이란 기대감이 나온다.
백준호 퓨리오사AI 대표는 "브로드컴 인프라 역량과 퓨리오사AI TCP 아키텍처·소프트웨어 스택이 결합하면서 '토큰 팩토리'(Token Factory) 시대에 맞는 하이퍼스케일 AI 추론 플랫폼을 제공할 수 있게 됐다"며 "양산 중인 RNGD로 검증한 아키텍처를 바탕으로 차세대 제품에서는 초거대 모델·에이전틱 AI 환경에서 업계 최고 수준의 전력당 성능을 보여주겠다"고 했다.
ideaed@news1.kr