
구글이 8세대 텐서 프로세서 유닛(TPU)을 공개했다. 엔비디아 그래픽처리장치(GPU)의 대항마로 불리는 이번 8세대 TPU는 기존보다 세 배 빠른 학습 속도로 AI 모델 개발 시간을 줄여주고, 초저지연 추론 성능을 갖춰 빠른 AI 응답 속도를 지원한다.
구글 클라우드는 22일(현지시간) 미국 라스베이거스에서 연례 기술 콘퍼런스 '구글 클라우드 넥스트 2026'을 열고 8세대 TPU를 공개했다.
TPU는 구글의 AI 특화 주문형 반도체(ASIC)다. 전력 공급 구조를 최적화해 엔비디아 GPU보다 전력 효율이 높다는 평가를 받는다. 2015년 초 구글 클라우드 데이터센터에 처음 배치됐다.
에이전틱 AI 시대를 위해 고안된 8세대 TPU는 각각 학습과 추론에 최적화된 'TPU 8t'와 'TPU 8i' 두 칩으로 구성됐다.
토마스 쿠리안 구글 클라우드 최고경영자(CEO)는 이번 행사를 앞두고 진행된 온라인 미디어 브리핑을 통해 "TPU 8t는 새로운 고성능 학습용 TPU로, 최대 9600개 칩을 단일 시스템에서 구현하는 데 초점을 두고 있다"며 "이전 세대보다 3배 더 빠른 학습 속도를 갖췄다. 시중의 어떤 시스템보다도 우수한 '전성비'를 제공한다"고 말했다.
또 "TPU 8i는 최고의 추론 플랫폼으로, 초저지연 추론을 지원하기 위해 최대 초당 15kbit를 지원하는 고속 저장장치를 갖췄다"고 덧붙였다.
AI 학습용 칩 TPU 8t는 최대 9600개의 TPU 칩을 하나로 묶은 '슈퍼포드' 구조를 갖췄다. 7세대 TPU인 '아이언우드'(최대 9216개)보다 더 많은 칩으로 구성됐으며, 2페타바이트의 고대역폭 공유 메모리를 갖췄다. 학습 속도는 3배 빨라졌으며, 전력 효율은 최대 2배 향상됐다. 구글 클라우드 측은 AI 모델 개발 기간을 수개월에서 수주 단위로 단축할 수 있다고 설명했다.
추론 엔진인 TPU 8i는 단일 포드에서 1152개의 TPU를 연결해 지연 시간을 획기적으로 줄였다. 또 이전 세대보다 3배 이상 늘어난 384MB의 온칩(on-chip) SRAM과 288GB의 고대역폭 메모리(HBM)를 탑재했다. 이를 통해 AI 에이전트에게 질문이나 업무를 줬을 때 5초씩 기다릴 필요 없이 즉각적인 응답을 제공하는 에이전틱 AI 경험을 구현한다.
두 칩은 연내 정식 버전이 출시될 예정이다.
아울러 구글 클라우드는 기업이 AI 에이전트를 구축·확장하고 관리할 수 있는 '제미나이 엔터프라이즈 에이전트 플랫폼'을 선보였다. 기업 고객이 에이전트를 개발할 수 있도록 관련 기능을 통합한 점이 특징이다.
또한 기업들은 구글 '제미나이 3.1 프로', '나노 바나나2’ 등을 비롯해 앤트로픽의 '클로드 오퍼스 4.7' 등 200개 이상의 글로벌 AI 모델을 자유롭게 활용할 수도 있다.
구글 클라우드 측은 '제미나이 엔터프라이즈'를 활용한 기업들의 성과를 강조하기도 했다. 특히 한국의 사례로 CJ올리브영이 자사 설루션을 통해 비개발 직군을 포함한 모든 구성원이 직접 AI 에이전트를 구축하고 업무에 활용하고 있다고 밝혔다.
쿠리안 CEO는 "이제 개별 서비스를 단순 조합해 제공하는 단계는 지났다. 구글 클라우드는 대규모 운영과 효율 극대화를 위해 모든 요소가 수직적으로 최적화된 통합 스택을 제공하며 새로운 AI 상용화 시대를 선도하겠다"고 강조했다.
Ktiger@news1.kr