생성형AI 추론 성능 높일 저전력 NPU 핵심 기술 개발
KAIST 박종세·김주영 교수 연구팀
- 김종서 기자
(대전=뉴스1) 김종서 기자 = 한국과학기술원(KAIST)은 전산학부 박종세 교수 연구팀과 전기및전자공학부 김주영 교수 창업기업 하이퍼엑셀이 챗GPT 등 생성형AI 클라우드에 특화된 고성능·저전력 신경망처리장치(NPU) 핵심기술을 개발했다고 4일 밝혔다.
NPU는 인공신경망을 빠르게 처리하기 위해 만든 AI 전용 반도체 칩이다.
기존 GPU 기반 AI 인프라는 높은 메모리 대역폭과 메모리 용량 요구를 충족하기 위해 다수의 GPU 디바이스가 필요하다.
이번 기술은 메모리 사용의 대부분을 차지하는 키 값(KV) 캐시의 양자화를 통해 적은 수의 NPU 디바이스만으로 동일 수준의 AI 인프라를 구성할 수 있어 생성형 AI 클라우드 구축 비용을 크게 절감할 수 있다. 개발된 NPU는 최신 GPU 대비 약 44% 낮은 전력 소모를 보였다.
연구팀은 기존 NPU 아키텍처의 연산 로직을 변경하지 않으면서 메모리 인터페이스와 통합될 수 있도록 설계했다.
제안된 양자화 알고리즘을 구현할 뿐만 아니라 제한된 메모리 대역폭 및 용량을 효율적으로 활용하기 위한 페이지 단위 메모리 관리 기법과 양자화된 KV 캐시에 최적화된 새로운 인코딩 기법 등이 적용됐다.
최신 GPU 대비 비용·전력 효율성이 우수한 NPU 기반 AI 클라우드를 구성할 경우, NPU의 고성능·저전력 특성을 활용해 운영 비용 역시 크게 절감할 수 있을 것으로 기대된다.
박 교수는 "이 기술을 통해 최신 GPU 대비 평균 60% 이상 성능이 향상된 NPU를 구현했다"며 "생성형AI에 특화된 고성능·저전력 인프라 구현 가능성을 입증해 AI 대전환(AX) 환경에서도 핵심 역할이 기대된다"고 말했다.
이 연구는 '2025 국제 컴퓨터구조 심포지엄(ISCA)'에서 발표됐다.
jongseo12@news1.kr
Copyright ⓒ 뉴스1. All rights reserved. 무단 전재 및 재배포, AI학습 이용금지.









