AI 성능 저하 없이 메모리 6배 압축…'터보퀀트'에 KAIST 교수 참여

김종서 기자

2026.03.27 오후 04:06

업데이트 2026.03.27 오후 04:57

한국과학기술원(KAIST) 정문(KAIST 제공. 재판매 및 DB금지) ⓒ 뉴스1

(대전=뉴스1) 김종서 기자 = 한국과학기술원(KAIST)은 전기및전자공학부 한인수 교수가 참여한 구글 리서치, 딥마인드, 뉴욕대학교 공동 연구팀이 AI 모델의 고질적인 한계로 꼽혀온 메모리 과부하 문제를 해결할 차세대 양자화 알고리즘 '터보퀀트'를 공개했다고 27일 밝혔다.

AI 모델은 입력 데이터를 벡터 형태로 바꾼 뒤 벡터 간 유사도를 계산해 작동한다. 이 과정에서 고정밀 데이터를 사용하기 때문에 막대한 메모리 자원이 필요한 점이 주요 한계로 지적돼 왔다.

터보퀀트는 고정밀 데이터를 더 적은 비트로 압축해 표현하는 '양자화' 기술을 활용한다. 소수점 데이터를 정수로 근사하는 방식으로, 핵심 정보는 유지하면서도 저장 용량과 연산 부담을 크게 줄이는 기술이다.

이번 연구에서 터보퀀트는 AI 모델 내부 정보를 효율적으로 압축해 정확도 저하를 거의 없이 최대 6배까지 메모리를 절감하는 데 성공했다. 특히 AI 추론 과정에서 가장 큰 장애물로 꼽히는 메모리 병목 문제를 효과적으로 해소한 점이 핵심 성과다.

터보퀀트의 핵심은 두 단계로 나눠진 양자화 구조다. 먼저 1단계에서는 입력 데이터를 무작위로 회전시킨 뒤 각 요소를 개별적으로 양자화한다. 이 과정은 데이터 내 극단값을 줄여 압축 효율을 높이는 역할을 한다. 해당 방식은 한인수 교수가 참여한 기존 연구 '폴라퀀트'에서도 활용된 바 있다.

2단계에서는 1단계에서 발생한 오차를 다시 한번 양자화한다. 이때 적용되는 QJL 알고리즘 기법은 데이터를 -1, 1 값만으로 표현하는 초경량(1비트) 방식으로, 정보 손실을 최소화하면서도 연산 효율을 극대화할 수 있다.

한인수 KAIST 전기및전자공학부 교수 /뉴스1

이같은 기술적 발전은 반도체 메모리 시장에도 중장기적인 활력을 불어넣을 것으로 기대된다. 단기적으로는 동일한 AI 모델을 구동하는 데 필요한 메모리 용량이 줄어들어 수요 성장이 둔화되는 것처럼 보일 수 있으나, 전문가들은 오히려 이를 'AI 대중화의 기폭제'로 보고 있다.

낮아진 메모리 문턱은 스마트폰이나 가전 등 온디바이스 AI 기기부터 대규모 데이터센터에 이르기까지 AI 적용 범위를 비약적으로 넓힐 수 있다는 시각이다. 결국 AI 서비스가 일상으로 확산되어 훨씬 더 큰 규모의 서비스에서 새로운 메모리 수요가 창출되는 '수요의 질적 고도화'와 '양적 팽창'이 동시에 일어날 것으로 기대한다.

특히 터보퀀트의 핵심 기술인 QJL과 폴라퀀트 연구에 한 교수가 공동 연구자로 참여해 국내 연구진이 글로벌 빅테크의 핵심 AI 알고리즘 개발에 직접 기여했다는 점에서 의미가 크다.

한 교수는 "이번 연구는 이러한 병목을 효과적으로 줄이면서도 정확도를 유지할 수 있는 새로운 방향을 제시했다"며 "앞으로 대규모 AI 모델을 한층 효율적으로 운영할 수 있는 핵심 기반 기술로 활용될 것"이라고 설명했다.

한편, 폴라퀀트 연구는 5월에 개최하는 AI와 통계(머신러닝 이론 포함)를 다루는 국제학회 'AISTATS 2026'에서 발표될 예정이다. 연구는 한국연구재단의 기초연구실 사업 지원을 받아 수행됐다.

jongseo12@news1.kr

AI 성능 저하 없이 메모리 6배 압축…'터보퀀트'에 KAIST 교수 참여

많이 본 뉴스