한양대, 4비트 AI 추론 기술 개발…정확도 유지·처리량 3.9배↑

리벨리온과 공동 연구…AI 추론 비용 절감 기대
ICML 2026 스포트라이트·구두 발표 선정

한양대 전경 ⓒ 뉴스1

(서울=뉴스1) 김지현 기자 = 한양대학교는 최정욱 공과대학 융합전자공학부 교수 연구팀이 AI 반도체 기업 리벨리온과 공동으로 대규모 추론 모델(LRM)의 성능 저하를 줄이면서 연산 효율을 높이는 4비트 부동소수점 양자화 인식 학습 기술 'ReQAT'를 개발했다고 3일 밝혔다.

ReQAT는 대규모 추론 모델의 가중치와 활성화 값, 키-값 캐시(KV cache)를 모두 4비트로 압축하면서도 16비트(BF16) 정밀도 모델 수준의 추론 정확도를 확보하는 기술이다.

교육계에 따르면 최근 대규모 추론 모델은 복잡한 다단계 논리 문제를 해결하는 데 활용 범위가 넓어지고 있다. 다만 추론 과정에서 필요한 연산량이 크고, 키-값 캐시 메모리 사용량도 계속 늘어나 실제 서비스에 적용하기에는 비용 부담이 컸다.

이에 업계에서는 모델의 가중치와 활성화 값, 키-값 캐시를 4비트로 압축하는 W4A4KV4 양자화 기술이 대안으로 주목받고 있다. 하지만 기존 기술은 숫자나 연산자처럼 예측 확률이 높은 낮은 엔트로피 토큰에서 오류가 크게 발생해 전체 추론 정확도가 떨어지는 한계가 있었다.

최 교수 연구팀은 4비트 양자화 과정의 오류가 낮은 엔트로피 토큰에 집중된다는 점을 규명하고, 이를 보완하는 세 가지 기술을 ReQAT에 적용했다.

우선 '추론 경로 정렬 학습(TAQ)'을 통해 기존 모델과 동일한 추론 경로를 반복 학습하도록 해, 양자화에 취약한 결정 순간에 모델 업데이트가 집중되도록 했다. '선택적 엔트로피 최소화(SEM)'는 오류가 치명적으로 작용할 수 있는 낮은 엔트로피 위치에서 예측 확신도를 높이는 손실 함수를 적용한 기술이다.

키-값 캐시 양자화 오류를 줄이기 위한 '양자화 친화적 초기화(Q-FIT)'도 도입했다. 회전 위치 임베딩(RoPE) 구조에 맞춘 초기화와 보정을 통해 학습 안정성을 높였다는 설명이다.

실험 결과 ReQAT를 적용한 4비트 양자화 모델은 16비트 정밀도 미세조정 모델과 같거나 더 높은 수준의 추론 정확도를 기록했다.

엔비디아 시스템에서 성능을 검증한 결과 B200 환경에서는 데이터 처리량이 최대 3.1배, DGX Spark 환경에서는 최대 3.9배 향상됐다.

논문은 한양대 이장환 연구원이 제1저자로, 최정욱 교수가 교신저자로 참여했다. 연구팀은 ReQAT 관련 코드와 프레임워크를 깃허브에 오픈소스로 공개했다.

최 교수는 "대규모 추론 모델의 정확도를 유지하면서도 연산과 메모리 비용을 크게 줄일 수 있는 기술"이라며 "고성능 AI 추론 모델의 실제 서비스 적용과 차세대 추론 시스템 구축에 활용될 수 있을 것"이라고 밝혔다.

mine124@news1.kr