웨카와 오라클 클라우드 인프라스트럭처, 장문맥 AI 추론 처리량 10배 향상 검증

OCI H100 인프라 공동 벤치마크에서 GPU 추가 없이 동시 사용자 10배, 토큰 처리량 10배, 제공 토큰 7배 증가

캠벨, 캘리포니아, 2026년 6월 10일 /PRNewswire/ -- AI 데이터 및 메모리 인프라 기업 웨카(WEKA)가 6월 9일 프로덕션 규모 벤치마크를 발표했다. 조직에서 GPU 규모가 같아도 사용자와 토큰이 늘어나면 장문맥 AI 추론의 경제성이 개선된다는 내용이다. 이 벤치마크에 따르면 오라클 클라우드 인프라스트럭처(Oracle Cloud Infrastructure, OCI)에서 Augmented Memory Grid를 탑재한 웨카의 NeuralMesh 플랫폼은 인프라를 추가하지 않고도 DRAM 전용 구성 대비 동시 사용자 10배, 토큰 처리량 10배, GPU당 생성 토큰 7배라는 성능을 발휘한다. 결과는 10만 토큰 컨텍스트 창이 있는 9노드 OCI 베어메탈 H100 클러스터에서 검증됐다.

파블로 셀렘(Pablo Selem) 오라클 클라우드 인프라스트럭처 소프트웨어 개발 수석 디렉터는 "엔터프라이즈 AI 워크로드는 컨텍스트 창과 GPU 활용률의 한계를 한 차원 더 끌어올리고 있다"며 "이번 벤치마크는 OCI에서 웨카 NeuralMesh에 Augmented Memory Grid가 탑재되면 메모리 병목이 사라져 GPU 추가 없이 까다로운 추론 워크로드도 더 큰 규모로 처리 가능함을 보여주는 결과"라고 말했다.

추론의 계산법을 바꾸는 성과 세 가지
베어메탈 H100 클러스터(9 노드, 72 GPU, 10만 토큰 컨텍스트 창, 동시 사용자 수천 명)에서 프로덕션 규모로 검증된 OCI 기반 Augmented Memory Grid 탑재 NeuralMesh는 다음과 같은 성과를 달성했다.

인프라 추가 없이 동시 사용자 10배 증가. Augmented Memory Grid 탑재 NeuralMesh는 5000명이 넘는 동시 사용자까지 확장됐다. 반면 DRAM 전용 구성은 약 600명 수준이었다. 그 결과 활성 캐시 작업 세트가 8.64TiB DRAM에서 사용 가능한 NVMe 287TiB로 커져 캐시 포화 시 발생하는 장애 절벽가 사라졌다. 또 GPU당 더 많은 사용자가 지원돼 같은 투자 시 효율도 높아졌다.
토큰 처리량 10배 향상. 클러스터 내 GPU 모두 출력 증가. OCI에서 Augmented Memory Grid 탑재 NeuralMesh는 초당 약 200만 토큰에 도달했다. 반면 DRAM 전용 기준선은 20만 미만이었다. 검색, 요약, 코드 지원, 다중 턴 에이전트 등 실시간 AI 기능을 운영하는 제품팀에서 처리량은 지원 가능한 사용자 수, 기능 응답 속도, 인프라가 뒷받침할 수 있는 매출의 상한과 직결된다.
제공 토큰 7배 증가. 대규모 환경에서 토큰당 비용을 하락. Augmented Memory Grid 탑재 NeuralMesh는 사용자 2400명을 대상으로 한 1시간 단일 테스트에서 토큰 50억 개을 제공했다. 반면 DRAM 전용 기준선은 7억 개였다. 에이전트형 워크플로를 운영하는 조직에서 DRAM이 포화되면 재계산이 반복돼 GPU 용량이 조용히 소모되며, 이는 토큰당 비용과 ROI에 직접적인 타격을 준다.

리란 즈비벨(Liran Zvibel) 웨카 CEO는 "추론은 GPU가 사용할 수 있는 유효 메모리의 양에 의해 병목이 발생한다"며 "이번 결과는 AI 토큰 경제성이 하드웨어만으로 해결되는 것이 아니라 기존 하드웨어가 수행할 수 있는 작업의 실질적 한계였던 메모리 장벽을 제거해야 해결된다는 사실을 보여주는 것이다. OCI에서 실행되는 Augmented Memory Grid 탑재 NeuralMesh는 비용 대비 매우 높은 효율로 고객에게 훨씬 더 많은 토큰을 제공한다"고 말했다.

컨텍스트 메모리 인프라로 AI 경제성 혁신
추론 수요가 커지면 AI 인프라의 비효율은 누적된다. 모든 키-값(KV) 캐시 축출은 GPU 사이클, 지연 시간, 사용자 경험, 제공되는 모든 토큰의 비용에 부담으로 작용한다. 입력이 일상적으로 10만 토큰가 넘는 장문맥과 에이전트형 워크로드에서는 이 부담이 사소한 오차가 아니다. 프로덕션 AI를 운영하는 조직에서는 단위 경제성에 직접적인 타격이다.

NeuralMesh의 기능인 Augmented Memory Grid는 KV 캐시를 로컬 GPU 메모리에서 분리하고 클러스터 전반에서 접근 가능한 고성능 토큰 웨어하우스에 저장해 아키텍처 수준에서 이 문제를 해결한다. 어떤 호스트든 캐시 적중을 유지한 채 어떤 세션이든 제공할 수 있어 경직된 세션 고정이 사라지는 동시에 DRAM보다 성능은 더 우수하고 로드 밸런싱이 좋아지며 동시성이 증가할 때 수평 확장이 원활하다. 그 결과 AI 에이전트에 필요한 영구 컨텍스트 메모리가 생기고 장문맥 추론을 대규모로 경제적으로 운영할 수 있는 비용 레버가 구현된다.

프로덕션급 입증
OCI는 2026년 5월 13일 자사 AI & Data Science 블로그에 전체 벤치마크 방법론, 시스템 구성, 결과를 공개했다. 9노드 OCI 베어메탈 H100 클러스터에서 실행된 이번 벤치마크는 1000배 더 큰 KV 캐시 용량과 12만 8000개 토큰에서 최대 20배 더 빠른 첫 토큰 생성 시간을 입증한 이전 검증 단계를 넘어서는 결과였다. 이번 최신 단계에서는 프로덕션 환경에서 추론의 전체 경제성, 즉 동시성 밀도, 지속 처리량, 캐시 지속성, 고부하 수요 급증 시 서비스 수준 목표(SLO) 안정성을 테스트한다.

오라클 마켓플레이스에서 제공
Augmented Memory Grid 탑재 NeuralMesh는 웨카 고객과 오라클 마켓플레이스(Oracle Marketplace)에서 정식 제공되며, OCI는 웨카의 독점 클라우드 출시 파트너다. OCI에서 장문맥 추론을 운영하는 조직은 검증된 프로덕션 준비 아키텍처를 지금 배포할 수 있다. OCI와 웨카 Augmented Memory Grid 벤치마크에 대한 자세한 내용은 OCI 블로그(https://blogs.oracle.com/ai-and-datascience/scaling-long-context-inference-on-oci-with-wekas-augmented-memory-grid)를 참조하면 된다.

웨카 소개
웨카는 에이전트형 AI의 경제성을 혁신하는 AI 데이터 및 메모리 인프라 기업이다. 웨카의 NeuralMesh™ 플랫폼은 고성능 데이터 스토리지와 확장 GPU 메모리를 통합한 인프라로 기업과 AI 클라우드 제공업체, AI 구축자는 여기서 학습, 추론, 에이전트형 워크로드를 처리할 수 있다. NeuralMesh는 Augmented Memory Grid를 통해 GPU 메모리 용량을 1000배 확장하고, 첫 토큰 생성 시간을 최대 20배 단축하며, 동일한 GPU 규모에서 동시 사용자를 10배 더 제공한다는 점이 프로덕션 벤치마크에서 입증됐다. 웨카는 포춘 50대 기업의 30%가 신뢰하는 기업으로 조직이 AI를 더 빠르게 확장하고, GPU 활용률을 최적화하며, 제공되는 모든 토큰의 비용을 절감하도록 지원하고 있다. 자세한 내용은 www.weka.io에서 확인하거나 LinkedIn 및 X에서 웨카와 연결하면 된다.

웨카와 W 로고는 웨카IO, Inc.의 등록 상표다. 본 문서에 언급된 기타 상호는 각 소유자의 상표일 수도 있다.

웨카와 오라클 클라우드 인프라스트럭처, 장문맥 AI 추론 처리량 10배 향상 검증

뉴스1 부산ㆍ경남

뉴스1 제주