Alibaba Cloud의 연구팀이 제안한 Aegaeon은 수백~수천 개의 다양한 LLM을 동시에 서빙해야 하는 모델 마켓 환경에서 GPU 자원 낭비를 극복하기 위한 시스템이다. 기존의 "요청(request) 단위" 오토스케일링 대신 토큰(token) 단위 오토스케일링을 도입하여, GPU 풀링 효율을 극대화하고 82%의 GPU 절감을 실현했다.
모든 모델에 전용 GPU 인스턴스를 할당하면:
| 접근 방식 | 설명 | 한계 |
|---|---|---|
| Multiplexing (예: MuxServe) | 여러 모델을 하나의 GPU에 동시에 올림 | GPU 메모리 제약: 14B 모델 2개가 한계 → 평균 2~3개 모델/GPU 카드 당 |
| Auto-scaling (예: ServerlessLLM) | 요청이 들어올 때만 모델을 GPU에 로드 | 요청 단위 스케일링: 긴 LLM 응답 시간으로 인해 Head-of-Line(HOL) 블로킹 발생 → 풀링 효율 저하 |
📌 핵심 문제: LLM 요청 시간은 일반적인 유저가 기다리기에는 지나치게 길다 (평균 16.79초)
→ 요청이 끝날 때까지 다른 모델을 실행할 수 없음 → 또한 여전히 GPU 카드당 2~3개 모델만 서브 가능
기존 시스템은 요청이 끝날 때까지 기다림 → HOL 블로킹이 발생
Aegaeon은 중간에 선점(preemption)하여 다른 모델의 토큰을 처리 → GPU 활용률 극대화 효과
Figure 2: Request-level vs Token-level auto-scaling
(위쪽: 기존 방식 → 아래쪽: Aegaeon)
Aegaeon은 Prefill와 Decoding 단계를 분리(disaggregate)하여 각각 최적화된 스케줄러를 적용하는 메커니즘을 가지고 있다.
전략:
전략:
토큰 단위 스케일링은 매우 빠른 스위칭이 필수 요소이며 이를 접목한 Aegaeon은 풀스택 최적화를 통해 스위칭 시간을 수십 초 → 수 밀리초 수준으로 단축했다.
해결 방법:
해결 방법:
Self-managed VRAM Buffer: 전체 VRAM을 단일 버퍼로 할당 → Bump Allocation 사용
torch.nn.Parameter monkey-patching으로 텐서 라이브러리 우회Unified CPU KV Cache: Slab Allocation 기반
해결 방법: CUDA Events를 활용한 세밀한 동기화
cudaEventRecord, cudaStreamWaitEvent으로 의존성 명시
cudaEventRecord)가 완료 시 해제매우 엄격한 SLO (TTFT=2s, TBT=20ms)에서는 정적 멀티플렉싱(MuxServe)이 더 나을 수 있음
Aegaeon은 LLM 모델 마켓이라는 새로운 패러다임에서 GPU 자원 효율성이라는 근본적인 문제를 해결한 획기적인 시스템이다.
토큰 단위 오토스케일링 + 풀스택 최적화를 통해 이론과 실전을 모두 잡았으며, 82%의 GPU 절감이라는 압도적인 성과로 그 가치를 입증했다.
또한 Aegaeon이 적용된 Alibaba Cloud Modelstudio는 다양한 모델(LLM, Visual Model 등)을 서빙하는데 최적의 성능을 제공하여 API를 통한 모델 호출의 퍼포먼스를 크게 증가시켰다.
이 기술은 향후 Alibaba Cloud의 AI Infrastructure에 적용 될 것으로 기대된다. 이는 Alibaba Cloud 를 활용하는 AI Serving 기업의 인프라 효율성을 크게 증가시키는 결과로 이어질 것이다.
"LLM 서빙의 미래는 '모델당 GPU'가 아니라 'GPU당 다수 모델'이다."
— Aegaeon은 이 미래를 현실로 만들 수 있을 것으로 기대된다.
참고 자료:
Regional Content Hub - May 20, 2024
JJ Lim - December 3, 2021
Regional Content Hub - July 23, 2025
Regional Content Hub - May 13, 2025
JJ Lim - January 20, 2025
Regional Content Hub - September 9, 2024
AI Acceleration Solution
Accelerate AI-driven business and AI model training and inference with Alibaba Cloud GPU technology
Learn More
Tongyi Qianwen (Qwen)
Top-performance foundation models from Alibaba Cloud
Learn More
Alibaba Cloud for Generative AI
Accelerate innovation with generative AI to create new business success
Learn More
Platform For AI
A platform that provides enterprise-level data modeling services based on machine learning algorithms to quickly meet your needs for data-driven operations.
Learn MoreMore Posts by JJ Lim