Alibaba Cloud의 연구팀이 제안한 Aegaeon은 수백~수천 개의 다양한 LLM을 동시에 서빙해야 하는 모델 마켓 환경에서 GPU 자원 낭비를 극복하기 위한 시스템이다. 기존의 "요청(request) 단위" 오토스케일링 대신 토큰(token) 단위 오토스케일링을 도입하여, GPU 풀링 효율을 극대화하고 82%의 GPU 절감을 실현했다.
모든 모델에 전용 GPU 인스턴스를 할당하면:
| 접근 방식 | 설명 | 한계 |
|---|---|---|
| Multiplexing (예: MuxServe) | 여러 모델을 하나의 GPU에 동시에 올림 | GPU 메모리 제약: 14B 모델 2개가 한계 → 평균 2~3개 모델/GPU 카드 당 |
| Auto-scaling (예: ServerlessLLM) | 요청이 들어올 때만 모델을 GPU에 로드 | 요청 단위 스케일링: 긴 LLM 응답 시간으로 인해 Head-of-Line(HOL) 블로킹 발생 → 풀링 효율 저하 |
📌 핵심 문제: LLM 요청 시간은 일반적인 유저가 기다리기에는 지나치게 길다 (평균 16.79초)
→ 요청이 끝날 때까지 다른 모델을 실행할 수 없음 → 또한 여전히 GPU 카드당 2~3개 모델만 서브 가능
기존 시스템은 요청이 끝날 때까지 기다림 → HOL 블로킹이 발생
Aegaeon은 중간에 선점(preemption)하여 다른 모델의 토큰을 처리 → GPU 활용률 극대화 효과
Figure 2: Request-level vs Token-level auto-scaling
(위쪽: 기존 방식 → 아래쪽: Aegaeon)
Aegaeon은 Prefill와 Decoding 단계를 분리(disaggregate)하여 각각 최적화된 스케줄러를 적용하는 메커니즘을 가지고 있다.
전략:
전략:
토큰 단위 스케일링은 매우 빠른 스위칭이 필수 요소이며 이를 접목한 Aegaeon은 풀스택 최적화를 통해 스위칭 시간을 수십 초 → 수 밀리초 수준으로 단축했다.
해결 방법:
해결 방법:
Self-managed VRAM Buffer: 전체 VRAM을 단일 버퍼로 할당 → Bump Allocation 사용
torch.nn.Parameter monkey-patching으로 텐서 라이브러리 우회Unified CPU KV Cache: Slab Allocation 기반
해결 방법: CUDA Events를 활용한 세밀한 동기화
cudaEventRecord, cudaStreamWaitEvent으로 의존성 명시
cudaEventRecord)가 완료 시 해제매우 엄격한 SLO (TTFT=2s, TBT=20ms)에서는 정적 멀티플렉싱(MuxServe)이 더 나을 수 있음
Aegaeon은 LLM 모델 마켓이라는 새로운 패러다임에서 GPU 자원 효율성이라는 근본적인 문제를 해결한 획기적인 시스템이다.
토큰 단위 오토스케일링 + 풀스택 최적화를 통해 이론과 실전을 모두 잡았으며, 82%의 GPU 절감이라는 압도적인 성과로 그 가치를 입증했다.
또한 Aegaeon이 적용된 Alibaba Cloud Modelstudio는 다양한 모델(LLM, Visual Model 등)을 서빙하는데 최적의 성능을 제공하여 API를 통한 모델 호출의 퍼포먼스를 크게 증가시켰다.
이 기술은 향후 Alibaba Cloud의 AI Infrastructure에 적용 될 것으로 기대된다. 이는 Alibaba Cloud 를 활용하는 AI Serving 기업의 인프라 효율성을 크게 증가시키는 결과로 이어질 것이다.
"LLM 서빙의 미래는 '모델당 GPU'가 아니라 'GPU당 다수 모델'이다."
— Aegaeon은 이 미래를 현실로 만들 수 있을 것으로 기대된다.
참고 자료:
Regional Content Hub - May 20, 2024
James Lee - December 30, 2025
JJ Lim - December 3, 2021
Regional Content Hub - July 23, 2025
JJ Lim - January 20, 2025
Regional Content Hub - May 13, 2025
Tongyi Qianwen (Qwen)
Top-performance foundation models from Alibaba Cloud
Learn More
AI Acceleration Solution
Accelerate AI-driven business and AI model training and inference with Alibaba Cloud GPU technology
Learn More
Alibaba Cloud for Generative AI
Accelerate innovation with generative AI to create new business success
Learn More
Platform For AI
A platform that provides enterprise-level data modeling services based on machine learning algorithms to quickly meet your needs for data-driven operations.
Learn MoreMore Posts by JJ Lim