全部產品
Search
文件中心

Container Service for Kubernetes:AI推理套件

更新時間:Aug 26, 2025

隨著大語言模型(LLM)的廣泛應用,如何在生產環境中實現其高效、穩定且大規模的部署與營運,已成為企業面臨的核心挑戰。雲原生 AI 推理套件(AI Serving Stack)基於阿里雲Container Service,專為雲原生AI推理而設計的端到端解決方案。該套件致力於解決LLM推理的全生命週期問題,提供從部署管理、智能路由、Auto Scaling、深度可觀測的一體化能力。無論是剛剛起步還是已經擁有大規模AI業務,雲原生AI推理套件都能輕鬆駕馭複雜的雲原生AI推理情境。

image.png

核心功能

雲原生AI推理套件通過其創新的工作負載設計、精細化的彈效能力、深度的可觀測性以及強大的擴充機制,為使用者在Kubernetes上運行LLM推理服務推理提供了前所未有的便捷與效能。AI推理套件具有以下核心功能。

功能項

說明

相關文檔

支援單機LLM推理

使用StatefulSet部署LLM推理服務,支援單機單卡和單機多卡部署。

部署單機LLM推理服務

支援多機分布式LLM推理

使用LeaderWorkerSet部署多機多卡的分布式推理服務。

支援多種推理引擎的PD分離部署

各種推理引擎實現PD分離的架構各不相同,部署方案各異,因此AI推理套件使用RoleBasedGroup作為工作負載,統一部署各種推理引擎的PD分離架構。

彈性擴縮容

成本與效能的平衡是LLM服務的關鍵。AI推理套件提供了業界領先的多維度、多層次Auto Scaling能力。

  • 通用彈性支援:深度整合並最佳化了HPA、KEDA、Knative (KPA) 等標準擴縮容機制,滿足不同情境的需求。

  • 面向PD分離的智能伸縮:獨家支援針對RBG中特定角色(Role)的獨立擴縮容。例如,可以根據推理引擎指標如請求排隊情況動態擴充“Prefill”角色,同時保持負責請求調度的“Scheduler”角色穩定,實現最精細化的資源配置。

可觀測性

黑盒化的推理過程是效能最佳化的巨大障礙。AI推理套件提供了開箱即用的深度可觀測性方案。

  • 核心引擎監控:針對vLLM、SGLang等主流推理引擎,預置了豐富的Metrics Dashboard監控大盤,全面覆蓋Token吞吐率、請求延遲、GPU利用率、KV Cache命中率等關鍵計量。

  • 問題快速定位:通過直觀的監控視圖,開發人員可以快速定位效能瓶頸,做出科學的最佳化決策。

為LLM推理服務配置監控

推理網關

ACK Gateway with Inference Extension組件是基於Kubernetes社區Gateway API及其Inference Extension規範實現的增強型組件,支援Kubernetes四層/七層路由服務,並提供面向產生式AI推理情境的一系列增強能力。它能夠簡化產生式AI推理服務的管理流程,並最佳化在多個推理服務工作負載之間的負載平衡效能。

為LLM推理服務配置推理網關智能路由

模型加速

在AI推理情境中,LLM模型載入慢導致應用冷啟動耗時高、Auto Scaling受阻等問題。Fluid通過構建分布式緩衝將遠端模型檔案快取到節點本地,實現極速啟動、零冗餘、極致彈性。

Fluid資料緩衝最佳化策略最佳實務

效能剖析

為了進行更深層次的效能分析,可使用AI Profiling工具,它允許開發人員在不中斷服務、不修改代碼的前提下,通過GPU容器進程資料的採集,對線上啟動並執行訓練推理服務進行效能觀測剖析。

  • 無侵入設計:一鍵啟動,對線上服務無感知,安全可靠。

  • 洞察代碼瓶頸:協助定位到具體的CUDA Kernel或Python函數層級的效能熱點,為極致最佳化提供資料支撐。

AI Profiling

免責聲明

AI推理套件為開源推理引擎及其PD分離架構提供部署管理的能力,阿里雲為AI推理套件提供支援人員,但對於使用者在使用過程中因開源引擎和開源PD分離架構本身產生的缺陷從而導致使用者業務受損的情況,阿里雲不提供賠償或者補償等商務服務。