全部產品
Search
文件中心

Container Compute Service:Gateway with Inference Extension

更新時間:Oct 14, 2025

Gateway with Inference Extension組件是基於Kubernetes社區Gateway API及其Inference Extension規範實現的增強型組件,支援Kubernetes四層/七層路由服務,並提供面向大語言模型(LLM)推理情境的智能負載平衡能力。本文介紹Gateway with Inference Extension組件的資訊、使用說明和變更記錄。

組件資訊

Gateway with Inference Extension組件基於Envoy Gateway專案構建,相容Gateway API功能,整合了Gateway API提供的推理擴充。主要用於提供LLM推理服務的負載平衡和路由功能。

使用說明

Gateway with Inference Extension組件的安裝和使用依賴於Gateway API組件提供的CRD,安裝前請確保叢集中已經安裝Gateway API組件。具體操作,請參見安裝組件

變更記錄

2025年05月

版本號碼

變更時間

變更內容

變更影響

v1.4.0-aliyun.1

2025年05月27日

  • 支援Gateway API 1.3.0。

  • 推理擴充:

    • 支援vLLM、SGLang、TensorRT-LLM多種推理服務架構。

    • 支援首碼感知的負載平衡。

    • 支援基於模型名稱的推理服務路由能力。

    • 支援推理請求排隊與優先順序調度能力。

  • 產生式AI請求可觀測能力。

  • 支援全域限流。

  • 支援基於產生式AI請求Token的全域限流。

  • 支援添加Secret內容到指定請求Header。

舊版本升級會造成網關Pod重啟,建議在業務低峰期進行。

2025年04月

版本號碼

變更時間

變更內容

變更影響

v1.3.0-aliyun.2

2025年05月7日

  • 支援ACS叢集。

  • 推理擴充增強:支援在HTTPRoute中引用InferencePool資源,並且同時支援了InferencePool層級的權重路由、流量鏡像和熔斷等能力。

  • 支援首碼感知的負載平衡。

舊版本升級會造成網關Pod重啟,建議在業務低峰期進行。