全部產品
Search
文件中心

Container Service for Kubernetes:Gateway with Inference Extension

更新時間:Dec 17, 2025

Gateway with Inference Extension組件是基於Kubernetes社區Gateway API及其Inference Extension規範實現的增強型組件,支援Kubernetes四層/七層路由服務,並提供面向大語言模型(LLM)推理情境的智能負載平衡能力。本文介紹Gateway with Inference Extension組件的資訊、使用說明和變更記錄。

組件資訊

Gateway with Inference Extension組件基於Envoy Gateway專案構建,相容Gateway API功能,整合了Gateway API提供的推理擴充。主要用於提供LLM推理服務的負載平衡和路由功能。

使用說明

  • Gateway with Inference Extension組件的安裝和使用依賴於Gateway API組件提供的CRD,安裝前請確保叢集中已經安裝Gateway API組件。具體操作,請參見安裝組件

  • 有關Gateway with Inference Extension組件的使用詳情,請參見Gateway with Inference Extension概述

變更記錄

2025年12月

版本號碼

變更時間

變更內容

變更影響

v1.4.0-apsara.4

2025年12月16日

  • 支援InferencePool v1 CRD

  • 支援最新vllm v1推理引擎

  • 改善了智能路由在高並發情況下的調度能力

舊版本升級會造成網關Pod重啟,建議在業務低峰期進行。

2025年09月

版本號碼

變更時間

變更內容

變更影響

v1.4.0-apsara.3

2025年09月04日

  • 支援為SGLang PD分離服務配置推理路由。

  • 支援精準模式的首碼緩衝感知路由能力。

  • 支援路由至外部MaaS服務。

  • 支援對接阿里雲Alibaba Content Security Service審核服務實現AI內容審查。

  • 支援通過InferenceTrafficPolicy API配置推理路由策略。

舊版本升級會造成網關Pod重啟,建議在業務低峰期進行。

2025年05月

版本號碼

變更時間

變更內容

變更影響

v1.4.0-aliyun.1

2025年05月27日

  • 支援Gateway API 1.3.0。

  • 推理擴充:

    • 支援vLLM、SGLang、TensorRT-LLM等多種推理服務架構。

    • 支援首碼感知的負載平衡。

    • 支援基於模型名稱的推理服務路由能力。

    • 支援推理請求排隊與優先順序調度能力。

  • 產生式AI請求可觀測能力。

  • 支援全域限流。

  • 支援基於產生式AI請求Token的全域限流。

  • 支援添加Secret內容到指定請求Header。

舊版本升級會造成網關Pod重啟,建議在業務低峰期進行。

2025年04月

版本號碼

變更時間

變更內容

變更影響

v1.3.0-aliyun.2

2025年05月7日

  • 支援ACS叢集。

  • 推理擴充增強:支援在HTTPRoute中引用InferencePool資源,並且同時支援了InferencePool層級的權重路由、流量鏡像和熔斷等能力。

  • 支援首碼感知的負載平衡。

舊版本升級會造成網關Pod重啟,建議在業務低峰期進行。

2025年03月

版本號碼

變更時間

變更內容

變更影響

v1.3.0-aliyun.1

2025年03月12日

  • 支援 Gateway API v1.2。

  • 支援 Inference Extension,提供面向 Inference 大語言模型(LLM)推理情境的智能負載平衡能力。

此次升級不會對業務造成影響。