Gateway with Inference Extension組件是基於Kubernetes社區Gateway API及其Inference Extension規範實現的增強型組件,支援Kubernetes四層/七層路由服務,並提供面向大語言模型(LLM)推理情境的智能負載平衡能力。本文介紹Gateway with Inference Extension組件的資訊、使用說明和變更記錄。
組件資訊
Gateway with Inference Extension組件基於Envoy Gateway專案構建,相容Gateway API功能,整合了Gateway API提供的推理擴充。主要用於提供LLM推理服務的負載平衡和路由功能。
使用說明
Gateway with Inference Extension組件的安裝和使用依賴於Gateway API組件提供的CRD,安裝前請確保叢集中已經安裝Gateway API組件。具體操作,請參見安裝組件。
變更記錄
2025年05月
版本號碼 | 變更時間 | 變更內容 | 變更影響 |
v1.4.0-aliyun.1 | 2025年05月27日 |
| 舊版本升級會造成網關Pod重啟,建議在業務低峰期進行。 |
2025年04月
版本號碼 | 變更時間 | 變更內容 | 變更影響 |
v1.3.0-aliyun.2 | 2025年05月7日 |
| 舊版本升級會造成網關Pod重啟,建議在業務低峰期進行。 |