全部產品
Search
文件中心

API Gateway:AI Fallback

更新時間:Oct 14, 2025

當Model API的模型服務因異常、故障或高負載而無法正常響應時,通過配置Fallback切換到備用模型,有效避免因模型服務中斷導致的響應失敗問題。本文將介紹如何為Model API開啟和配置Fallback。

什麼是AI Fallback

AI Fallback 是指Model API在主模型服務不可用時Fallback到備用模型,從而提升Model API的可用性,避免因為某個模型服務的異常或者高負載造成的請求不可用。

Model API 支援多級Fallback,啟用併合理的配置Fallback, 可有效提升AI請求的成功率。

AI 網關支援配置一到多個Fallback模型,當主模型服務不可用時,網關將會按順序調用Fallback模型服務,如果調用成功,則會立即返回。

Fallback 模型包含如下配置項:

  • 服務名稱:備用模型服務的名稱,從該執行個體下的服務列表中選擇。

  • 模型名稱:支援透傳和指定具體模型的名稱,如 Qwen-plus。

觸發條件

當調用模型服務,返回任意 HTTP 4xx、5xx 錯誤狀態代碼時,均會觸發 AI Fallback。

前提條件

配置AI Fallback

  1. 開啟AI網關控制台執行個體頁面,在頂部功能表列選擇目標執行個體所在地區,並單擊目標執行個體ID

  2. 在左側導覽列,單擊Model API。可在建立或者編輯Model API時開啟Fallback。

    • 建立Model API:單擊建立API,在Model API 的配置頁面,開啟Fallback

    • 編輯Model API:單擊目標API操作列的編輯,在Model API 的配置頁面,開啟Fallback

    配置項

    說明

    Fallback

    開啟後可添加Fallback服務,按照降序執行。

    說明

    Fallback服務支援重複使用同一個服務組建多條策略。

    僅Fallback後端服務錯誤

    開啟後,僅當後端服務返回錯誤時才會觸發Fallback機制。

    如果不開啟,則當請求被網關限流或者其它形式攔截時同樣會觸發Fallback。

    Fallback列表

    服務名稱

    選擇Fallback服務名稱。

    模型名稱

    預設為透傳。將請求中的模型名稱直接傳遞給Fallback模型服務。

    首包逾時

    串流中首個響應包的逾時時間,單位為毫秒。首包逾時僅對流式響應生效,設為0時代表不啟用,當設定首包逾時為非0時,對於首包響應過慢的請求網關將會fallback至兜底服務。