AI Fallback - API Gateway

當Model API的模型服務因異常、故障或高負載而無法正常響應時，通過配置Fallback切換到備用模型，有效避免因模型服務中斷導致的響應失敗問題。本文將介紹如何為Model API開啟和配置Fallback。

什麼是AI Fallback

AI Fallback 是指Model API在主模型服務不可用時Fallback到備用模型，從而提升Model API的可用性，避免因為某個模型服務的異常或者高負載造成的請求不可用。

Model API 支援多級Fallback，啟用併合理的配置Fallback，可有效提升AI請求的成功率。

AI 網關支援配置一到多個Fallback模型，當主模型服務不可用時，網關將會按順序調用Fallback模型服務，如果調用成功，則會立即返回。

Fallback 模型包含如下配置項：

當調用模型服務，返回任意 HTTP 4xx、5xx 錯誤狀態代碼時，均會觸發 AI Fallback。

在左側導覽列，單擊Model API。可在建立或者編輯Model API時開啟Fallback。

配置項		說明
Fallback		開啟後可添加Fallback服務，按照降序執行。說明 Fallback服務支援重複使用同一個服務組建多條策略。
僅Fallback後端服務錯誤		開啟後，僅當後端服務返回錯誤時才會觸發Fallback機制。如果不開啟，則當請求被網關限流或者其它形式攔截時同樣會觸發Fallback。
Fallback列表		選擇Fallback服務名稱。
		預設為透傳。將請求中的模型名稱直接傳遞給Fallback模型服務。
首包逾時		串流中首個響應包的逾時時間，單位為毫秒。首包逾時僅對流式響應生效，設為0時代表不啟用，當設定首包逾時為非0時，對於首包響應過慢的請求網關將會fallback至兜底服務。