當Model API的模型服務因異常、故障或高負載而無法正常響應時,通過配置Fallback切換到備用模型,有效避免因模型服務中斷導致的響應失敗問題。本文將介紹如何為Model API開啟和配置Fallback。
什麼是AI Fallback
AI Fallback 是指Model API在主模型服務不可用時Fallback到備用模型,從而提升Model API的可用性,避免因為某個模型服務的異常或者高負載造成的請求不可用。
Model API 支援多級Fallback,啟用併合理的配置Fallback, 可有效提升AI請求的成功率。
AI 網關支援配置一到多個Fallback模型,當主模型服務不可用時,網關將會按順序調用Fallback模型服務,如果調用成功,則會立即返回。
Fallback 模型包含如下配置項:
觸發條件
當調用模型服務,返回任意 HTTP 4xx、5xx 錯誤狀態代碼時,均會觸發 AI Fallback。
前提條件
配置AI Fallback
開啟AI網關控制台執行個體頁面,在頂部功能表列選擇目標執行個體所在地區,並單擊目標執行個體ID。
在左側導覽列,單擊Model API。可在建立或者編輯Model API時開啟Fallback。
建立Model API:單擊建立API,在Model API 的配置頁面,開啟Fallback。
編輯Model API:單擊目標API操作列的編輯,在Model API 的配置頁面,開啟Fallback。
配置項
說明
Fallback
開啟後可添加Fallback服務,按照降序執行。
說明Fallback服務支援重複使用同一個服務組建多條策略。
僅Fallback後端服務錯誤
開啟後,僅當後端服務返回錯誤時才會觸發Fallback機制。
如果不開啟,則當請求被網關限流或者其它形式攔截時同樣會觸發Fallback。
Fallback列表
服務名稱
選擇Fallback服務名稱。
模型名稱
預設為透傳。將請求中的模型名稱直接傳遞給Fallback模型服務。
首包逾時
串流中首個響應包的逾時時間,單位為毫秒。首包逾時僅對流式響應生效,設為0時代表不啟用,當設定首包逾時為非0時,對於首包響應過慢的請求網關將會fallback至兜底服務。