モデル API 障害を防ぐための AI フォールバックの設定 - API Gateway

Model API のモデルサービスが例外、エラー、または高負荷のために応答できない場合、バックアップモデルへのフォールバックを設定できます。この設定により、サービス中断による応答の失敗を防ぐことができます。このトピックでは、Model API のフォールバックを有効にして設定する方法について説明します。

AI フォールバックとは

AI フォールバックにより、プライマリモデルサービスが利用できない場合に、Model API がバックアップモデルに切り替わることができます。これにより、API の可用性が向上し、サービス例外や高負荷によるリクエストの失敗を防ぐことができます。

Model API は多階層のフォールバックをサポートしています。フォールバックを有効にして適切に設定することで、AI リクエストの成功率を高めることができます。

AI ゲートウェイでは、1 つ以上のフォールバックモデルを設定できます。プライマリモデルサービスが利用できない場合、ゲートウェイはフォールバックモデルを順番に呼び出します。ゲートウェイは、呼び出しが成功するとすぐに応答を返します。

フォールバックモデルには、次の設定項目が含まれます:

サービス名: バックアップモデルサービスの名前。インスタンスのサービスリストからサービスを選択できます。
モデル名: パススルーを使用するか、Qwen-plus などのモデル名を指定できます。

トリガー条件

AI フォールバックは、モデルサービスへの呼び出しが HTTP 4xx または 5xx エラー状態コードを返した場合にトリガーされます。

前提条件

ゲートウェイインスタンスが作成されていること。
サービスが作成されていること。

AI フォールバックの設定

左側のナビゲーションウィンドウで、[Model API] をクリックします。ここで、Model API の作成または編集時にフォールバックを有効にできます。

Model API の作成: [API の作成] をクリックし、Model API 設定ページで [フォールバック] を有効にします。
Model API の編集: 対象の API の [アクション] 列にある [編集] をクリックします。Model API 設定ページで、[フォールバック] を有効にします。

設定項目		説明
フォールバック		この機能を有効にすると、フォールバックサービスを追加できます。サービスは優先度の降順で実行されます。説明同じサービスを再利用して、複数のフォールバックポリシーを作成できます。
バックエンドサービスエラー時のみフォールバック		このオプションを有効にすると、バックエンドサービスがエラーを返した場合にのみフォールバックがトリガーされます。このオプションを無効にすると、ゲートウェイがリクエストをレート制限またはブロックした場合にもフォールバックがトリガーされます。
フォールバックリスト	サービス名	フォールバックサービスを選択します。
	モデル名	デフォルト値はパススルーです。これにより、元のリクエストのモデル名がフォールバックモデルサービスに直接渡されます。
最初のパケットのタイムアウト		ストリーミング応答の最初のパケットのタイムアウト期間 (ミリ秒単位)。この設定はストリーミング応答にのみ適用されます。値 0 はこの機能を無効にします。ゼロ以外のタイムアウトを設定した場合、最初のパケット応答が遅すぎると、ゲートウェイはバックアップサービスにフォールバックします。