Model API のモデルサービスが例外、エラー、または高負荷のために応答できない場合、バックアップモデルへのフォールバックを設定できます。この設定により、サービス中断による応答の失敗を防ぐことができます。このトピックでは、Model API のフォールバックを有効にして設定する方法について説明します。
AI フォールバックとは
AI フォールバックにより、プライマリモデルサービスが利用できない場合に、Model API がバックアップモデルに切り替わることができます。これにより、API の可用性が向上し、サービス例外や高負荷によるリクエストの失敗を防ぐことができます。
Model API は多階層のフォールバックをサポートしています。フォールバックを有効にして適切に設定することで、AI リクエストの成功率を高めることができます。
AI ゲートウェイでは、1 つ以上のフォールバックモデルを設定できます。プライマリモデルサービスが利用できない場合、ゲートウェイはフォールバックモデルを順番に呼び出します。ゲートウェイは、呼び出しが成功するとすぐに応答を返します。
フォールバックモデルには、次の設定項目が含まれます:
トリガー条件
AI フォールバックは、モデルサービスへの呼び出しが HTTP 4xx または 5xx エラー状態コードを返した場合にトリガーされます。
前提条件
ゲートウェイインスタンスが作成されていること。
サービスが作成されていること。
AI フォールバックの設定
左側のナビゲーションウィンドウで、[Model API] をクリックします。ここで、Model API の作成または編集時にフォールバックを有効にできます。
Model API の作成: [API の作成] をクリックし、Model API 設定ページで [フォールバック] を有効にします。
Model API の編集: 対象の API の [アクション] 列にある [編集] をクリックします。Model API 設定ページで、[フォールバック] を有効にします。
設定項目
説明
フォールバック
この機能を有効にすると、フォールバックサービスを追加できます。サービスは優先度の降順で実行されます。
説明同じサービスを再利用して、複数のフォールバックポリシーを作成できます。
バックエンドサービスエラー時のみフォールバック
このオプションを有効にすると、バックエンドサービスがエラーを返した場合にのみフォールバックがトリガーされます。
このオプションを無効にすると、ゲートウェイがリクエストをレート制限またはブロックした場合にもフォールバックがトリガーされます。
フォールバックリスト
サービス名
フォールバックサービスを選択します。
モデル名
デフォルト値はパススルーです。これにより、元のリクエストのモデル名がフォールバックモデルサービスに直接渡されます。
最初のパケットのタイムアウト
ストリーミング応答の最初のパケットのタイムアウト期間 (ミリ秒単位)。この設定はストリーミング応答にのみ適用されます。値 0 はこの機能を無効にします。ゼロ以外のタイムアウトを設定した場合、最初のパケット応答が遅すぎると、ゲートウェイはバックアップサービスにフォールバックします。