その他のポリシーとプラグイン - API Gateway - Alibaba Cloud ドキュメントセンター

AI Gateway を使用すると、API レベルでポリシーを追加し、プラグインを構成して、API のセキュリティ、パフォーマンス、保守性を向上させることができます。

重要

ポリシー構成の変更はすぐに有効になります。API を再公開する必要はありません。

手順

AI Gateway [インスタンス] に移動し、リージョンを選択して、ターゲットの [インスタンス ID] をクリックします。
左側のナビゲーションウィンドウで、[LLM API] をクリックします。次に、API の名前をクリックして API 詳細ページに移動します。
[ポリシーとプラグイン] タブをクリックします。[その他のポリシーとプラグイン] セクションで、ポリシーまたはプラグインを構成する場所 ([インバウンド処理] または [アウトバウンド処理]) を選択し、[ポリシー/プラグインを有効化] をクリックします。
[ポリシー/プラグインを有効化] パネルで、ポリシーまたはプラグインを選択して構成します。詳細については、「ポリシー構成」および「プラグイン構成」をご参照ください。

ポリシー構成

同時実行制御

同時実行制御ルールは、ゲートウェイによって処理されているリクエストの総数をカウントします。この数が指定されたしきい値に達すると、ゲートウェイは直ちにトラフィックをブロックします。このしきい値は、バックエンドサービスが処理できる同時リクエストの最大数に設定できます。これにより、高い同時実行性の期間中にバックエンドサービスの可用性が保護されます。

手順

[ポリシーの追加] タブで、[同時実行制御] カードをクリックします。[ポリシーの追加: 同時実行制御] パネルで、パラメーターを構成します。

構成項目			説明
有効化			有効にすると、同時実行制御ルールが有効になります。
全体の同時実行しきい値			[全体の同時実行しきい値] を設定します。
Web フォールバック動作	指定されたコンテンツを返す	HTTP ステータスコード	[HTTP ステータスコード] を設定します。デフォルト値は 429 です。
		返す Content-type	[返す Content-type] を [プレーンテキスト] または [JSON] に設定します。
		HTTP 応答本文	応答本文のテキストを入力します。
	返却コンテンツの指定	リダイレクト URL	[リダイレクト URL] を入力します。

トラフィックシェーピング

トラフィックシェーピングルールは、API の 1 秒あたりのクエリ数 (QPS) をモニターします。QPS が指定されたしきい値に達すると、ゲートウェイは直ちにトラフィックをブロックします。これにより、突然のトラフィックスパイクによるバックエンドサービスの過負荷を防ぎ、高可用性を確保します。

手順

[ポリシーの追加] タブで、[トラフィックシェーピング] カードをクリックします。[ポリシーの追加: トラフィックシェーピング] パネルで、パラメーターを構成します。

構成項目			説明
有効化			有効にすると、トラフィックシェーピングルールが有効になります。
全体の QPS しきい値			[全体の QPS しきい値] を設定します。
Web フォールバック動作	指定されたコンテンツを返す	HTTP ステータスコード	[HTTP ステータスコード] を設定します。デフォルト値は 429 です。
		返す Content-type	[返す Content-type] を [プレーンテキスト] または [JSON] に設定します。
		HTTP 応答本文	応答本文のテキストを入力します。
	指定ページへのリダイレクト	リダイレクト URL	[リダイレクト URL] を入力します。

サーキットブレーカーポリシー

サーキットブレーカーポリシーは、API の応答時間またはエラー率をモニターします。しきい値に達すると、ゲートウェイは直ちにサーキットをトリップします。指定された期間、ゲートウェイは不安定なリソースの呼び出しを停止します。これにより、バックエンドサービスへの影響を防ぎ、高可用性を確保します。指定された時間が経過すると、ゲートウェイはリソースへの呼び出しを再開します。

手順

[ポリシーの追加] タブで、[サーキットブレーカー] カードをクリックします。[ポリシーの追加: サーキットブレーカー] パネルで、パラメーターを構成します。

構成項目			説明
有効化			有効にすると、サーキットブレーカーポリシーが有効になります。
統計ウィンドウ期間			統計のタイムウィンドウの長さ。値は 1 秒から 120 分までです。
最小リクエスト数			サーキットブレーカーをトリガーするために必要な最小リクエスト数。現在の統計ウィンドウ内のリクエスト数がこの値より少ない場合、サーキットブレーカーの条件が満たされていても、ルールはトリガーされません。
しきい値タイプ			[低速呼び出し率 (%)] または [エラー率 (%)] をしきい値として選択します。しきい値として [低速呼び出し率 (%)] を選択した場合、許容される [低速呼び出し RT] (最大応答時間) を設定する必要があります。リクエストの応答時間がこの値より大きい場合、そのリクエストは低速呼び出しとしてカウントされます。劣化しきい値でサーキットブレーカーをトリガーする低速呼び出し率を設定します。ルールが有効になった後、統計ウィンドウ期間内のリクエスト数が最小リクエスト数より多く、低速呼び出し率がしきい値を超えると、リクエストはサーキットブレーカー期間中自動的にブロックされます。サーキットブレーカー期間が終了すると、サーキットブレーカーはプロービング回復状態に入ります。次のリクエストの応答時間が設定された低速呼び出し RT より短い場合、サーキットブレーカーは終了します。設定された低速呼び出し RT より大きい場合、サーキットは再び遮断されます。しきい値として [エラー率 (%)] を選択した場合、劣化しきい値でサーキットブレーカーをトリガーするエラー率を設定する必要があります。ルールが有効になった後、統計ウィンドウ期間内のビジネスエラー数が最小リクエスト数より多く、エラー率がしきい値を超えると、リクエストはサーキットブレーカー期間中自動的にブロックされます。
低速呼び出し RT			許容される [低速呼び出し RT] (最大応答時間) を設定します。
サーキットブレーカー率しきい値			サーキットブレーカーをトリガーする低速呼び出し率のしきい値。値は 0 から 100 までで、0% から 100% を表します。
サーキットブレーカー期間 (秒)			トリガーされた後、サーキットが遮断されたままになる期間。リソースがサーキットブレーカー状態に入った後、構成されたサーキットブレーカー期間中、リクエストはフェイルファストします。
Web フォールバック動作	指定されたコンテンツを返す	HTTP ステータスコード	[HTTP ステータスコード] を設定します。デフォルト値は 429 です。
		返す Content-type	[返す Content-type] を [プレーンテキスト] または [JSON] に設定します。
		HTTP 応答本文	応答本文のテキストを入力します。
	指定ページへのリダイレクト	リダイレクト URL	[リダイレクト URL] を入力します。

IP ブラックリストおよびホワイトリストポリシー

IP ブラックリストおよびホワイトリストポリシーは、事前に構成された許可 (ホワイトリスト) または拒否 (ブラックリスト) された IP アドレスのリストに基づいて、クライアントのサービスへのアクセスを制御します。

手順

[ポリシーの追加] タブで、[IP ブラックリスト/ホワイトリスト] カードをクリックします。[ポリシーの追加: IP ブラックリスト/ホワイトリスト] パネルで、パラメーターを構成します。

パラメーター	説明
有効化	有効にすると、IP ブラックリストおよびホワイトリストポリシーが有効になります。
名前	複数のポリシーを区別して管理するためのカスタム ID。
メモ	ポリシーを簡単に識別および管理するための説明。
タイプ	リストがブラックリストかホワイトリストかを指定して、アクセスポリシーのタイプを制御します。ホワイトリスト: 指定された IP アドレスからのアクセスのみを許可します。他のすべての IP アドレスはデフォルトで拒否されます。ブラックリスト: 特定の IP アドレスからのアクセスをブロックします。他のすべての IP アドレスはデフォルトで許可されます。
IP アドレス/CIDR ブロック	許可または拒否する IP アドレスまたは CIDR ブロックのリストを構成します。複数のエントリがサポートされています。`192.168.1.1/24` などのフォーマットを使用します。

タイムアウトポリシー

AI Gateway は API レベルのタイムアウト設定を提供します。特定の API について、ゲートウェイがバックエンドサービスからの応答を待つ最大時間を構成できます。指定された時間内にゲートウェイがバックエンドサービスから応答を受信しない場合、クライアントに HTTP ステータスコード 504 (ゲートウェイタイムアウト) を返します。

手順

[ポリシーの追加] タブで、[タイムアウト] カードをクリックします。[ポリシーの追加: タイムアウト] パネルで、パラメーターを構成します。

説明

タイムアウトポリシーを構成して有効にした後、タイムアウトルールが期待どおりに機能することを確認してください。

パラメーター

説明

有効化

タイムアウトポリシーを有効にするかどうかを指定します。

有効: ゲートウェイ API のタイムアウトポリシーが有効になります。
無効: ゲートウェイ API のタイムアウトポリシーは無効になります。

タイムアウト期間

現在の API のタイムアウト期間を秒単位で設定します。

説明

このパラメーターを 0 に設定するか、タイムアウトポリシーを無効にすると、ゲートウェイは無期限に応答を待ちます。

リトライポリシー

AI Gateway は API レベルのリトライ設定を提供し、失敗したリクエストを自動的にリトライできます。接続の失敗、利用できないバックエンドサービス、特定の HTTP ステータスコードなど、リトライをトリガーする条件を構成できます。

API リトライ条件

バックエンドサービスが 5xx エラーを返すと、AI Gateway は構成されたリトライ回数に基づいて、失敗したリクエストを自動的にリトライします。

[HTTP プロトコル] のリトライ条件は次のとおりです:
- 5xx: バックエンドサービスが 5xx 応答を返すか、接続が失われたり、リセットされたり、読み取りタイムアウトイベントが発生した場合、AI Gateway は失敗したリクエストのリトライを試みます。
  説明
  5xx には、connect-failure および refused-stream の条件が含まれます。
- reset: 接続が失われたり、リセットされたり、読み取りタイムアウトイベントが発生した場合、AI Gateway は失敗したリクエストのリトライを試みます。
- connect-failure: バックエンドサービスへの接続を確立できない場合、AI Gateway は失敗したリクエストのリトライを試みます。
- refused-stream: バックエンドサービスが REFUSED_STREAM エラーコードでストリームをリセットした場合、AI Gateway は失敗したリクエストのリトライを試みます。
- retriable-status-codes: バックエンドサービスの応答の HTTP ステータスコードが指定されたリトライステータスコードのいずれかと一致する場合、AI Gateway はリクエストのリトライを試みます。
  説明
  リトライ条件で retriable-status-codes を指定した場合にのみ、リトライステータスコードを使用できます。
[GRPC プロトコル] のリトライ条件は次のとおりです:
- cancelled: バックエンド gRPC サービスからの応答ヘッダーの gRPC ステータスコードが cancelled の場合、AI Gateway はリクエストのリトライを試みます。
- deadline-exceeded: バックエンド gRPC サービスからの応答ヘッダーの gRPC ステータスコードが deadline-exceeded の場合、AI Gateway はリクエストのリトライを試みます。
- internal: バックエンド gRPC サービスからの応答ヘッダーの gRPC ステータスコードが internal の場合、AI Gateway はリクエストのリトライを試みます。
- resource-exhausted: バックエンド gRPC サービスからの応答ヘッダーの gRPC ステータスコードが resource-exhausted の場合、AI Gateway はリクエストのリトライを試みます。
- unavailable: バックエンド gRPC サービスからの応答ヘッダーの gRPC ステータスコードが unavailable の場合、AI Gateway はリクエストのリトライを試みます。

手順

[ポリシーの追加] タブで、[リトライ] カードをクリックします。[ポリシーの追加: リトライ] パネルで、パラメーターを構成します。

説明

リトライポリシーを構成して有効にした後、リトライルールが期待どおりに機能することを確認してください。

パラメーター	説明
有効化	リトライポリシーを有効にするかどうかを指定します。有効: ゲートウェイ API のリトライポリシーが有効になります。無効: ゲートウェイ API のリトライポリシーは有効になりません。リトライを無効にすると、ゲートウェイにはデフォルトの内部リトライ構成があります。デフォルトでは、リトライ回数は 2 で、リトライ条件は `connect-failure`、`refused-stream`、`unavailable`、`cancelled`、`non_idempotent`、または `retriable-status-codes` です。
リトライ回数	失敗したリクエストの最大リトライ回数。このパラメーターは 0 から 10 までの整数に設定できます。このパラメーターを 0、1、または 2 に設定することをお勧めします。このパラメーターを 0 に設定すると、失敗したリクエストはリトライされません。
リトライ条件	適切な条件を選択します。複数の条件を選択できます。
リトライステータスコード	特定の HTTP ステータスコードを持つ応答に対してリクエストをリトライします。複数の HTTP ステータスコードを構成できます。重要 [リトライ条件] に `retriable-status-codes` を指定した場合にのみ、[リトライステータスコード] を構成できます。

ヘッダー変更ポリシー

ヘッダー変更機能を使用すると、元のリクエストがバックエンドサービスに転送される前にヘッダーを変更したり、バックエンドサービスからの応答がクライアントに返される前にヘッダーを変更したりできます。

手順

[ポリシーの追加] タブで、[ヘッダー変更] カードをクリックします。[ポリシーの追加: ヘッダー変更] パネルで、パラメーターを構成します。

構成項目	説明
有効化	ヘッダー変更ポリシーを有効にするかどうかを指定します。有効: 有効にすると、ゲートウェイはリクエストヘッダーと応答ヘッダーを制御します。無効: 無効にすると、ゲートウェイはリクエストヘッダーと応答ヘッダーを制御しません。
ヘッダータイプ	ヘッダータイプを選択します。リクエスト: リクエストヘッダーを変更します。応答: 応答ヘッダーを変更します。
操作タイプ	操作タイプを選択します。追加: リクエストまたは応答にヘッダーを追加します。注追加するヘッダーが既に存在する場合、新しいヘッダー値は既存の値にカンマ (,) で区切られて追加されます。変更: リクエストまたは応答内の指定されたヘッダーを変更します。注指定されたヘッダーが存在しない場合は、指定されたヘッダーキーと値で追加されます。指定されたヘッダーが存在する場合は、その値が上書きされます。削除: リクエストまたは応答から指定されたヘッダーを削除します。
ヘッダーキー	リクエストまたは応答ヘッダーの名前を入力します。
ヘッダー値	リクエストまたは応答ヘッダーの値を入力します。

プラグイン構成

[プラグインの追加] タブをクリックします。
[クイックナビゲーション] セクションで、インストールするプラグインのタイプを選択するか、名前でプラグインを検索し、プラグインカードをクリックします:
- プラグインがインストールされていない場合は、表示されるダイアログボックスで [インストールして構成] をクリックします。次に、プラグインルールを構成し、ステータスを有効に設定します。
- プラグインが既にインストールされている場合は、表示されるダイアログボックスでプラグインルールを構成し、ステータスを有効に設定します。
[OK] をクリックします。API 添付ファイルリストにリダイレクトされ、API のプラグインの添付ファイルと有効ステータスを表示できます。