このタイプのポリシーまたはプラグインは、リクエスト数やリクエスト本文のサイズではなく、トークンの使用量に基づいてトラフィックを動的にスロットルします。これにより、特に大規模言語モデル (LLM) サービスや高い同時実行性のシナリオに適しています。スロットリングポリシーを使用すると、ID、リクエストヘッダーパラメーター、クエリパラメーター、クライアント IP アドレスなど、複数のディメンションにわたってコンシューマーのスロットリングルールを設定できます。さらに、1 回の API 呼び出しで消費されるトークンの総数に基づいて、リアルタイムの課金とスロットリングを実行できます。このトークンベースのスロットリングモードは、システムの過負荷や API の不正使用を効果的に防止できます。また、LLM コンピューティングワークロードのリソース消費特性を考慮することで、複雑なシナリオにおけるコアサービスの安定した運用を保証します。
ポリシーの概要
システムの過負荷を防止: このポリシーは、高頻度の呼び出しや悪意のあるリクエストを効果的に制限し、過負荷によるシステムの故障やパフォーマンスの低下を防ぎます。これは、コンシューマー、ヘッダー、クエリパラメーター、Cookie、またはクライアント IP アドレスなどのディメンションに基づく柔軟なポリシー設定を使用して実現されます。キャッシュポリシーと組み合わせることで、このポリシーはシステムのパフォーマンスをさらに向上させることができます。
動的スロットリングを許可: 毎秒、毎分、毎時、毎日など、さまざまな粒度でコンシューマーをスロットルできます。また、必要に応じてスロットリングルールを調整して、高い同時実行性下でシステムが安定して実行されるようにすることもできます。
複数のマッチングルールをサポート: スロットリングポリシーは、さまざまな優先順位を持つ複雑なビジネスシナリオのニーズを満たすために、複数のマッチングルールをサポートします。
攻撃を防止する: 特定のコンシューマー、ヘッダー、クエリパラメーター、または Cookie を調整することで、クローラーまたは自動ツールのアクセスを効果的に制限し、データセキュリティを保護できます。
シナリオ
高い同時実行性のシナリオ: e コマースのプロモーションなどのシナリオでは、時間単位のトークン使用量に基づいて API 呼び出し元をスロットルできます。これにより、悪意のある高頻度の呼び出しを防ぎ、プロモーション中のサービスの安定性と公平性を確保します。
AI サービスの呼び出し: LLM API への呼び出しをスロットルして、トラフィックのバーストによって引き起こされるサービス品質の低下やシステムの故障を防ぐことができます。
マルチテナントシステム: オープンプラットフォームまたはマルチテナントアーキテクチャでは、さまざまなテナントに異なるスロットリングクォータを割り当てて、公平性とリソースの隔離を確保できます。
攻撃に対する防御: スロットリングメカニズムを確立して、クローラー攻撃、DDoS 攻撃、API の不正使用から防御できます。
手順
左側のナビゲーションウィンドウで、[LLM API] をクリックします。次に、API の名前をクリックして API 詳細ページに移動します。
[ポリシーとプラグイン] をクリックし、[スロットリング] スイッチを有効にして、関連するパラメーターを設定します。
設定項目
説明
スロットリング
スロットリングスイッチをオンまたはオフにします。デフォルトでは、このスイッチはオフになっています。
速度制限ポリシー
スロットリングポリシーには、5 種類の [判断条件] が含まれます。
リクエストヘッダーによる: たとえば、ヘッダーに
beta識別子を持つリクエストを毎分 100 トークンにスロットルします。リクエストクエリパラメーターによる: たとえば、
user_id=1クエリパラメーターを持つリクエストを毎分 100 トークンにスロットルします。リクエスト Cookie による: たとえば、Cookie 内に指定された識別子を持つリクエストを毎分 100 トークンにスロットルします。
コンシューマー別: たとえば、すべてのコンシューマーを 1 分あたり 1,000 トークンに制限します。
重要コンシューマーによるスロットリングを設定するには、コンシューマー認証を有効にする必要があります。
クライアント IP アドレスによる: たとえば、各クライアント IP アドレスを毎分 100 トークンにスロットルします。
各判断条件は、[スロットリングルール] の 4 つのタイプをサポートします: 完全一致、プレフィックス一致、正規表現一致、および 任意一致。優先順位は、完全一致 > プレフィックス一致 > 正規表現一致 > 任意一致です。
説明複数のルールを設定した場合、リクエストはいずれかのルールにヒットするとブロックされます。
[スロットリング範囲] は、毎秒、毎分、毎時、または 毎日 にすることができます。
説明速度制限は、LLM によるインバウンドまたはアウトバウンドトークンの数に基づいて実行されます。
構成を確認し、[保存] をクリックします。