このトピックでは、AI 機能について説明します。
AI シナリオでは、ゲートウェイのトラフィックには、他のサービストラフィックと区別される 3 つの主要な特徴があります。
持続的接続: AI シナリオでは、WebSocket および Server-Sent Events (SSE) プロトコルが頻繁に使用されるため、持続的接続の割合が高くなります。ゲートウェイの構成更新は、これらの接続に影響を与えたり、サービスを中断させたりしてはなりません。
高レイテンシー: 大規模言語モデル (LLM) の推論の応答レイテンシーは、標準的なアプリケーションよりもはるかに高くなります。これにより、AI アプリケーションは悪意のある攻撃に対して脆弱になります。攻撃者は、遅いリクエストで同時攻撃を簡単に開始できます。これらの攻撃は攻撃者にとっては低コストですが、サーバーにとっては高いオーバーヘッドを生み出します。
高帯域幅: AI シナリオでは、高レイテンシーの接続を介して LLM コンテキスト用に大量のデータが送信されるため、標準的なアプリケーションよりもはるかに多くの帯域幅を消費します。ゲートウェイに効率的なストリーミング機能とメモリ回復メカニズムがない場合、メモリ使用量が急増する可能性があります。
MSE クラウドネイティブゲートウェイには、AI ゲートウェイのトラフィックを処理する上で固有の利点があります。これらの利点には、以下が含まれます。
持続的接続のための無損失ホットアップデート: 構成変更に再読み込みが必要で、切断を引き起こす可能性がある Nginx とは異なり、MSE クラウドネイティブゲートウェイは Envoy を使用して、接続をドロップすることなくシームレスなホットアップデートを実行します。
セキュリティゲートウェイ機能: MSE クラウドネイティブゲートウェイのセキュリティゲートウェイ機能は、IP アドレス、Cookie、およびその他の要因に基づく多次元の CC 攻撃緩和を提供します。AI シナリオでは、クエリ/秒 (QPS) に加えて、トークンスループットに基づくスロットリング保護をサポートします。
効率的なストリーミング: MSE クラウドネイティブゲートウェイは、完全なストリーム転送をサポートします。データプレーンは Envoy 上に構築されており、C++ で記述されています。この設計により、高帯域幅シナリオでのメモリ使用量が非常に低くなります。メモリは GPU と比較して安価ですが、不適切なメモリ管理はメモリ不足 (OOM) エラーにつながり、サービスの中断や重大な損失を引き起こす可能性があります。
さらに、すぐに使用できる包括的な AI プラグインのセットが利用可能です。これらのプラグインは、セキュリティ保護、マルチモデル適応、可観測性、キャッシング、プロンプトエンジニアリングなどの領域をカバーしています。コア機能は次のとおりです。
AI プロキシプラグイン: さまざまなプロトコルをサポートし、15 の LLM プロバイダーと互換性があり、主要な大規模モデルベンダーのほとんどをカバーしています。
AI コンテンツモデレーションプラグイン: Alibaba Cloud Content Moderation と統合して、有害な言葉、誤った情報、差別的な発言、違法または非準拠のコンテンツをブロックします。
AI 統計プラグイン: トークンスループットを計算し、Prometheus メトリックをリアルタイムで生成し、関連情報をアクセスログと Tracing Analysis スパンに記録します。
AI スロットリングプラグイン: トークンスループットに基づくスロットリングによるバックエンド保護をサポートします。また、テナントに対して正確な呼び出しクォータ制限を構成することもできます。
AI 開発者プラグインセット: LLM 結果のキャッシングやプロンプトの装飾などの機能を提供し、AI アプリケーションの開発を促進します。