AI Gateway には、Dedicated Instance と Serverless の 2 つのエディションがあります。このトピックでは、各エディションの特徴、パラメーター、クォータ、および制限事項について説明し、適切なエディションとインスタンスタイプを選択するのに役立ちます。
エディションの比較
-
Serverless:このフルマネージドエディションは、自動弾性スケーリングをサポートしているため、基盤となるリソースを管理する必要はありません。呼び出し数に基づいて課金されるため、迅速な統合と低コストでの開始が可能です。
-
Dedicated Instance:このエディションは、専用で独立してデプロイされたリソースインスタンスを提供します。プラグイン拡張、ハードウェアアクセラレーション、WAF 統合などの高度な機能をサポートします。高いセキュリティを確保し、より高いサービスレベルアグリーメント (SLA) を提供します。このエディションは、高い安定性、セキュリティ、スケーラビリティを必要とする企業に最適です。
|
カテゴリー |
特徴 |
サーバーレス |
専用型インスタンス |
|
モデルプロキシ |
テキストからテキストへ |
サポート |
サポート |
|
マルチモーダル |
サポート |
サポート |
|
|
組み込みポリシー |
サポート |
サポート |
|
|
MCP サーバー |
MCP プロキシ |
サポート |
サポート |
|
HTTP から MCP へ |
サポート |
サポート |
|
|
エージェントプロキシ |
Model Studio |
サポート |
サポート |
|
Dify |
サポート |
サポート |
|
|
カスタム |
サポート |
サポート |
|
|
プラグイン |
システムプラグイン |
サポート |
サポート |
|
プラグインマーケットプレイス |
非サポート |
サポート |
|
|
カスタムプラグイン |
非サポート |
サポート |
|
|
仕様 |
容量仕様 |
自動スケーリング |
クエリ/秒 (QPS) とクライアント接続数に基づいて、さまざまな容量仕様が利用可能です。 |
|
ハードウェアアクセラレーション |
TLS ハードウェアアクセラレーション |
非サポート |
サポート |
|
QAT ハードウェア圧縮および展開 |
非サポート |
サポート |
|
|
セキュリティ |
WAF 統合 |
非サポート |
サポート |
|
可観測性 |
モニタリングとアラート |
ビジネスメトリックのみ 説明
Serverless エディションは、基盤となるシステムをホストするように設計されています。システムレベルの O&M を管理する必要はありません。 |
|
|
エンドポイント |
固定 EIP |
固定されていない Elastic IP アドレス (EIP) を持つ共有エンドポイントを使用します。 |
固定 EIP を持つ専用エンドポイントをサポートします。 |
|
インバウンド帯域幅 |
複数のインスタンスで帯域幅を共有します。単一のゲートウェイインスタンスの帯域幅制限は 400 Mbps です。 |
専用帯域幅。単一のゲートウェイインスタンスには、デフォルトで 4 Gbps の帯域幅制限があり、動的に調整できます。 |
|
|
O&M |
構成の変更 |
Serverless エディションは、自動パフォーマンススケーリング用に設計されています。サービス構成を管理する必要はありません。 |
必要に応じて構成を変更できます。Serverless エディションにスペックダウンすることはできません。 |
|
安定性保証 |
SLA |
99.9% |
99.99% |
|
依存ミドルウェア |
共有かつ論理的に分離 |
専用かつ物理的に分離 |
|
|
バージョン更新 |
自動 |
手動 |
容量仕様
Dedicated Instance の AI Gateway インスタンスでは、クエリ/秒 (QPS) とクライアント接続数に基づいてパフォーマンスが異なる、さまざまなインスタンスタイプが利用可能です。
次の表に、さまざまなゲートウェイインスタンスタイプのパラメーターを示します。
|
インスタンスタイプ |
QPS |
クライアント接続数 |
|
aigw.small.x1 |
1500 |
20000 |
|
aigw.small.x2 |
3000 |
40000 |
|
aigw.small.x4 |
6000 |
80000 |
|
aigw.medium.x1 |
12000 |
160000 |
|
aigw.medium.x2 |
24000 |
320000 |
|
aigw.medium.x3 |
36000 |
480000 |
|
aigw.large.x1 |
48000 |
640000 |
|
aigw.large.x2 |
96000 |
1280000 |
|
aigw.large.x3 |
144000 |
1920000 |
|
aigw.large.x4 |
192000 |
2560000 |
クォータの説明
グローバルクォータ
クォータ項目 | クォータ |
リージョンあたりのインスタンス数 | 100 |
リージョンあたりのコンシューマー数 | 1,000 |
インスタンスクォータ
クォータディメンション | Serverless | Small | Medium | Large |
MCP Server数 | 100 | 500 | 1,000 | 2,000 |
合計オンラインルート数(Model APIルート、Agent APIルートを含む) | 2,500 | 5,000 | 7,500 | 10,000 |
公開されたドメイン名 | 100 | 200 | 500 | 1,000 |
関連付けられたサービス | 200 | 800 | 2,000 | 4,000 |
サービスノード | 400 | 1,600 | 4,000 | 8,000 |
K8sサービスソースの数 | 3 | 3 | 5 | 5 |
インストールされたプラグイン数 | NA | 10 | 20 | 30 |
アップロードされたカスタムプラグイン数 | NA | 20 | 50 | 80 |