AI ゲートウェイは、Serverless 版と専用型インスタンス版の 2 種類を提供しています。本トピックでは、各バージョンの機能、パラメーター、クォータ、および制限事項について説明し、適切なバージョンおよび仕様を選択する際の判断材料を提供します。
バージョン比較
-
Serverless 版:自動スケーリングをサポートします。サービスはフルマネージドであるため、基盤となるリソースの管理は不要です。課金は API 呼び出し回数に基づくため、迅速な統合と低コストでの開始が可能です。
-
専用型インスタンス版:専用のリソースインスタンスを提供します。拡張機能、ハードウェアアクセラレーション、WAF 統合などの高度な機能をサポートします。高いセキュリティ性と、より厳しいサービスレベルアグリーメント (SLA) を実現します。このバージョンは、企業向けに求められる安定性、セキュリティ、およびスケーラビリティを満たします。
|
カテゴリ |
機能 |
サーバーレス |
専用インスタンス |
|
モデルプロキシ |
テキストからテキストへ |
対応 |
対応 |
|
マルチモーダル |
対応 |
対応 |
|
|
組み込みポリシー |
対応 |
対応 |
|
|
MCP サーバー |
MCP プロキシ |
対応 |
対応 |
|
HTTP から MCP へ |
対応 |
対応 |
|
|
エージェント |
Model Studio |
対応 |
対応 |
|
Dify |
対応 |
対応 |
|
|
カスタム |
対応 |
対応 |
|
|
拡張機能 |
システム拡張機能 |
対応 |
対応 |
|
拡張機能マーケットプレイス |
非対応 |
対応 |
|
|
カスタム拡張機能 |
非対応 |
対応 |
|
|
仕様 |
容量仕様 |
自動スケーリング |
秒間クエリ数 (QPS) およびクライアント接続数に基づく複数の 容量仕様 |
|
ハードウェアアクセラレーション |
TLS ハードウェアアクセラレーション |
非対応 |
対応 |
|
QAT ハードウェアによる圧縮・展開 |
非対応 |
対応 |
|
|
セキュリティ |
WAF 統合 |
非対応 |
対応 |
|
観測可能性 |
モニタリングおよびアラート機能 |
ビジネスメトリクスのみ 説明
Serverless 設計。Alibaba Cloud が基盤となるシステムを管理します。システムレベルの運用・保守 (O&M) はお客様が行う必要はありません。 |
|
|
アクセスポイント |
固定 EIP |
EIP は固定されず、共有エンドポイントを使用します。 |
固定 EIP および専用エンドポイントをサポートします。 |
|
受信帯域幅 |
複数のインスタンスで帯域幅を共有します。ゲートウェイインスタンスあたりの最大帯域幅は 400 Mbps です。 |
専用帯域幅。ゲートウェイインスタンスあたりのデフォルト最大帯域幅は 4 Gbps です。動的な調整をサポートします。 |
|
|
O&M |
構成の変更 |
Serverless 設計。パフォーマンスは自動的にスケールします。サービスの構成はお客様が行う必要はありません。 |
必要に応じて構成を変更できます。ただし、Serverless 版へのスペックダウンはできません。 |
|
安定性保証 |
SLA |
99.9 % |
99.99 % |
|
依存ミドルウェア |
共有(論理的に分離) |
専用(物理的に分離) |
|
|
バージョン更新 |
自動 |
マニュアル |
容量仕様
AI ゲートウェイの専用型インスタンスは、さまざまな容量仕様でご利用いただけます。これらの仕様は、秒間クエリ数 (QPS) やクライアント接続数といったパフォーマンスメトリクスによって異なります。
以下の表に、各ゲートウェイインスタンス仕様のパラメーターを示します。
|
インスタンスタイプ |
QPS |
クライアント接続 |
|
aigw.small.x1 |
1500 |
20000 |
|
aigw.small.x2 |
3000 |
40000 |
|
aigw.small.x4 |
6000 |
80000 |
|
aigw.medium.x1 |
12000 |
160000 |
|
aigw.medium.x2 |
24000 |
320000 |
|
aigw.medium.x3 |
36000 |
480000 |
|
aigw.large.x1 |
48000 |
640000 |
|
aigw.large.x2 |
96000 |
1280000 |
|
aigw.large.x3 |
144000 |
1920000 |
|
aigw.large.x4 |
192000 |
2560000 |
クォータ情報
グローバルクォータ
|
クォータ項目 |
クォータ |
|
リージョンあたりのインスタンス数 |
100 |
インスタンスクォータ
|
クォータディメンション |
サーバーレス |
Small |
Medium |
Large |
|
MCP サーバー数 |
100 |
500 |
1000 |
2000 |
|
オンライン状態のルート総数(モデル API ルートおよびエージェント API ルートを含む) |
2500 |
5000 |
7500 |
10000 |
|
公開済みドメイン名 |
100 |
200 |
500 |
1000 |
|
関連サービス |
200 |
800 |
2000 |
4000 |
|
サービス ノード |
400 |
1600 |
4000 |
8000 |
|
Kubernetes サービス ソース |
3 |
3 |
5 |
5 |
|
インストール済み拡張機能数 |
該当なし |
10 |
20 |
30 |
|
アップロードされたカスタム拡張 |
該当なし |
20 |
50 |
80 |
|
コンシューマ権限付与数 |
500 |
2000 |
6000 |
10000 |