AI Gateway tersedia dalam dua versi: Serverless dan Dedicated Instance. Topik ini menjelaskan kemampuan, parameter, kuota, serta batasan masing-masing versi untuk membantu Anda memilih versi dan spesifikasi yang sesuai.
Perbandingan Versi
-
Serverless: Mendukung skalabilitas elastis otomatis. Anda tidak perlu mengelola sumber daya dasar karena layanan ini sepenuhnya dikelola. Penagihan didasarkan pada jumlah panggilan, sehingga memungkinkan integrasi cepat dengan biaya awal yang rendah.
-
Dedicated Instance: Menyediakan instans sumber daya khusus yang mendukung fitur lanjutan seperti ekstensi, akselerasi perangkat keras, dan integrasi WAF. Versi ini menawarkan keamanan tinggi serta Service-Level Agreement (SLA) yang lebih baik, memenuhi kebutuhan perusahaan akan stabilitas, keamanan, dan skalabilitas.
|
Kategori |
Fitur |
Serverless |
Dedicated Instance |
|
Model Proxy |
Text-to-text |
Didukung |
Didukung |
|
Multi-modal |
Didukung |
Didukung |
|
|
Kebijakan bawaan |
Didukung |
Didukung |
|
|
MCP Server |
MCP proxy |
Didukung |
Didukung |
|
HTTP to MCP |
Didukung |
Didukung |
|
|
Agent |
Model Studio |
Dukungan |
Didukung |
|
Dify |
Didukung |
Didukung |
|
|
Custom |
Didukung |
Didukung |
|
|
Ekstensi |
Ekstensi sistem |
Didukung |
Didukung |
|
Marketplace ekstensi |
Tidak didukung |
Didukung |
|
|
Ekstensi kustom |
Tidak didukung |
Didukung |
|
|
Spesifikasi |
Spesifikasi kapasitas |
Skalabilitas elastis otomatis |
Beberapa spesifikasi kapasitas, berdasarkan queries per second (QPS) dan koneksi client |
|
Akselerasi perangkat keras |
Akselerasi perangkat keras TLS |
Tidak didukung |
Didukung |
|
Kompresi dan dekompresi perangkat keras QAT |
Tidak didukung |
Didukung |
|
|
Keamanan |
Integrasi WAF |
Tidak didukung |
Didukung |
|
Observabilitas |
Monitoring dan alerting |
Hanya metrik bisnis Catatan
Desain serverless. Alibaba Cloud mengelola sistem dasar. Anda tidak menangani O&M tingkat sistem. |
|
|
Titik Akses |
EIP tetap |
EIP tidak tetap. Menggunakan titik akhir bersama. |
Mendukung EIP tetap dan titik akhir khusus. |
|
Bandwidth masuk |
Bandwidth bersama di beberapa instans. Bandwidth maksimum per instans gateway adalah 400 Mbps. |
Bandwidth khusus. Bandwidth maksimum default per instans gateway adalah 4 Gbps. Mendukung penyesuaian dinamis. |
|
|
O&M |
Ubah konfigurasi |
Desain serverless. Performa diskalakan secara otomatis. Anda tidak mengonfigurasi layanan. |
Ubah konfigurasi sesuai kebutuhan. Anda tidak dapat menurunkan spesifikasi ke versi Serverless. |
|
Jaminan stabilitas |
SLA |
99,9% |
99,99% |
|
Middleware dependen |
Bersama. Diisolasi secara logis. |
Khusus. Diisolasi secara fisik. |
|
|
Pembaruan versi |
Otomatis |
Manual |
Spesifikasi Kapasitas
Instans khusus AI Gateway tersedia dalam berbagai spesifikasi kapasitas yang berbeda dalam metrik performa seperti queries per second (QPS) dan jumlah koneksi klien.
Tabel berikut mencantumkan parameter untuk setiap spesifikasi instans gateway.
|
Jenis instans |
QPS |
Koneksi client |
|
aigw.small.x1 |
1.500 |
20.000 |
|
aigw.small.x2 |
3.000 |
40.000 |
|
aigw.small.x4 |
6.000 |
80.000 |
|
aigw.medium.x1 |
12.000 |
160.000 |
|
aigw.medium.x2 |
24.000 |
320.000 |
|
aigw.medium.x3 |
36.000 |
480.000 |
|
aigw.large.x1 |
48.000 |
640.000 |
|
aigw.large.x2 |
96.000 |
1.280.000 |
|
aigw.large.x3 |
144.000 |
1.920.000 |
|
aigw.large.x4 |
192.000 |
2.560.000 |
Informasi Kuota
Kuota Global
|
Item kuota |
Kuota |
|
Instans per wilayah |
100 |
Kuota Instans
|
Dimensi kuota |
Serverless |
Small |
Medium |
Large |
|
Jumlah MCP Server |
100 |
500 |
1.000 |
2.000 |
|
Total entri rute online (termasuk entri rute Model API dan entri rute Agent API) |
2.500 |
5.000 |
7.500 |
10.000 |
|
Nama domain yang dipublikasikan |
100 |
200 |
500 |
1.000 |
|
Layanan terkait |
200 |
800 |
2.000 |
4.000 |
|
Node layanan |
400 |
1.600 |
4.000 |
8.000 |
|
Sumber layanan Kubernetes |
3 |
3 |
5 |
5 |
|
Ekstensi yang diinstal |
NA |
10 |
20 |
30 |
|
Ekstensi kustom yang diunggah |
NA |
20 |
50 |
80 |
|
Jumlah otorisasi consumer |
500 |
2.000 |
6.000 |
10.000 |