Model Studio menerapkan batas laju untuk memastikan penggunaan yang adil. Batas ini dihitung secara menyeluruh di seluruh Pengguna RAM, ruang kerja, dan Kunci API dalam satu Akun Alibaba Cloud. Permintaan yang melebihi batas akan gagal—tunggu hingga batas tersebut diatur ulang sebelum melakukan panggilan lain.
Aturan
-
Batas laju akun: Batas laju diterapkan pada tingkat Akun Alibaba Cloud dan dihitung secara menyeluruh di seluruh Pengguna RAM, ruang kerja, serta Kunci API dalam akun tersebut.
-
Batas laju spesifik model: Setiap model memiliki batas laju independen. Lihat tabel di bawah ini untuk detailnya.
FAQ
Mengapa pembatasan laju dipicu?
Periksa pesan error:
-
Requests rate limit exceeded atau You exceeded your current requests list: Batas frekuensi panggilan telah dipicu.
-
Allocated quota exceeded atau You exceeded your current quota: Batas konsumsi token telah dipicu.
-
Request rate increased too quickly: Lonjakan mendadak pada frekuensi panggilan memicu perlindungan stabilitas sistem, meskipun batas Requests Per Minute (RPM) atau Tokens Per Minute (TPM) belum tercapai.
-
Untuk error lainnya, lihat Pesan error untuk mengidentifikasi penyebabnya.
Catatan: Selain RPM dan TPM, batas laju juga dapat diberlakukan per detik (Requests per Second: RPS = RPM/60, Tokens per Second: TPS = TPM/60). Permintaan yang tiba-tiba meningkat (burst) dapat memicu pembatasan laju meskipun total panggilan masih di bawah batas per menit.
Bagaimana cara melihat penggunaan panggilan model?
Satu jam setelah Anda memanggil model, buka halaman Pemantauan (Singapura atau Beijing). Atur kondisi kueri, seperti rentang waktu dan ruang kerja. Lalu, pada area Models, temukan model target dan klik Monitor di kolom Actions untuk melihat statistik pemanggilan model. Untuk informasi selengkapnya, lihat dokumen Pemantauan.
Data diperbarui setiap jam. Selama periode puncak, mungkin terjadi latensi hingga satu jam.

Berapa lama waktu pemulihan setelah batas laju dipicu?
Batas biasanya diatur ulang dalam waktu satu menit. Jika terjadi error lain, lihat Pesan error untuk solusinya.
Bagaimana cara menghindari pembatasan laju?
-
Pilih model dengan batas laju lebih tinggi: Versi stabil atau versi terbaru memiliki batas laju yang lebih tinggi dibandingkan versi snapshot lama.
-
Optimalkan strategi pemanggilan Anda
-
Sesuaikan frekuensi panggilan: Jika menerima error "Requests rate limit exceeded" atau "You exceeded your current requests list", kurangi frekuensi panggilan.
-
Kurangi konsumsi token: Jika menerima error "Allocated quota exceeded" atau "You exceeded your current quota", perpendek panjang input atau output.
-
Ratakan laju permintaan: Jika melihat pesan Request rate increased too quickly, optimalkan logika pemanggilan di sisi klien. Terapkan teknik perataan laju (penjadwalan seragam, backoff eksponensial, atau buffering antrian permintaan) untuk menyebarkan permintaan secara merata dalam jendela waktu dan menghindari lonjakan instan.
-
-
Tambahkan model cadangan
Jika mengalami error batas laju, alihkan ke model cadangan untuk melanjutkan generasi. Hal ini meningkatkan konkurensi dan mengurangi tingkat kegagalan. Kode contoh berikut menunjukkan cara mencoba ulang permintaan dengan
qwen-plus-2025-07-14setelah batas laju terpicu untukqwen-plus-2025-07-28. -
Pisahkan tugas: Memproses percakapan panjang atau dokumen besar dapat menghabiskan banyak token dengan cepat. Pecah batch besar menjadi tugas-tugas kecil dan kirimkan pada waktu yang berbeda.
-
Gunakan inferensi batch: Jika Anda tidak memerlukan hasil real-time, gunakan inferensi batch (Batch API). Fitur ini tidak tunduk pada batas laju real-time, tetapi Anda harus mempertimbangkan waktu antrian dan pemrosesan.
Generasi teks - Qwen
Model bahasa Qwen
Global
Dalam mode penyebaran Global, titik akhir dan penyimpanan data berada di wilayah US (Virginia) atau wilayah Jerman (Frankfurt), serta sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia.
|
Model |
Pembatasan laju (terpicu jika nilai apa pun dilampaui) Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60) |
|
|
RPM |
TPM Mencakup token input dan output |
|
|
qwen3-max |
600 |
1.000.000 |
|
qwen3-max-2025-09-23 |
60 |
100.000 |
|
qwen3-max-preview |
600 |
1.000.000 |
|
qwen3.5-plus |
30.000 |
5.000.000 |
|
qwen3.5-plus-2026-02-15 |
600 |
1.000.000 |
|
qwen-plus |
15.000 |
5.000.000 |
|
qwen-plus-2025-12-01 |
60 |
1.000.000 |
|
qwen-plus-2025-09-11 |
||
|
qwen-plus-2025-07-28 |
||
|
qwen3.5-flash |
30.000 |
10.000.000 |
|
qwen3.5-flash-2026-02-23 |
600 |
1.000.000 |
|
qwen-flash |
15.000 |
10.000.000 |
|
qwen-flash-2025-07-28 |
60 |
1.000.000 |
International
Dalam mode penyebaran International, titik akhir dan penyimpanan data berada di wilayah Singapura, sedangkan sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia (tidak termasuk Tiongkok daratan).
|
Model |
Pembatasan laju (terpicu jika nilai apa pun dilampaui) Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60) |
|
|
RPM |
TPM Mencakup token input dan output |
|
|
qwen3-max |
600 |
1.000.000 |
|
qwen3-max-2026-01-23 |
||
|
qwen3-max-2025-09-23 |
60 |
100.000 |
|
qwen3-max-preview |
600 |
1.000.000 |
|
qwen-max |
120 |
100.000 |
|
qwen-max-latest |
600 |
1.000.000 |
|
qwen-max-2025-01-25 (qwen-max-0125) |
60 |
100.000 |
|
qwen3.5-plus |
15.000 |
5.000.000 |
|
qwen3.5-plus-2026-02-15 |
60 |
1.000.000 |
|
qwen-plus |
600 |
1.000.000 |
|
qwen-plus-latest |
600 |
1.000.000 |
|
qwen-plus-2025-12-01 |
120 |
1.000.000 |
|
qwen-plus-2025-09-11 |
120 |
|
|
qwen-plus-2025-07-28 |
60 |
100.000 |
|
qwen-plus-2025-07-14 (qwen-plus-0714) |
||
|
qwen-plus-2025-04-28 (qwen-plus-0428) |
1.000.000 |
|
|
qwen-plus-2025-01-25 (qwen-plus-0125) |
100.000 |
|
|
qwen3.5-flash |
15.000 |
5.000.000 |
|
qwen3.5-flash-2026-02-23 |
60 |
1.000.000 |
|
qwen-flash |
600 |
5.000.000 |
|
qwen-flash-2025-07-28 |
600 |
5.000.000 |
|
qwq-plus |
60 |
100.000 |
|
qwen-turbo |
240 |
100.000 |
|
qwen-turbo-latest |
600 |
5.000.000 |
|
qwen-turbo-2025-04-28 (qwen-turbo-0428) |
60 |
1.000.000 |
|
qwen-turbo-2024-11-01 (qwen-turbo-1101) |
5.000.000 |
|
US
Dalam mode penyebaran US, titik akhir dan penyimpanan data berada di wilayah US (Virginia), serta sumber daya komputasi inferensi model dibatasi hanya untuk Amerika Serikat.
|
Model |
Pembatasan laju (terpicu jika nilai apa pun dilampaui) Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60) |
|
|
RPM |
TPM Mencakup token input dan output |
|
|
qwen-plus-us |
600 |
1.000.000 |
|
qwen-plus-2025-12-01-us |
60 |
|
|
qwen-flash-us |
600 |
5.000.000 |
|
qwen-flash-2025-07-28-us |
||
Tiongkok Daratan
Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data berada di wilayah Beijing, serta sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok Daratan.
|
Model |
Pembatasan laju (terpicu jika nilai apa pun dilampaui) Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60) |
|
|
RPM |
TPM Mencakup token input dan output |
|
|
qwen3-max |
30.000 |
5.000.000 |
|
qwen3-max-2026-01-23 |
600 |
1.000.000 |
|
qwen3-max-2025-09-23 |
60 |
100.000 |
|
qwen3-max-preview |
600 |
1.000.000 |
|
qwen-max |
1.200 |
1.000.000 |
|
qwen-max-latest |
||
|
qwen-max-2025-01-25 (qwen-max-0125) |
60 |
100.000 |
|
qwen-max-2024-09-19 (qwen-max-0919) |
||
|
qwen3.5-plus |
30.000 |
5.000.000 |
|
qwen3.5-plus-2026-02-15 |
600 |
1.000.000 |
|
qwen-plus |
30.000 |
5.000.000 |
|
qwen-plus-latest |
15.000 |
1.200.000 |
|
qwen-plus-2025-12-01 |
120 |
1.000.000 |
|
qwen-plus-2025-09-11 |
60 |
|
|
qwen-plus-2025-07-28 (qwen-plus-0728) |
||
|
qwen-plus-2025-07-14 (qwen-plus-0714) |
100.000 |
|
|
qwen-plus-2025-04-28 (qwen-plus-0428) |
1.000.000 |
|
|
qwen-plus-2025-01-25 (qwen-plus-0125) |
150.000 |
|
|
qwen-plus-2025-01-12 (qwen-plus-0112) |
||
|
qwen-plus-2024-12-20 (qwen-plus-1220) |
||
|
qwen3.5-flash |
30.000 |
10.000.000 |
|
qwen3.5-flash-2026-02-23 |
600 |
1.000.000 |
|
qwen-flash |
30.000 |
10.000.000 |
|
qwen-flash-2025-07-28 |
60 |
1.000.000 |
|
qwq-plus |
600 |
1.000.000 |
|
qwq-plus-latest |
||
|
qwq-plus-2025-03-05 |
60 |
100.000 |
|
qwen-turbo |
1.200 |
5.000.000 |
|
qwen-turbo-latest |
||
|
qwen-turbo-2025-04-28 (qwen-turbo-0428) |
60 |
1.000.000 |
|
qwen-turbo-2025-02-11 (qwen-turbo-0211) |
5.000.000 |
|
|
qwen-turbo-2024-11-01 (qwen-turbo-1101) |
||
|
qwen-long-latest |
1.200 |
60.000 |
|
qwen-long-2025-01-25 (qwen-long-0125) |
3 |
7.500 |
China (Hong Kong)
Dalam mode penyebaran China (Hong Kong), titik akhir dan penyimpanan data berada di China (Hong Kong), serta sumber daya komputasi inferensi model dibatasi hanya untuk China (Hong Kong).
|
Model |
Pembatasan laju (terpicu jika nilai apa pun dilampaui) Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60) |
|
|
RPM |
TPM Mencakup token input dan output |
|
|
qwen3-max |
600 |
1.000.000 |
|
qwen3-max-2026-01-23 |
||
|
qwen-plus |
600 |
1.000.000 |
|
qwen-plus-2025-12-01 |
120 |
1.000.000 |
|
qwen3.5-flash |
15.000 |
5.000.000 |
|
qwen3.5-flash-2026-02-23 |
60 |
1.000.000 |
EU
Dalam mode penyebaran EU, titik akhir dan penyimpanan data berada di Jerman (Frankfurt), serta sumber daya komputasi inferensi model dibatasi hanya untuk UE.
|
Model |
Pembatasan laju (terpicu jika nilai apa pun dilampaui) Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60) |
|
|
RPM |
TPM Mencakup token input dan output |
|
|
qwen3-max |
600 |
1.000.000 |
|
qwen3-max-2026-01-23 |
||
|
qwen-plus |
600 |
1.000.000 |
|
qwen-plus-2025-12-01 |
120 |
1.000.000 |
|
qwen3.5-flash |
30.000 |
10.000.000 |
|
qwen3.5-flash-2026-02-23 |
600 |
1.000.000 |
Qwen-VL (pemahaman visual / gambar-ke-teks)
Global
Dalam mode penyebaran Global, titik akhir dan penyimpanan data berada di wilayah US (Virginia) atau wilayah Jerman (Frankfurt), serta sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia.
|
Model |
Pembatasan laju (terpicu jika nilai apa pun dilampaui) Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60) |
|
|
RPM |
TPM Mencakup token input dan output |
|
|
qwen3-vl-plus |
1.200 |
1.000.000 |
|
qwen3-vl-plus-2025-09-23 |
60 |
100.000 |
|
qwen3-vl-flash |
1.200 |
1.000.000 |
|
qwen3-vl-flash-2025-10-15 |
60 |
100.000 |
International
Dalam mode penyebaran International, titik akhir dan penyimpanan data berada di wilayah Singapura, sedangkan sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia (tidak termasuk Tiongkok daratan).
|
Model |
Pembatasan laju (terpicu jika nilai apa pun dilampaui) Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60) |
|
|
RPM |
TPM Mencakup token input dan output |
|
|
qwen3-vl-plus |
1.200 |
1.000.000 |
|
qwen3-vl-plus-2025-12-19 |
60 |
100.000 |
|
qwen3-vl-plus-2025-09-23 |
120 |
1.000.000 |
|
qwen3-vl-flash |
1.200 |
1.000.000 |
|
qwen3-vl-flash-2026-01-22 |
60 |
100.000 |
|
qwen3-vl-flash-2025-10-15 |
120 |
1.000.000 |
|
qwen-vl-max |
1.200 |
1.000.000 |
|
qwen-vl-max-latest |
||
|
qwen-vl-max-2025-08-13 (qwen-vl-max-0813) |
60 |
100.000 |
|
qwen-vl-max-2025-04-08 (qwen-vl-max-0408) |
1.200 |
1.000.000 |
|
qwen-vl-plus |
||
|
qwen-vl-plus-latest |
||
|
qwen-vl-plus-2025-08-15 (qwen-vl-plus-0815) |
120 |
1.000.000 |
|
qwen-vl-plus-2025-05-07 (qwen-vl-plus-0507) |
||
|
qwen-vl-plus-2025-01-25 (qwen-vl-plus-0125) |
1.200 |
|
|
qvq-max |
60 |
100.000 |
|
qvq-max-latest |
||
|
qvq-max-2025-03-25 (qvq-max-0325) |
||
US
Dalam mode penyebaran US, titik akhir dan penyimpanan data berada di wilayah US (Virginia), serta sumber daya komputasi inferensi model dibatasi hanya untuk Amerika Serikat.
|
Model |
Pembatasan laju (terpicu jika nilai apa pun dilampaui) Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60) |
|
|
RPM |
TPM Mencakup token input dan output |
|
|
qwen3-vl-flash-us |
1.200 |
1.000.000 |
|
qwen3-vl-flash-2026-01-22-us |
120 |
1.000.000 |
|
qwen3-vl-flash-2025-10-15-us |
||
Tiongkok Daratan
Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data berada di wilayah Beijing, serta sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok Daratan.
|
Model |
Pembatasan laju (terpicu jika nilai apa pun dilampaui) Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60) |
|
|
RPM |
TPM Mencakup token input dan output |
|
|
qwen3-vl-plus |
3.000 |
5.000.000 |
|
qwen3-vl-plus-2025-12-19 |
60 |
100.000 |
|
qwen3-vl-plus-2025-09-23 |
||
|
qwen3-vl-flash |
3.000 |
5.000.000 |
|
qwen3-vl-flash-2026-01-22 |
60 |
100.000 |
|
qwen3-vl-flash-2025-10-15 |
||
|
qwen-vl-max |
1.200 |
1.000.000 |
|
qwen-vl-max-latest |
||
|
qwen-vl-max-2025-08-13 (qwen-vl-max-0813) |
60 |
100.000 |
|
qwen-vl-max-2025-04-08 (qwen-vl-max-0408) |
||
|
qwen-vl-max-2025-04-02 (qwen-vl-max-0402) |
||
|
qwen-vl-max-2025-01-25 (qwen-vl-max-0125) |
||
|
qwen-vl-max-2024-12-30 (qwen-vl-max-1230) |
||
|
qwen-vl-max-2024-11-19 (qwen-vl-max-1119) |
||
|
qwen-vl-plus |
1.200 |
1.000.000 |
|
qwen-vl-plus-latest |
||
|
qwen-vl-plus-2025-08-15 (qwen-vl-plus-0815) |
60 |
100.000 |
|
qwen-vl-plus-2025-07-10 (qwen-vl-plus-0710) |
||
|
qwen-vl-plus-2025-05-07 (qwen-vl-plus-0507) |
||
|
qwen-vl-plus-2025-01-25 (qwen-vl-plus-0125) |
||
|
qwen-vl-plus-2025-01-02 (qwen-vl-plus-0102) |
||
|
qvq-max |
||
|
qvq-max-latest |
||
|
qvq-max-2025-05-15 (qvq-max-0515) |
||
|
qvq-max-2025-03-25 (qvq-max-0325) |
||
|
qvq-plus |
||
|
qvq-plus-latest |
||
|
qvq-plus-2025-05-15 (qvq-plus-0515) |
||
China (Hong Kong)
Dalam mode penyebaran China (Hong Kong), titik akhir dan penyimpanan data berada di China (Hong Kong), serta sumber daya komputasi inferensi model dibatasi hanya untuk China (Hong Kong).
|
Model |
Pembatasan laju (terpicu jika nilai apa pun dilampaui) Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60) |
|
|
RPM |
TPM Mencakup token input dan output |
|
|
qwen3-vl-plus |
1.200 |
1.000.000 |
|
qwen3-vl-plus-2025-12-19 |
60 |
100.000 |
EU
Dalam mode penyebaran EU, titik akhir dan penyimpanan data berada di Jerman (Frankfurt), serta sumber daya komputasi inferensi model dibatasi hanya untuk UE.
|
Model |
Pembatasan laju (terpicu jika nilai apa pun dilampaui) Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60) |
|
|
RPM |
TPM Mencakup token input dan output |
|
|
qwen3-vl-plus |
1.200 |
1.000.000 |
|
qwen3-vl-flash |
1.200 |
1.000.000 |
|
qwen3-vl-flash-2025-10-15 |
60 |
100.000 |
Qwen-Omni (omni-modal)
International
Dalam mode penyebaran International, titik akhir dan penyimpanan data berada di wilayah Singapura, sedangkan sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia (tidak termasuk Tiongkok daratan).
|
Model |
Pembatasan laju (terpicu jika nilai apa pun dilampaui) Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60) |
|
|
RPM |
TPM Mencakup token input dan output |
|
|
qwen3-omni-flash |
60 |
100.000 |
|
qwen3-omni-flash-2025-12-01 |
||
|
qwen3-omni-flash-2025-09-15 |
||
|
qwen-omni-turbo |
||
|
qwen-omni-turbo-latest |
||
|
qwen-omni-turbo-2025-03-26 |
||
Tiongkok Daratan
Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data berada di wilayah Beijing, serta sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok Daratan.
|
Model |
Pembatasan laju (terpicu jika nilai apa pun dilampaui) Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60) |
|
|
RPM |
TPM Mencakup token input dan output |
|
|
qwen3-omni-flash |
60 |
100.000 |
|
qwen3-omni-flash-2025-12-01 |
||
|
qwen3-omni-flash-2025-09-15 |
||
|
qwen-omni-turbo |
||
|
qwen-omni-turbo-latest |
||
|
qwen-omni-turbo-2025-03-26 (qwen-omni-turbo-0326) |
||
|
qwen-omni-turbo-2025-01-19 (qwen-omni-turbo-0119) |
||
Qwen-Omni-Realtime (multimodal real-time)
International
Dalam mode penyebaran US, titik akhir dan penyimpanan data berada di wilayah US (Virginia), serta sumber daya komputasi inferensi model dibatasi hanya untuk Amerika Serikat.
|
Model |
Pembatasan laju (terpicu jika nilai apa pun dilampaui) Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60) |
|
|
RPM |
TPM Mencakup token input dan output |
|
|
qwen3-omni-flash-realtime |
60 |
100.000 |
|
qwen3-omni-flash-realtime-2025-12-01 |
||
|
qwen3-omni-flash-realtime-2025-09-15 |
||
|
qwen-omni-turbo-realtime |
10.000 |
|
|
qwen-omni-turbo-realtime-latest |
||
|
qwen-omni-turbo-realtime-2025-05-08 |
||
Tiongkok Daratan
Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data berada di wilayah Beijing, serta sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok Daratan.
|
Model |
Pembatasan laju (terpicu jika nilai apa pun dilampaui) Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60) |
|
|
RPM |
TPM Mencakup token input dan output |
|
|
qwen3-omni-flash-realtime |
60 |
100.000 |
|
qwen3-omni-flash-realtime-2025-12-01 |
||
|
qwen3-omni-flash-realtime-2025-09-15 |
||
|
qwen-omni-turbo-realtime |
||
|
qwen-omni-turbo-realtime-latest |
||
|
qwen-omni-turbo-realtime-2025-05-08 |
||
Qwen-OCR (ekstraksi teks)
Global
Dalam mode penyebaran Global, titik akhir dan penyimpanan data berada di wilayah US (Virginia) atau wilayah Jerman (Frankfurt), serta sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia.
|
Model |
Pembatasan laju (terpicu jika nilai apa pun dilampaui) Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60) |
|
|
RPM |
TPM Mencakup token input dan output |
|
|
qwen-vl-ocr |
600 |
6.000.000 |
|
qwen-vl-ocr-2025-11-20 |
1.200 |
|
International
Dalam mode penyebaran International, titik akhir dan penyimpanan data berada di wilayah Singapura, sedangkan sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia (tidak termasuk Tiongkok daratan).
|
Model |
Pembatasan laju (terpicu jika nilai apa pun dilampaui) Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60) |
|
|
RPM |
TPM Mencakup token input dan output |
|
|
qwen-vl-ocr |
600 |
6.000.000 |
|
qwen-vl-ocr-2025-11-20 |
1.200 |
|
Tiongkok Daratan
Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data berada di wilayah Beijing, serta sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok Daratan.
|
Model |
Pembatasan laju (terpicu jika nilai apa pun dilampaui) Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60) |
|
|
RPM |
TPM Mencakup token input dan output |
|
|
qwen-vl-ocr |
600 |
6.000.000 |
|
qwen-vl-ocr-latest |
1.200 |
|
|
qwen-vl-ocr-2025-11-20 |
||
|
qwen-vl-ocr-2025-04-13 |
600 |
|
|
qwen-vl-ocr-2024-10-28 |
||
Qwen-Math
Hanya mode penyebaran Tiongkok Daratan yang didukung. Titik akhir dan penyimpanan data berada di wilayah Beijing, serta sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok Daratan.
|
Model |
Pembatasan laju (terpicu jika nilai apa pun dilampaui) Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60) |
|
|
RPM |
TPM Mencakup token input dan output |
|
|
qwen-math-plus |
1.200 |
1.000.000 |
|
qwen-math-plus-latest |
||
|
qwen-math-plus-2024-09-19 (qwen-math-plus-0919) |
60 |
100.000 |
|
qwen-math-plus-2024-08-16 (qwen-math-plus-0816) |
10 |
20.000 |
|
qwen-math-turbo |
1200 |
1.000.000 |
|
qwen-math-turbo-latest |
||
|
qwen-math-turbo-2024-09-19 (qwen-math-turbo-0919) |
60 |
100.000 |
Qwen-Coder
Global
Dalam mode penyebaran Global, titik akhir dan penyimpanan data berada di wilayah US (Virginia) atau wilayah Jerman (Frankfurt), serta sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia.
|
Model |
Pembatasan laju (terpicu jika nilai apa pun dilampaui) Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60) |
|
|
RPM |
TPM Mencakup token input dan output |
|
|
qwen3-coder-plus |
2.400 |
2.000.000 |
|
qwen3-coder-plus-2025-09-23 |
60 |
1.000.000 |
|
qwen3-coder-plus-2025-07-22 |
||
|
qwen3-coder-flash |
1.200 |
|
|
qwen3-coder-flash-2025-07-28 |
60 |
|
International
Dalam mode penyebaran International, titik akhir dan penyimpanan data berada di wilayah Singapura, sedangkan sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia (tidak termasuk Tiongkok daratan).
|
Model |
Pembatasan laju (terpicu jika nilai apa pun dilampaui) Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60) |
|
|
RPM |
TPM Mencakup token input dan output |
|
|
qwen3-coder-plus |
2.400 |
2.000.000 |
|
qwen3-coder-plus-2025-09-23 |
600 |
1.000.000 |
|
qwen3-coder-plus-2025-07-22 |
60 |
1.000.000 |
|
qwen3-coder-flash |
600 |
5.000.000 |
|
qwen3-coder-flash-2025-07-28 |
600 |
5.000.000 |
Tiongkok Daratan
Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data berada di wilayah Beijing, serta sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok Daratan.
|
Model |
Pembatasan laju (terpicu jika nilai apa pun dilampaui) Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60) |
|
|
RPM |
TPM Mencakup token input dan output |
|
|
qwen3-coder-plus |
5.000 |
5.000.000 |
|
qwen3-coder-plus-2025-09-23 |
60 |
1.000.000 |
|
qwen3-coder-plus-2025-07-22 |
||
|
qwen3-coder-flash |
5.000 |
5.000.000 |
|
qwen3-coder-flash-2025-07-28 |
60 |
1.000.000 |
|
qwen-coder-plus |
1.200 |
|
|
qwen-coder-plus-latest |
||
|
qwen-coder-plus-2024-11-06 (qwen-coder-plus-1106) |
120 |
200.000 |
|
qwen-coder-turbo |
1.200 |
1.000.000 |
|
qwen-coder-turbo-latest |
||
|
qwen-coder-turbo-2024-09-19 (qwen-coder-turbo-0919) |
60 |
100.000 |
EU
Dalam mode penyebaran EU, titik akhir dan penyimpanan data berada di Jerman (Frankfurt), serta sumber daya komputasi inferensi model dibatasi hanya untuk UE.
|
Model |
Pembatasan laju (terpicu jika nilai apa pun dilampaui) Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60) |
|
|
RPM |
TPM Mencakup token input dan output |
|
|
qwen3-coder-480b-a35b-instruct |
600 |
1.000.000 |
|
qwen3-coder-30b-a3b-instruct |
||
Qwen-MT
Global
Dalam mode penyebaran Global, titik akhir dan penyimpanan data berada di wilayah US (Virginia) atau wilayah Jerman (Frankfurt), serta sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia.
|
Model |
Pembatasan laju (terpicu jika nilai apa pun dilampaui) Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60) |
|
|
RPM |
TPM Mencakup token input dan output |
|
|
qwen-mt-plus |
60 |
25.000 |
|
qwen-mt-flash |
35.000 |
|
|
qwen-mt-lite |
100.000 |
|
International
Dalam mode penyebaran International, titik akhir dan penyimpanan data berada di wilayah Singapura, sedangkan sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia (tidak termasuk Tiongkok daratan).
|
Model |
Pembatasan laju (terpicu jika nilai apa pun dilampaui) Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60) |
|
|
RPM |
TPM Mencakup token input dan output |
|
|
qwen-mt-plus |
60 |
100.000 |
|
qwen-mt-flash |
||
|
qwen-mt-lite |
||
|
qwen-mt-turbo |
||
Tiongkok Daratan
Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data berada di wilayah Beijing, serta sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok Daratan.
|
Model |
Pembatasan laju (terpicu jika nilai apa pun dilampaui) Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60) |
|
|
RPM |
TPM Mencakup token input dan output |
|
|
qwen-mt-plus |
60 |
25.000 |
|
qwen-mt-flash |
35.000 |
|
|
qwen-mt-lite |
100.000 |
|
|
qwen-mt-turbo |
35.000 |
|
Qwen-Doc
Hanya mode penyebaran Tiongkok Daratan yang didukung. Titik akhir dan penyimpanan data berada di wilayah Beijing, serta sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok Daratan.
|
Model |
Pembatasan laju (terpicu jika nilai apa pun dilampaui) Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60) |
|
|
RPM |
TPM Mencakup token input dan output |
|
|
qwen-doc-turbo |
600 |
3.000.000 |
Qwen-Deep-Research
Hanya mode penyebaran Tiongkok Daratan yang didukung. Titik akhir dan penyimpanan data berada di wilayah Beijing, serta sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok Daratan.
|
Model |
Pembatasan laju (terpicu jika nilai apa pun dilampaui) Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60) |
|
|
RPM |
TPM Mencakup token input dan output |
|
|
qwen-deep-research |
120 |
1.200.000 |
Generasi teks - Qwen - Open source
Model bahasa Qwen open-source
Global
Dalam mode penyebaran Global, titik akhir dan penyimpanan data berada di wilayah US (Virginia) atau wilayah Jerman (Frankfurt), serta sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia.
|
Model |
Pembatasan laju (terpicu jika nilai apa pun dilampaui) Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60) |
|
|
RPM |
TPM Mencakup token input dan output |
|
|
qwen3.5-397b-a17b |
600 |
1.000.000 |
|
qwen3.5-122b-a10b |
||
|
qwen3.5-27b |
||
|
qwen3.5-35b-a3b |
||
|
qwen3-next-80b-a3b-thinking |
||
|
qwen3-next-80b-a3b-instruct |
||
|
qwen3-235b-a22b-thinking-2507 |
||
|
qwen3-235b-a22b-instruct-2507 |
||
|
qwen3-30b-a3b-thinking-2507 |
||
|
qwen3-30b-a3b-instruct-2507 |
||
|
qwen3-235b-a22b |
||
|
qwen3-30b-a3b |
||
|
qwen3-32b |
||
|
qwen3-14b |
||
|
qwen3-8b |
||
International
Dalam mode penyebaran International, titik akhir dan penyimpanan data berada di wilayah Singapura, sedangkan sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia (tidak termasuk Tiongkok daratan).
|
Model |
Pembatasan laju (terpicu jika nilai apa pun dilampaui) Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60) |
|
|
RPM |
TPM Mencakup token input dan output |
|
|
qwen3.5-397b-a17b |
600 |
1.000.000 |
|
qwen3.5-122b-a10b |
5.000.000 |
|
|
qwen3.5-27b |
||
|
qwen3.5-35b-a3b |
||
|
qwen3-next-80b-a3b-thinking |
1.000.000 |
|
|
qwen3-next-80b-a3b-instruct |
||
|
qwen3-235b-a22b-thinking-2507 |
||
|
qwen3-235b-a22b-instruct-2507 |
||
|
qwen3-30b-a3b-thinking-2507 |
5.000.000 |
|
|
qwen3-30b-a3b-instruct-2507 |
||
|
qwen3-235b-a22b |
1.000.000 |
|
|
qwen3-32b |
||
|
qwen3-30b-a3b |
||
|
qwen3-14b |
||
|
qwen3-8b |
||
|
qwen3-4b |
||
|
qwen3-1.7b |
||
|
qwen3-0.6b |
||
|
qwen2.5-14b-instruct-1m |
1.200 |
5.000.000 |
|
qwen2.5-7b-instruct-1m |
||
|
qwen2.5-72b-instruct |
60 |
150.000 |
|
qwen2.5-32b-instruct |
||
|
qwen2.5-14b-instruct |
||
|
qwen2.5-7b-instruct |
||
Tiongkok Daratan
Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data berada di wilayah Beijing, serta sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok Daratan.
|
Model |
Pembatasan laju (terpicu jika nilai apa pun dilampaui) Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60) |
|
|
RPM |
TPM Mencakup token input dan output |
|
|
qwen3.5-397b-a17b |
600 |
1.000.000 |
|
qwen3.5-122b-a10b |
||
|
qwen3.5-27b |
||
|
qwen3.5-35b-a3b |
||
|
qwen3-next-80b-a3b-thinking |
||
|
qwen3-next-80b-a3b-instruct |
||
|
qwen3-235b-a22b-thinking-2507 |
||
|
qwen3-235b-a22b-instruct-2507 |
||
|
qwen3-30b-a3b-thinking-2507 |
||
|
qwen3-30b-a3b-instruct-2507 |
||
|
qwen3-235b-a22b |
||
|
qwen3-30b-a3b |
||
|
qwen3-32b |
2400 |
|
|
qwen3-14b |
600 |
|
|
qwen3-8b |
||
|
qwen3-4b |
||
|
qwen3-1.7b |
||
|
qwen3-0.6b |
||
|
qwq-32b |
||
|
qwq-32b-preview |
1.200 |
|
|
qwen2.5-72b-instruct |
||
|
qwen2.5-32b-instruct |
||
|
qwen2.5-14b-instruct |
||
|
qwen2.5-14b-instruct-1m |
5.000.000 |
|
|
qwen2.5-7b-instruct |
1.000.000 |
|
|
qwen2.5-7b-instruct-1m |
5.000.000 |
|
|
qwen2.5-3b-instruct |
2.000.000 |
|
|
qwen2.5-1.5b-instruct |
||
|
qwen2.5-0.5b-instruct |
||
Qwen-VL (pemahaman visual / gambar-ke-teks)
International
Dalam mode penyebaran International, titik akhir dan penyimpanan data berada di wilayah Singapura, sedangkan sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia (tidak termasuk Tiongkok daratan).
|
Model |
Pembatasan laju (terpicu jika nilai apa pun dilampaui) Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60) |
|
|
RPM |
TPM Mencakup token input dan output |
|
|
qwen3-vl-32b-thinking |
60 |
100.000 |
|
qwen3-vl-32b-instruct |
||
|
qwen3-vl-30b-a3b-thinking |
||
|
qwen3-vl-30b-a3b-instruct |
||
|
qwen3-vl-8b-thinking |
||
|
qwen3-vl-8b-instruct |
||
|
qwen3-vl-235b-a22b-thinking |
||
|
qwen3-vl-235b-a22b-instruct |
||
|
qwen2.5-vl-72b-instruct |
||
|
qwen2.5-vl-32b-instruct |
||
|
qwen2.5-vl-7b-instruct |
1.200 |
1.000.000 |
|
qwen2.5-vl-3b-instruct |
||
Tiongkok Daratan
Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data berada di wilayah Beijing, serta sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok Daratan.
|
Model |
Pembatasan laju (terpicu jika nilai apa pun dilampaui) Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60) |
|
|
RPM |
TPM Mencakup token input dan output |
|
|
qwen3-vl-32b-thinking |
600 |
1.000.000 |
|
qwen3-vl-32b-instruct |
||
|
qwen3-vl-30b-a3b-thinking |
||
|
qwen3-vl-30b-a3b-instruct |
||
|
qwen3-vl-8b-thinking |
||
|
qwen3-vl-8b-instruct |
||
|
qwen3-vl-235b-a22b-thinking |
60 |
100.000 |
|
qwen3-vl-235b-a22b-instruct |
||
|
qwen2.5-vl-72b-instruct |
||
|
qwen2.5-vl-32b-instruct |
||
|
qwen2.5-vl-7b-instruct |
1.200 |
1.000.000 |
|
qwen2.5-vl-3b-instruct |
||
|
qwen2-vl-72b-instruct |
||
|
qwen2-vl-7b-instruct |
||
|
qwen2-vl-2b-instruct |
||
|
qvq-72b-preview |
60 |
100.000 |
Qwen2.5-Omni
International
Dalam mode penyebaran International, titik akhir dan penyimpanan data berada di wilayah Singapura, sedangkan sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia (tidak termasuk Tiongkok daratan).
|
Model |
Pembatasan laju (terpicu jika nilai apa pun dilampaui) Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60) |
|
|
RPM |
TPM Mencakup token input dan output |
|
|
qwen2.5-omni-7b |
60 |
100.000 |
Tiongkok Daratan
Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data berada di wilayah Beijing, serta sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok Daratan.
|
Model |
Pembatasan laju (terpicu jika nilai apa pun dilampaui) Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60) |
|
|
RPM |
TPM Mencakup token input dan output |
|
|
qwen2.5-omni-7b |
60 |
100.000 |
Qwen3-Omni-Captioner
International
Dalam mode penyebaran International, titik akhir dan penyimpanan data berada di wilayah Singapura, sedangkan sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia (tidak termasuk Tiongkok daratan).
|
Model |
Pembatasan laju (terpicu jika nilai apa pun dilampaui) Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60) |
|
|
RPM |
TPM Mencakup token input dan output |
|
|
qwen3-omni-30b-a3b-captioner |
60 |
100.000 |
Tiongkok Daratan
Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data berada di wilayah Beijing, serta sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok Daratan.
|
Model |
Pembatasan laju (terpicu jika nilai apa pun dilampaui) Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60) |
|
|
RPM |
TPM Mencakup token input dan output |
|
|
qwen3-omni-30b-a3b-captioner |
60 |
100.000 |
Qwen-Math
Hanya mode penyebaran Tiongkok Daratan yang didukung. Titik akhir dan penyimpanan data berada di wilayah Beijing, serta sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok Daratan.
|
Model |
Pembatasan laju (terpicu jika nilai apa pun dilampaui) Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60) |
|
|
RPM |
TPM Mencakup token input dan output |
|
|
qwen2.5-math-72b-instruct |
1.200 |
1.000.000 |
|
qwen2.5-math-7b-instruct |
||
|
qwen2.5-math-1.5b-instruct |
||
Qwen-Coder
Global
Dalam mode penyebaran Global, titik akhir dan penyimpanan data berada di wilayah US (Virginia) atau wilayah Jerman (Frankfurt), serta sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia.
|
Model |
Pembatasan laju (terpicu jika nilai apa pun dilampaui) Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60) |
|
|
RPM |
TPM Mencakup token input dan output |
|
|
qwen3-coder-480b-a35b-instruct |
600 |
1.000.000 |
|
qwen3-coder-30b-a3b-instruct |
||
International
Dalam mode penyebaran International, titik akhir dan penyimpanan data berada di wilayah Singapura, sedangkan sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia (tidak termasuk Tiongkok daratan).
|
Model |
Pembatasan laju (terpicu jika nilai apa pun dilampaui) Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60) |
|
|
RPM |
TPM Mencakup token input dan output |
|
|
qwen3-coder-next |
600 |
1.000.000 |
|
qwen3-coder-480b-a35b-instruct |
||
|
qwen3-coder-30b-a3b-instruct |
||
Tiongkok Daratan
Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data berada di wilayah Beijing, serta sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok Daratan.
|
Model |
Pembatasan laju (terpicu jika nilai apa pun dilampaui) Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60) |
|
|
RPM |
TPM Mencakup token input dan output |
|
|
qwen3-coder-next |
600 |
1.000.000 |
|
qwen3-coder-480b-a35b-instruct |
||
|
qwen3-coder-30b-a3b-instruct |
||
|
qwen2.5-coder-32b-instruct |
1.200 |
|
|
qwen2.5-coder-14b-instruct |
||
|
qwen2.5-coder-7b-instruct |
||
|
qwen2.5-coder-3b-instruct |
2.000.000 |
|
|
qwen2.5-coder-1.5b-instruct |
||
|
qwen2.5-coder-0.5b-instruct |
||
Generasi teks - Pihak Ketiga
DeepSeek
International
Dalam mode penyebaran International, titik akhir dan penyimpanan data berada di wilayah Singapura, sedangkan sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia (tidak termasuk Tiongkok daratan).
|
Model |
Pembatasan laju (terpicu jika nilai apa pun dilampaui) Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60) |
|
|
RPM |
TPM Mencakup token input dan output |
|
|
deepseek-v3.2 |
10.000 |
1.200.000 |
Tiongkok Daratan
Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data berada di wilayah Beijing, serta sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok Daratan.
|
Model |
Pembatasan laju (terpicu jika nilai apa pun dilampaui) Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60) |
|
|
RPM |
TPM Mencakup token input dan output |
|
|
deepseek-v3.2 |
15.000 |
1.200.000 |
|
deepseek-v3.2-exp |
15.000 |
1.200.000 |
|
deepseek-v3.1 |
15.000 |
1.200.000 |
|
deepseek-r1-0528 |
60 |
100.000 |
|
deepseek-r1 |
15.000 |
1.200.000 |
|
deepseek-v3 |
||
|
deepseek-r1-distill-qwen-7b |
||
|
deepseek-r1-distill-qwen-14b |
||
|
deepseek-r1-distill-qwen-32b |
||
|
deepseek-r1-distill-qwen-1.5b |
60 |
100.000 |
|
deepseek-r1-distill-llama-8b |
||
|
deepseek-r1-distill-llama-70b |
||
Kimi
Hanya mode penyebaran Tiongkok Daratan yang didukung. Titik akhir dan penyimpanan data berada di wilayah Beijing, serta sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok Daratan.
|
Model |
Pembatasan laju (terpicu jika nilai apa pun dilampaui) Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60) |
|
|
RPM |
TPM Mencakup token input dan output |
|
|
kimi-k2.5 |
500 |
1.000.000 |
|
kimi-k2-thinking |
500 |
1.000.000 |
|
Moonshot-Kimi-K2-Instruct |
500 |
1.000.000 |
MiniMax
Hanya mode penyebaran Tiongkok Daratan yang didukung. Titik akhir dan penyimpanan data berada di wilayah Beijing, serta sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok Daratan.
|
Model |
Pembatasan laju (terpicu jika nilai apa pun dilampaui) Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60) |
|
|
RPM |
TPM Mencakup token input dan output |
|
|
MiniMax-M2.5 |
500 |
1.000.000 |
GLM
Hanya mode penyebaran Tiongkok Daratan yang didukung. Titik akhir dan penyimpanan data berada di wilayah Beijing, serta sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok Daratan.
|
Model |
Pembatasan laju (terpicu jika nilai apa pun dilampaui) Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60) |
|
|
RPM |
TPM Mencakup token input dan output |
|
|
glm-5 |
500 |
1.000.000 |
|
glm-4.7 |
500 |
|
|
glm-4.6 |
60 |
|
Image generation
Qwen-Image
Internasional
Dalam mode penyebaran Internasional, titik akhir dan penyimpanan data berlokasi di wilayah Singapura, sedangkan sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia (tidak termasuk Tiongkok daratan).
|
Service |
Model |
Batas laju (dipicu jika nilai apa pun terlampaui) |
|
|
Batas pengiriman tugas |
Tugas konkuren |
||
|
Text-to-image & image editing |
qwen-image-2.0-pro |
2 per menit |
Tidak ada batas untuk sync API |
|
qwen-image-2.0-pro-2026-03-03 |
2 per menit |
Tidak ada batas untuk sync API |
|
|
qwen-image-2.0 |
2 per detik |
Tidak ada batas untuk sync API |
|
|
qwen-image-2.0-2026-03-03 |
2 per detik |
Tidak ada batas untuk sync API |
|
|
Text-to-image |
qwen-image-max |
2 per menit |
Tidak ada batas untuk sync API |
|
qwen-image-max-2025-12-30 |
2 per menit |
Tidak ada batas untuk sync API |
|
|
qwen-image-plus |
2 per detik |
Tidak ada batas untuk sync API / Async API: 2 |
|
|
qwen-image-plus-2026-01-09 |
2 per detik |
Tidak ada batas untuk sync API |
|
|
qwen-image |
2 per detik |
Tidak ada batas untuk sync API / Async API: 2 |
|
|
Image editing |
qwen-image-edit-max |
2 per menit |
Tidak ada batas untuk sync API |
|
qwen-image-edit-max-2026-01-16 |
2 per menit |
Tidak ada batas untuk sync API |
|
|
qwen-image-edit-plus |
2 per detik |
Tidak ada batas untuk sync API |
|
|
qwen-image-edit-plus-2025-12-15 |
2 per detik |
Tidak ada batas untuk sync API |
|
|
qwen-image-edit-plus-2025-10-30 |
2 per detik |
Tidak ada batas untuk sync API |
|
|
qwen-image-edit |
2 per detik |
Tidak ada batas untuk sync API |
|
Tiongkok Daratan
Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data berlokasi di wilayah Beijing, dan sumber daya komputasi inferensi model dibatasi hanya di Tiongkok Daratan.
|
Service |
Model |
Batas laju (dipicu jika nilai apa pun terlampaui) |
|
|
Batas pengiriman tugas |
Tugas konkuren |
||
|
Text-to-image & image editing |
qwen-image-2.0-pro |
2 per menit |
Tidak ada batas untuk sync API |
|
qwen-image-2.0-pro-2026-03-03 |
2 per menit |
Tidak ada batas untuk sync API |
|
|
qwen-image-2.0 |
2 per detik |
Tidak ada batas untuk sync API |
|
|
qwen-image-2.0-2026-03-03 |
2 per detik |
Tidak ada batas untuk sync API |
|
|
Text-to-image |
qwen-image-max |
2 per menit |
Tidak ada batas untuk sync API |
|
qwen-image-max-2025-12-30 |
2 per menit |
Tidak ada batas untuk sync API |
|
|
qwen-image-plus |
2 per detik |
Tidak ada batas untuk sync API / Async API: 2 |
|
|
qwen-image-plus-2026-01-09 |
2 per detik |
Tidak ada batas untuk sync API |
|
|
qwen-image |
2 per detik |
Tidak ada batas untuk sync API / Async API: 2 |
|
|
Image editing |
qwen-image-edit-max |
2 per menit |
Tidak ada batas untuk sync API |
|
qwen-image-edit-max-2026-01-16 |
2 per menit |
Tidak ada batas untuk sync API |
|
|
qwen-image-edit-plus |
2 per detik |
Tidak ada batas untuk sync API |
|
|
qwen-image-edit-plus-2025-12-15 |
2 per detik |
Tidak ada batas untuk sync API |
|
|
qwen-image-edit-plus-2025-10-30 |
2 per detik |
Tidak ada batas untuk sync API |
|
|
qwen-image-edit |
2 per detik |
Tidak ada batas untuk sync API |
|
|
Image translation |
qwen-mt-image |
1 per detik |
2 |
Text-to-image - Z-Image
Internasional
Dalam mode penyebaran Internasional, titik akhir dan penyimpanan data berlokasi di wilayah Singapura, sedangkan sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia (tidak termasuk Tiongkok daratan).
|
Model |
Batas laju (dipicu jika nilai apa pun terlampaui) |
|
|
Batas RPS pengiriman tugas |
Tugas konkuren |
|
|
z-image-turbo |
2 |
Tidak ada batas untuk sync API |
Tiongkok Daratan
Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data berlokasi di wilayah Beijing, dan sumber daya komputasi inferensi model dibatasi hanya di Tiongkok Daratan.
|
Model |
Batas laju (dipicu jika nilai apa pun terlampaui) |
|
|
Batas RPS pengiriman tugas |
Tugas konkuren |
|
|
z-image-turbo |
2 |
Tidak ada batas untuk sync API |
Wan
Global
Dalam mode penyebaran Global, titik akhir dan penyimpanan data berlokasi di wilayah AS (Virginia) atau wilayah Jerman (Frankfurt), dan sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia.
|
Service |
Model |
Batas laju (dipicu jika nilai apa pun terlampaui) |
|
|
Batas RPS pengiriman tugas |
Tugas konkuren |
||
|
Text-to-image |
wan2.6-t2i |
5 |
5 |
|
Image generation |
wan2.6-image |
5 |
5 |
Internasional
Dalam mode penyebaran Internasional, titik akhir dan penyimpanan data berlokasi di wilayah Singapura, sedangkan sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia (tidak termasuk Tiongkok daratan).
|
Service |
Model |
Batas laju (dipicu jika nilai apa pun terlampaui) |
|
|
Batas RPS pengiriman tugas |
Tugas konkuren |
||
|
Text-to-image |
wan2.6-t2i |
5 |
5 |
|
wan2.5-t2i-preview |
|||
|
wan2.2-t2i-flash |
2 |
2 |
|
|
wan2.2-t2i-plus |
|||
|
wan2.1-t2i-turbo |
|||
|
wan2.1-t2i-plus |
|||
|
Image editing |
wan2.5-i2i-preview |
5 |
5 |
|
Image generation |
wan2.6-image |
5 |
5 |
Tiongkok Daratan
Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data berlokasi di wilayah Beijing, dan sumber daya komputasi inferensi model dibatasi hanya di Tiongkok Daratan.
|
Service |
Model |
Batas laju (dipicu jika nilai apa pun terlampaui) |
|
|
Batas RPS pengiriman tugas |
Tugas konkuren |
||
|
Text-to-image |
wan2.6-t2i |
1 |
5 |
|
wan2.5-t2i-preview |
5 |
||
|
wanx2.0-t2i-turbo |
2 |
2 |
|
|
wanx2.1-t2i-turbo |
|||
|
wanx2.1-t2i-plus |
|||
|
wan2.2-t2i-flash |
|||
|
wan2.2-t2i-plus |
|||
|
General image editing |
wan2.5-i2i-preview |
5 |
5 |
|
wanx2.1-imageedit |
2 |
2 |
|
|
Image generation |
wan2.6-image |
5 |
5 |
OutfitAnyone
Hanya mode penyebaran Tiongkok Daratan yang didukung. Titik akhir dan penyimpanan data berlokasi di wilayah Beijing, dan sumber daya komputasi inferensi model dibatasi hanya di Tiongkok Daratan.
|
Model |
Batas laju (dipicu jika nilai apa pun terlampaui) |
|
|
Batas RPS pengiriman tugas |
Tugas konkuren |
|
|
aitryon-plus |
10 |
5 |
|
aitryon-parsing-v1 |
10 |
Tidak ada batas untuk sync API |
Video generation
Wan
Global
Dalam mode penyebaran Global, titik akhir dan penyimpanan data berlokasi di wilayah US (Virginia) atau wilayah Jerman (Frankfurt), sedangkan sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia.
|
Service |
Model |
Rate limit (triggered if any value is exceeded) |
|
|
Task submission RPS limit |
Concurrent tasks |
||
|
Text-to-video |
wan2.6-t2v |
5 |
5 |
|
Image-to-video - first frame |
wan2.6-i2v |
||
|
Referece-to-video |
wan2.6-r2v |
||
International
Dalam mode penyebaran International, titik akhir dan penyimpanan data berlokasi di wilayah Singapura, sedangkan sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia (tidak termasuk Tiongkok daratan).
|
Service |
Model |
Rate limit (triggered if any value is exceeded) |
|
|
Task submission RPS limit |
Concurrent tasks |
||
|
Text-to-image |
wan2.6-t2v |
5 |
5 |
|
wan2.5-t2v-preview |
|||
|
wan2.2-t2v-plus |
2 |
2 |
|
|
wan2.1-t2v-turbo |
|||
|
wan2.1-t2v-plus |
|||
|
Image-to-video - first frame |
wan2.6-i2v-flash |
5 |
5 |
|
wan2.6-i2v |
|||
|
wan2.5-i2v-preview |
|||
|
wan2.2-i2v-flash |
2 |
2 |
|
|
wan2.1-i2v-plus |
|||
|
wan2.1-i2v-turbo |
|||
|
wan2.2-i2v-plus |
|||
|
Image-to-video - first and last frames |
wan2.2-kf2v-flash |
||
|
wan2.1-kf2v-plus |
1 |
||
|
General video editing |
wan2.1-vace-plus |
2 |
|
|
Referece-to-video |
wan2.6-r2v-flash |
5 |
5 |
|
wan2.6-r2v |
5 |
5 |
|
|
Animate image |
wan2.2-animate-move |
5 |
1 |
|
Video character swap |
wan2.2-animate-mix |
5 |
1 |
US
Dalam mode penyebaran US, titik akhir dan penyimpanan data berlokasi di wilayah US (Virginia), sedangkan sumber daya komputasi inferensi model terbatas di Amerika Serikat.
|
Service |
Model |
Rate limit (triggered if any value is exceeded) |
|
|
Task submission RPS limit |
Concurrent tasks |
||
|
Text-to-video |
wan2.6-t2v-us |
5 |
5 |
|
Image-to-video - first frame |
wan2.6-i2v-us |
||
Chinese Mainland
Dalam mode penyebaran Chinese Mainland, titik akhir dan penyimpanan data berlokasi di wilayah Beijing, sedangkan sumber daya komputasi inferensi model terbatas di Tiongkok daratan.
|
Service |
Model |
Rate limit (triggered if any value is exceeded) |
|
|
Task submission RPS limit |
Concurrent tasks |
||
|
Text-to-video |
wan2.6-t2v |
5 |
5 |
|
wan2.5-t2v-preview |
|||
|
wan2.2-t2v-plus |
2 |
2 |
|
|
wanx2.1-t2v-turbo |
|||
|
wanx2.1-t2v-plus |
|||
|
Image-to-video - first frame |
wan2.6-i2v-flash |
5 |
5 |
|
wan2.6-i2v |
|||
|
wan2.5-i2v-preview |
|||
|
wan2.2-i2v-plus |
2 |
2 |
|
|
wanx2.1-i2v-turbo |
|||
|
wanx2.1-i2v-plus |
|||
|
Image-to-video - first and last frames |
wan2.2-kf2v-flash |
||
|
wanx2.1-kf2v-plus |
|||
|
General video editing |
wanx2.1-vace-plus |
||
|
Referece-to-video |
wan2.6-r2v-flash |
5 |
5 |
|
wan2.6-r2v |
5 |
5 |
|
|
Digital human |
wan2.2-s2v-detect |
5 |
No limit for sync API |
|
wan2.2-s2v |
1 |
||
|
Animate image |
wan2.2-animate-move |
5 |
1 |
|
Video character swap |
wan2.2-animate-mix |
5 |
1 |
AnimateAnyone
Hanya mode penyebaran Chinese Mainland yang didukung. Titik akhir dan penyimpanan data berlokasi di wilayah Beijing, sedangkan sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok daratan.
|
Model |
Task submission RPS limit |
Concurrent tasks |
|
animate-anyone-detect-gen2 |
5 |
No limit for sync API |
|
animate-anyone-template-gen2 |
1 Pada satu waktu, hanya satu tugas yang berjalan. Tugas lainnya dalam status pending. |
|
|
animate-anyone-gen2 |
EMO
Hanya mode penyebaran Chinese Mainland yang didukung. Titik akhir dan penyimpanan data berlokasi di wilayah Beijing, sedangkan sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok daratan.
|
Model |
Task submission RPS limit |
Concurrent tasks |
|
emo-detect-v1 |
5 |
No limit for sync API |
|
emo-v1 |
1 Pada satu waktu, hanya satu tugas yang berjalan. Tugas lainnya dalam status pending. |
LivePortrait
Hanya mode penyebaran Chinese Mainland yang didukung. Titik akhir dan penyimpanan data berlokasi di wilayah Beijing, sedangkan sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok daratan.
|
Model |
Task submission RPS limit |
Concurrent tasks |
|
liveportrait-detect |
5 |
No limit for sync API |
|
liveportrait |
1 Pada satu waktu, hanya satu tugas yang berjalan. Tugas lainnya dalam status pending. |
VideoRetalk
Hanya mode penyebaran Chinese Mainland yang didukung. Titik akhir dan penyimpanan data berlokasi di wilayah Beijing, sedangkan sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok daratan.
|
Model |
Task submission RPS limit |
Concurrent tasks |
|
videoretalk |
1 |
1 Pada satu waktu, hanya satu tugas yang berjalan. Tugas lainnya dalam status pending. |
Emoji
Hanya mode penyebaran Chinese Mainland yang didukung. Titik akhir dan penyimpanan data berlokasi di wilayah Beijing, sedangkan sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok daratan.
|
Model |
Task submission RPS limit |
Concurrent tasks |
|
emoji-detect-v1 |
1 |
No limit for sync API |
|
emoji-v1 |
1 Pada satu waktu, hanya satu tugas yang berjalan. Tugas lainnya dalam status pending. |
Video style transform
Hanya mode penyebaran Chinese Mainland yang didukung. Titik akhir dan penyimpanan data berlokasi di wilayah Beijing, sedangkan sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok daratan.
|
Model |
Task submission RPS limit |
Concurrent tasks |
|
video-style-transform |
20 |
2 Pada satu waktu, hanya satu tugas yang berjalan. Tugas lainnya dalam status pending. |
Speech synthesis (teks-ke-ucapan)
Qwen Speech Synthesis
Internasional
Dalam mode penyebaran internasional, titik akhir dan penyimpanan data keduanya berlokasi di Wilayah Singapura. Sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia, tidak termasuk Tiongkok daratan.
Qwen3-TTS-Instruct-Flash
Model name | Calls per minute (RPM) |
qwen3-tts-instruct-flash | 180 |
qwen3-tts-instruct-flash-2026-01-26 | 180 |
Qwen3-TTS-VD
Model name | Calls per minute (RPM) |
qwen3-tts-vd-2026-01-26 | 180 |
Qwen3-TTS-VC
Model name | Calls per minute (RPM) |
qwen3-tts-vc-2026-01-22 | 180 |
Qwen3-TTS-Flash
Model name | Calls per minute (RPM) |
qwen3-tts-flash | 180 |
qwen3-tts-flash-2025-11-27 | 180 |
qwen3-tts-flash-2025-09-18 | 10 |
Tiongkok daratan
Dalam mode penyebaran Tiongkok daratan, titik akhir dan penyimpanan data keduanya berlokasi di Wilayah Beijing. Sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok daratan.
Qwen3-TTS-Instruct-Flash
Model name | Calls per minute (RPM) |
qwen3-tts-instruct-flash | 180 |
qwen3-tts-instruct-flash-2026-01-26 | 180 |
Qwen3-TTS-VD
Model name | Calls per minute (RPM) |
qwen3-tts-vd-2026-01-26 | 180 |
Qwen3-TTS-VC
Model name | Calls per minute (RPM) |
qwen3-tts-vc-2026-01-22 | 180 |
Qwen3-TTS-Flash
Model name | Calls per minute (RPM) |
qwen3-tts-flash | 180 |
qwen3-tts-flash-2025-11-27 | 180 |
qwen3-tts-flash-2025-09-18 | 10 |
Qwen-TTS
Model name | Rate limiting conditions (rate limiting triggers if any value is exceeded) Batas berikut berlaku per menit. Layanan dapat menerapkan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60). | |
Calls per minute (RPM) | Tokens consumed per minute (TPM) Termasuk token input dan output. | |
qwen-tts | 10 | 100.000 |
qwen-tts-latest | ||
qwen-tts-2025-05-22 | ||
qwen-tts-2025-04-10 | ||
Qwen Real-Time Speech Synthesis
Internasional
Dalam mode penyebaran internasional, titik akhir dan penyimpanan data keduanya berlokasi di Wilayah Singapura. Sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia, tidak termasuk Tiongkok daratan.
Qwen3-TTS-Instruct-Flash-Realtime
Model name | Calls per minute (RPM) |
qwen3-tts-instruct-flash-realtime | 180 |
qwen3-tts-instruct-flash-realtime-2026-01-22 | 180 |
Qwen3-TTS-VD-Realtime
Model name | Calls per minute (RPM) |
qwen3-tts-vd-realtime-2026-01-15 | 180 |
qwen3-tts-vd-realtime-2025-12-16 |
Qwen3-TTS-VC-Realtime
Model name | Calls per minute (RPM) |
qwen3-tts-vc-realtime-2026-01-15 | 180 |
qwen3-tts-vc-realtime-2025-11-27 |
Qwen3-TTS-Flash-Realtime
Model name | Calls per minute (RPM) |
qwen3-tts-flash-realtime | 180 |
qwen3-tts-flash-realtime-2025-11-27 | 180 |
qwen3-tts-flash-realtime-2025-09-18 | 10 |
Tiongkok daratan
Dalam mode penyebaran Tiongkok daratan, titik akhir dan penyimpanan data keduanya berlokasi di Wilayah Beijing. Sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok daratan.
Qwen3-TTS-Instruct-Flash-Realtime
Model name | Calls per minute (RPM) |
qwen3-tts-instruct-flash-realtime | 180 |
qwen3-tts-instruct-flash-realtime-2026-01-22 | 180 |
Qwen3-TTS-VD-Realtime
Model name | Calls per minute (RPM) |
qwen3-tts-vd-realtime-2026-01-15 | 180 |
qwen3-tts-vd-realtime-2025-12-16 |
Qwen3-TTS-VC-Realtime
Model name | Calls per minute (RPM) |
qwen3-tts-vc-realtime-2026-01-15 | 180 |
qwen3-tts-vc-realtime-2025-11-27 |
Qwen3-TTS-Flash-Realtime
Model name | Calls per minute (RPM) |
qwen3-tts-flash-realtime | 180 |
qwen3-tts-flash-realtime-2025-11-27 | 180 |
qwen3-tts-flash-realtime-2025-09-18 | 10 |
Qwen-TTS-Realtime
Model name | Rate limiting conditions (rate limiting triggers if any value is exceeded) Batas berikut berlaku per menit. Layanan dapat menerapkan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60). | |
Calls per minute (RPM) | Tokens consumed per minute (TPM) Termasuk token input dan output. | |
qwen-tts-realtime | 10 | 100.000 |
qwen-tts-realtime-latest | ||
qwen-tts-realtime-2025-07-15 | ||
Qwen Voice Cloning
Internasional
Dalam mode penyebaran internasional, titik akhir dan penyimpanan data keduanya berlokasi di Wilayah Singapura. Sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia, tidak termasuk Tiongkok daratan.
Model name | Calls per minute (RPM) |
qwen-voice-enrollment | 180 |
Tiongkok daratan
Dalam mode penyebaran Tiongkok daratan, titik akhir dan penyimpanan data keduanya berlokasi di Wilayah Beijing. Sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok daratan.
Model name | Calls per minute (RPM) |
qwen-voice-enrollment | 180 |
Qwen Voice Design
Internasional
Dalam mode penyebaran internasional, titik akhir dan penyimpanan data keduanya berlokasi di Wilayah Singapura. Sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia, tidak termasuk Tiongkok daratan.
Model name | Calls per minute (RPM) |
qwen-voice-design | 180 |
Tiongkok daratan
Dalam mode penyebaran Tiongkok daratan, titik akhir dan penyimpanan data keduanya berlokasi di Wilayah Beijing. Sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok daratan.
Model name | Calls per minute (RPM) |
qwen-voice-design | 180 |
CosyVoice Speech Synthesis
Internasional
Dalam mode penyebaran internasional, titik akhir dan penyimpanan data keduanya berlokasi di Wilayah Singapura. Sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia, tidak termasuk Tiongkok daratan.
Model name | RPS limit for the submit job API |
cosyvoice-v3-plus | 3 |
cosyvoice-v3-flash |
Tiongkok daratan
Dalam mode penyebaran Tiongkok daratan, titik akhir dan penyimpanan data keduanya berlokasi di Wilayah Beijing. Sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok daratan.
Model name | RPS limit for the submit job API |
cosyvoice-v3.5-plus | 3 |
cosyvoice-v3.5-flash | |
cosyvoice-v3-plus | |
cosyvoice-v3-flash | |
cosyvoice-v2 |
CosyVoice Voice Cloning and Voice Design
CosyVoice voice cloning dan voice design berbagi satu model dan satu kuota Pembatasan laju.
Internasional
Dalam mode penyebaran internasional, titik akhir dan penyimpanan data keduanya berlokasi di Wilayah Singapura. Sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia, tidak termasuk Tiongkok daratan.
Model name | RPS limit for the submit job API |
voice-enrollment | 10 |
Tiongkok daratan
Dalam mode penyebaran Tiongkok daratan, titik akhir dan penyimpanan data keduanya berlokasi di Wilayah Beijing. Sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok daratan.
Model name | RPS limit for the submit job API |
voice-enrollment | 10 |
Speech recognition (speech-to-text) dan translation (speech-to-translation)
Qwen3-LiveTranslate-Flash
Internasional
Dalam mode penyebaran internasional, titik akhir dan penyimpanan data berlokasi di wilayah Singapura. Sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia, kecuali Tiongkok daratan.
Nama model | Kondisi pembatasan laju (dipicu jika nilai apa pun terlampaui) Berikut adalah batas laju per menit. Layanan juga dapat menerapkan batasan berdasarkan jumlah permintaan per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60). | |
Permintaan per menit (RPM) | Token per menit (TPM) Mencakup token input dan output | |
qwen3-livetranslate-flash | 100 | 100.000 |
qwen3-livetranslate-flash-2025-12-01 | 6.000 | 1.000.000 |
Tiongkok daratan
Dalam mode penyebaran Tiongkok daratan, titik akhir dan penyimpanan data berlokasi di wilayah Beijing. Sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok daratan.
Nama model | Kondisi pembatasan laju (dipicu jika nilai apa pun terlampaui) Berikut adalah batas laju per menit. Layanan juga dapat menerapkan batasan berdasarkan jumlah permintaan per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60). | |
Permintaan per menit (RPM) | Token per menit (TPM) Mencakup token input dan output | |
qwen3-livetranslate-flash | 100 | 100.000 |
qwen3-livetranslate-flash-2025-12-01 | ||
Qwen3-LiveTranslate-Flash-Realtime
Internasional
Dalam mode penyebaran internasional, titik akhir dan penyimpanan data berlokasi di wilayah Singapura. Sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia, kecuali Tiongkok daratan.
Nama model | Kondisi pembatasan laju (dipicu jika nilai apa pun terlampaui) Berikut adalah batas laju per menit. Layanan juga dapat menerapkan batasan berdasarkan jumlah permintaan per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60). | |
Permintaan per menit (RPM) | Token per menit (TPM) Mencakup token input dan output | |
qwen3-livetranslate-flash-realtime | 10 | 100.000 |
qwen3-livetranslate-flash-realtime-2025-09-22 | ||
Tiongkok daratan
Dalam mode penyebaran Tiongkok daratan, titik akhir dan penyimpanan data berlokasi di wilayah Beijing. Sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok daratan.
Nama model | Kondisi pembatasan laju (dipicu jika nilai apa pun terlampaui) Berikut adalah batas laju per menit. Layanan juga dapat menerapkan batasan berdasarkan jumlah permintaan per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60). | |
Permintaan per menit (RPM) | Token per menit (TPM) Mencakup token input dan output | |
qwen3-livetranslate-flash-realtime | 10 | 100.000 |
qwen3-livetranslate-flash-realtime-2025-09-22 | ||
Qwen audio file recognition
Internasional
Dalam mode penyebaran internasional, titik akhir dan penyimpanan data berlokasi di wilayah Singapura. Sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia, kecuali Tiongkok daratan.
Qwen3-ASR-Flash-Filetrans
Nama model | Permintaan per menit (RPM) |
qwen3-asr-flash-filetrans | 100 |
qwen3-asr-flash-filetrans-2025-11-17 |
Qwen3-ASR-Flash
Nama model | Permintaan per menit (RPM) |
qwen3-asr-flash | 100 |
qwen3-asr-flash-2026-02-10 | |
qwen3-asr-flash-2025-09-08 |
Amerika Serikat
Dalam mode penyebaran AS, titik akhir dan penyimpanan data berlokasi di wilayah AS (Virginia). Sumber daya komputasi inferensi model dibatasi hanya untuk Amerika Serikat.
Nama model | Permintaan per menit (RPM) |
qwen3-asr-flash-us | 100 |
qwen3-asr-flash-2025-09-08-us |
Tiongkok daratan
Dalam mode penyebaran Tiongkok daratan, titik akhir dan penyimpanan data berlokasi di wilayah Beijing. Sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok daratan.
Qwen3-ASR-Flash-Filetrans
Nama model | Permintaan per menit (RPM) |
qwen3-asr-flash-filetrans | 100 |
qwen3-asr-flash-filetrans-2025-11-17 |
Qwen3-ASR-Flash
Nama model | Permintaan per menit (RPM) |
qwen3-asr-flash | 100 |
qwen3-asr-flash-2026-02-10 | |
qwen3-asr-flash-2025-09-08 |
Qwen Real-time Speech Recognition
Internasional
Dalam mode penyebaran internasional, titik akses dan penyimpanan data keduanya berlokasi di wilayah Singapura. Sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia, kecuali Tiongkok daratan.
Nama Model | Panggilan per detik (RPS) |
qwen3-asr-flash-realtime | 20 |
qwen3-asr-flash-realtime-2026-02-10 | |
qwen3-asr-flash-realtime-2025-10-27 |
Tiongkok Daratan
Dalam mode penyebaran Tiongkok daratan, titik akses dan penyimpanan data keduanya berlokasi di wilayah Beijing. Sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok daratan.
Nama Model | Panggilan per detik (RPS) |
qwen3-asr-flash-realtime | 20 |
qwen3-asr-flash-realtime-2026-02-10 | |
qwen3-asr-flash-realtime-2025-10-27 |
Paraformer speech recognition
Hanya mode penyebaran Tiongkok Daratan yang didukung. Titik akhir dan penyimpanan data berlokasi di wilayah Beijing, dan sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok Daratan.
Nama model | Batas RPS untuk API submit job |
paraformer-realtime-v2 | 20 |
paraformer-realtime-8k-v2 |
Nama model | Panggilan per menit (RPM) |
paraformer-v2 | 1.200 |
Nama model | Batas RPS untuk API submit job | Tugas konkuren |
paraformer-8k-v2 | 20 | 100 |
Fun-ASR audio file recognition
Internasional
Dalam mode penyebaran internasional, titik akhir dan penyimpanan data berada di wilayah Singapura. Sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia, kecuali Tiongkok daratan.
Nama model | Panggilan per menit (RPM) |
fun-asr | 600 |
fun-asr-2025-11-07 | |
fun-asr-2025-08-25 | |
fun-asr-mtl | |
fun-asr-mtl-2025-08-25 |
Tiongkok daratan
Dalam mode penyebaran Tiongkok daratan, titik akhir dan penyimpanan data berada di wilayah Beijing. Sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok daratan.
Nama model | Panggilan per menit (RPM) |
fun-asr | 600 |
fun-asr-2025-11-07 | |
fun-asr-2025-08-25 | |
fun-asr-mtl | |
fun-asr-mtl-2025-08-25 |
Fun-ASR real-time speech recognition
Internasional
Dalam mode penyebaran internasional, baik titik akhir maupun penyimpanan data berada di wilayah Singapura. Sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia, kecuali Tiongkok daratan.
Nama model | Batas catatan per detik (RPS) untuk pengiriman pekerjaan |
fun-asr-realtime | 20 |
fun-asr-realtime-2025-11-07 |
Tiongkok daratan
Dalam mode penyebaran Tiongkok daratan, baik titik akhir maupun penyimpanan data berada di wilayah Beijing. Sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok daratan.
Nama model | Batas RPS untuk pengiriman pekerjaan |
fun-asr-realtime | 20 |
fun-asr-realtime-2026-02-28 | |
fun-asr-realtime-2025-11-07 | |
fun-asr-realtime-2025-09-15 | |
fun-asr-flash-8k-realtime | |
fun-asr-flash-8k-realtime-2026-01-28 |
Text embedding
Internasional
Dalam mode penyebaran Internasional, titik akhir dan penyimpanan data berlokasi di Wilayah Singapura, sedangkan sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia (tidak termasuk Tiongkok daratan).
|
Model |
Batas laju (dipicu jika nilai apa pun terlampaui) Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60) |
|
|
RPM |
TPM/Jumlah tugas Mencakup token input dan output |
|
|
text-embedding-v4 |
1.800 |
1.000.000 |
|
text-embedding-v3 |
6.000 |
24.000.000 |
Tiongkok Daratan
Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data berlokasi di Wilayah Beijing, dan sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok Daratan.
|
Model |
Batas laju (dipicu jika nilai apa pun terlampaui) |
|
|
RPS |
TPM/Jumlah tugas Mencakup token input dan output |
|
|
text-embedding-v4 |
30 |
1.200.000 |
Tiongkok (Hong Kong)
Dalam mode penyebaran Tiongkok (Hong Kong), titik akhir dan penyimpanan data berlokasi di Tiongkok (Hong Kong), dan sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok (Hong Kong).
|
Model |
Batas laju (dipicu jika nilai apa pun terlampaui) Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60) |
|
|
RPM |
TPM / Jobs Mencakup token input dan output |
|
|
text-embedding-v4 |
1.800 |
1.000.000 |
Multimodal embedding
Internasional
Dalam mode penyebaran Internasional, titik akhir dan penyimpanan data berlokasi di Wilayah Singapura, sedangkan sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia (tidak termasuk Tiongkok daratan).
|
Model |
Batas laju Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60) |
|
|
RPM |
TPM Hanya token input |
|
|
tongyi-embedding-vision-plus |
600 |
200.000 |
|
tongyi-embedding-vision-flash |
||
Tiongkok Daratan
Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data berlokasi di Wilayah Beijing, dan sumber daya komputasi inferensi model dibatasi hanya di wilayah Tiongkok daratan.
|
Model |
Batas laju Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60) |
|
|
RPM |
TPM Hanya token input |
|
|
qwen3-vl-embedding |
2.400 |
1.200.000 |
|
multimodal-embedding-v1 |
120 |
200.000 |
Text rerank
Internasional
Dalam mode penyebaran Internasional, titik akhir dan penyimpanan data berlokasi di Wilayah Singapura, sedangkan sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia (tidak termasuk Tiongkok daratan).
|
Model |
Rate limit Batas berikut berlaku per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60) |
|
|
RPM |
TPM Hanya token input |
|
|
qwen3-rerank |
5.400 |
5.000.000.000 |
Tiongkok Daratan
Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data berlokasi di Wilayah Beijing, dan sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok daratan.
|
Model |
Rate limit Batas berikut berlaku per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60) |
|
|
RPM |
TPM Hanya token input |
|
|
qwen3-vl-rerank |
5.400 |
5.000.000.000 |
|
gte-rerank-v2 |
5.040 |
4.980.000.000 |
Domain specific
Intent recognition
Hanya mode penyebaran Tiongkok daratan yang didukung. Titik akhir dan penyimpanan data berlokasi di Wilayah Beijing, serta sumber daya komputasi untuk inferensi model dibatasi hanya untuk Tiongkok daratan.
|
Model |
Batas laju (dipicu jika nilai apa pun terlampaui) Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60) |
|
|
RPM |
TPM Mencakup token input dan output |
|
|
tongyi-intent-detect-v3 |
1.200 |
1.000.000 |
Role playing
International
Dalam mode penyebaran International, titik akhir dan penyimpanan data berlokasi di Wilayah Singapura, sedangkan sumber daya komputasi untuk inferensi model dijadwalkan secara dinamis di seluruh dunia (tidak termasuk Tiongkok daratan).
|
Model |
Batas laju (dipicu jika nilai apa pun terlampaui) Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60) |
|
|
RPM |
TPM Mencakup token input dan output |
|
|
qwen-plus-character-ja |
120 |
500.000 |
Chinese Mainland
Dalam mode penyebaran Tiongkok daratan, titik akhir dan penyimpanan data berlokasi di Wilayah Beijing, serta sumber daya komputasi untuk inferensi model dibatasi hanya untuk Tiongkok daratan.
|
Model |
Batas laju (dipicu jika nilai apa pun terlampaui) Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60) |
|
|
RPM |
TPM Mencakup token input dan output |
|
|
qwen-plus-character |
120 |
500.000 |
Model yang Telah Dipensiunkan
Lihat Penghentian Dukungan Model.
Dipensiunkan pada 30 Januari 2026
|
Category |
Model |
Rate limit (triggered if any value is exceeded) |
|
|
RPM |
TPM Includes input and output tokens |
||
|
Qwen-Plus |
qwen-plus-2024-11-27 |
0 |
0 |
|
qwen-plus-2024-11-25 |
|||
|
qwen-plus-2024-09-19 |
|||
|
qwen-plus-2024-08-06 |
|||
|
Qwen-Turbo |
qwen-turbo-2024-09-19 |
||
|
Qwen-VL |
qwen-vl-max-2024-10-30 |
||
|
qwen-vl-max-2024-08-09 |
|||
|
qwen-vl-plus-2024-08-09 |
|||
Dipensiunkan pada 20 Agustus 2025
|
Category |
Model |
Rate limit (triggered if any value is exceeded) |
|
|
RPM |
TPM Includes input and output tokens |
||
|
Text generation - Qwen |
qwen2-72b-instruct |
0 |
0 |
|
qwen2-57b-a14b-instruct |
|||
|
qwen2-7b-instruct |
|||
|
qwen1.5-110b-chat |
|||
|
qwen1.5-72b-chat |
|||
|
qwen1.5-32b-chat |
|||
|
qwen1.5-14b-chat |
|||
|
qwen1.5-7b-chat |
|||