Pembatasan laju - Alibaba Cloud Model Studio - Alibaba Cloud Documentation Center

Alibaba Cloud Model Studio menerapkan pembatasan laju pada panggilan model di tingkat Akun Alibaba Cloud dengan menggabungkan penggunaan seluruh Pengguna RAM, ruang kerja, dan Kunci API di bawah akun tersebut. Permintaan akan ditolak jika batas terlampaui dan biasanya pulih secara otomatis dalam satu menit.

Aturan pembatasan laju

Account-level rate limiting: Pembatasan laju diterapkan pada tingkat akun root, dengan penggunaan seluruh Pengguna RAM, ruang kerja, dan Kunci API di bawah akun tersebut digabungkan.
Model-specific rate limiting: Setiap model memiliki batas laju tersendiri. Untuk informasi lebih lanjut, lihat tabel di bawah ini.

FAQ

Mengapa pembatasan laju dipicu?

Anda dapat mengidentifikasi jenis pembatasan laju yang dipicu berdasarkan pesan error:

Requests rate limit exceeded atau You exceeded your current requests list: Ini menunjukkan bahwa batas permintaan per menit (RPM) telah terlampaui.
Allocated quota exceeded atau You exceeded your current quota: Ini menunjukkan bahwa batas token per menit (TPM) telah terlampaui.
Request rate increased too quickly: Frekuensi permintaan melonjak dalam periode singkat sehingga memicu perlindungan stabilitas sistem. Hal ini dapat terjadi meskipun jumlah total panggilan belum mencapai batas RPM atau TPM.
Untuk error lainnya, lihat Kode error untuk mengonfirmasi penyebabnya.

Selain RPM dan TPM, pembatasan laju juga dapat diterapkan per detik, yaitu permintaan per detik (RPS), yang setara dengan RPM/60, dan token per detik (TPS), yang setara dengan TPM/60. Meskipun jumlah total panggilan per menit tidak melebihi batas, lonjakan permintaan dalam waktu singkat tetap dapat memicu pembatasan laju.

Cara melihat penggunaan model

Satu jam setelah Anda memanggil suatu model, buka halaman Monitoring (Singapura atau Beijing). Tetapkan kondisi kueri, seperti rentang waktu dan ruang kerja. Kemudian, di area Models, temukan model target dan klik Monitor pada kolom Actions untuk melihat statistik pemanggilan model tersebut. Untuk informasi lebih lanjut, lihat dokumen Monitoring.

Data diperbarui setiap jam. Selama periode puncak, mungkin terjadi latensi hingga satu jam.

Berapa lama waktu pemulihan dari pembatasan laju?

Pemulihan biasanya terjadi dalam waktu satu menit. Jika terjadi error lain, lihat Kode error untuk troubleshooting.

Cara menghindari pembatasan laju

Pilih model dengan batas laju lebih tinggi: Versi stabil atau versi terbaru memiliki batas laju yang lebih tinggi dibandingkan versi snapshot lama.
Optimalkan strategi pemanggilan Anda
- Kurangi frekuensi pemanggilan: Jika Anda menerima error Requests rate limit exceeded atau You exceeded your current requests list, turunkan frekuensi pemanggilan API.
- Kurangi konsumsi token: Jika Anda menerima error Allocated quota exceeded atau You exceeded your current quota, perpendek input atau batasi panjang output.
- Ratakan laju permintaan: Jika Anda menerima error Request rate increased too quickly, gunakan penjadwalan seragam, exponential backoff, atau antrian permintaan untuk mendistribusikan permintaan secara merata dan menghindari lonjakan tiba-tiba.

Tambahkan model cadangan

Jika pembatasan laju dipicu, Anda dapat beralih ke model cadangan untuk melanjutkan generasi. Hal ini dapat mengurangi kemungkinan kegagalan dan meningkatkan throughput. Kode berikut secara otomatis mencoba ulang dengan qwen-plus-2025-07-14 setelah pembatasan laju dipicu untuk qwen-plus-2025-07-28.

Contoh kode

import os
import asyncio
from openai import AsyncOpenAI, APIStatusError

# Konfigurasi
API_KEY = os.getenv("DASHSCOPE_API_KEY")
# Model utama
MODEL = "qwen-plus-2025-07-28"
# Model cadangan
BACKUP_MODEL = "qwen-plus-2025-07-14"
# Pertanyaan uji
QUESTION = "Who are you?"
# Pengaturan konkurensi
NUM_REQUESTS = 10

client = AsyncOpenAI(
    api_key=API_KEY,
    # Saat memanggil, ganti {WorkspaceId} dengan ID ruang kerja aktual Anda.
    base_url="https://{WorkspaceId}.ap-southeast-1.maas.aliyuncs.com/compatible-mode/v1"
)

async def send_request(model):
    """Mengirim satu permintaan."""
    try:
        await client.chat.completions.create(
            model=model,
            messages=[{"role": "user", "content": QUESTION}]
        )
        return True
    except APIStatusError as e:
        if e.status_code == 429:
            print(f"[Pembatasan laju dipicu] Model {model}")
            return False
        raise
    except Exception as e:
        print(f"[Permintaan gagal] Model {model}, Error: {e}")
        return False

async def task(i):
    # Coba model utama.
    if await send_request(MODEL):
        return True
    # Jika terkena pembatasan laju, coba model cadangan.
    return await send_request(BACKUP_MODEL)

async def main():
    results = await asyncio.gather(*(task(i) for i in range(NUM_REQUESTS)))
    print(f"Permintaan berhasil: {sum(results)}, Permintaan gagal: {len(results) - sum(results)}")

if __name__ == "__main__":
    asyncio.run(main())

Pisahkan tugas: Percakapan panjang atau dokumen besar dapat menghabiskan banyak token dengan cepat. Anda dapat membagi tugas batch besar menjadi batch yang lebih kecil dan mengirimkannya pada waktu berbeda.
Gunakan inferensi batch: Untuk tugas yang tidak memerlukan tanggapan real-time, Anda dapat menggunakan Batch API. Permintaan batch tidak tunduk pada batas laju real-time, tetapi Anda harus mempertimbangkan antrian dan waktu pemrosesan.
Tingkatkan batas laju: Jika batas laju default tidak mencukupi, Anda dapat meningkatkan kuota TPM sementara untuk suatu model di halaman Increase Rate Limits pada Konsol Model Studio. Peningkatan berlaku segera. Untuk informasi lebih lanjut, lihat Tingkatkan batas laju sementara.

Cara mengontrol penggunaan token atau biaya

Pembatasan laju hanya membatasi laju permintaan per satuan waktu; tidak membatasi penggunaan kumulatif. Untuk mengontrol penggunaan token atau biaya, gunakan metode berikut:

Tetapkan batas pengeluaran dan notifikasi biaya: Pada kartu Billing, konfigurasikan Cost alerts untuk mengaktifkan batas pengeluaran bulanan dan notifikasi ambang batas. Anda akan diberi tahu saat ambang batas tercapai, sehingga membantu menghindari pengeluaran berlebih. Untuk informasi lebih lanjut, lihat Kueri tagihan dan kelola biaya.
Aktifkan berhenti saat kuota gratis habis: Untuk model yang menyediakan kuota gratis, Anda dapat mengaktifkan opsi stop when the free quota is used up agar pemanggilan berhenti secara otomatis setelah kuota gratis habis, sehingga mencegah biaya tambahan. Untuk informasi lebih lanjut, lihat Kuota gratis.
Monitor penggunaan model: Periksa secara berkala penggunaan token setiap model untuk mendeteksi pertumbuhan abnormal tepat waktu. Lihat Cara melihat penggunaan model di atas.

Tingkatkan batas laju sementara

Jika batas laju default tidak mencukupi, Anda dapat meningkatkan kuota TPM sementara suatu model di Konsol Model Studio. Peningkatan tersebut berlaku serta-merta dan valid selama 30 hari. Setelah periode validitas berakhir, kuota akan secara otomatis kembali ke nilai default sistem.

Fitur ini saat ini tersedia di Wilayah China (Beijing) dan Singapura.

Masuk ke Konsol Model Studio dan buka halaman Increase Rate Limits.
Klik Increase Temporary Model Rate Limit di pojok kanan atas.
Pada kotak dialog yang muncul, pilih Model dan masukkan nilai yang diinginkan untuk Token Account Limit (Tokens/60s). Kotak dialog menampilkan kuota saat ini dan batas maksimum yang dapat dikonfigurasi.
Klik OK. Kuota yang ditingkatkan berlaku serta-merta.

Setelah peningkatan kuota berlaku, Anda dapat memverifikasinya dengan cara berikut:

Di halaman Increase Rate Limits, lihat daftar model dengan kuota yang telah ditingkatkan beserta data batas lajunya.
Di Model List, buka halaman detail model yang sesuai untuk melihat data batas laju terbaru.

Catatan

Daftar model yang dapat ditingkatkan kuotanya secara sementara ditampilkan dalam kotak dialog di halaman Increase Rate Limits.
Mengajukan permintaan baru untuk model yang sudah memiliki kuota ditingkatkan dianggap sebagai aplikasi baru, dan periode validitasnya diatur ulang menjadi 30 hari.
Ajukan kuota sesuai kebutuhan aktual Anda. Jika kapasitas yang dialokasikan jauh melebihi penggunaan aktual dalam jangka waktu lama, sistem dapat mengembalikannya ke nilai default setelah memberikan Notifikasi terlebih dahulu.

Generasi teks - Qwen

Model bahasa Qwen

Singapura

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded) Batas berikut berlaku per menit. Layanan juga dapat menerapkan batas berdasarkan permintaan per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60).
Model name	Service deployment scope	Requests per minute (RPM)	Tokens per minute (TPM) Termasuk token input dan output.
qwen3.7-max	International	600	1.000.000
qwen3.7-max-2026-06-08	International	60	1.000.000
qwen3.7-max-2026-05-20	International	60	1.000.000
qwen3.7-max-preview	International	600	1.000.000
qwen3.7-max-2026-05-17	International	600	1.000.000
qwen3.6-max-preview	International	600	1.000.000
qwen3-max	International	600	1.000.000
qwen3-max-2026-01-23	International	600	1.000.000
qwen3-max-2025-09-23	International	60	100.000
qwen3-max-preview	International	600	1.000.000
qwen-max Pembatasan laju tidak berlaku untuk panggilan layanan yang menggunakan Batch API.	International	600	1.000.000
qwen3.7-plus	International	15.000	5.000.000
qwen3.7-plus-2026-05-26	International	60	1.000.000
qwen3.6-plus	International	15.000	5.000.000
qwen3.6-plus-2026-04-02	International	60	1.000.000
qwen3.6-flash	International	15.000	5.000.000
qwen3.6-flash-2026-04-16	International	60	1.000.000
qwen3.5-plus	International	15.000	6.000.000
qwen3.5-plus-2026-04-20	International	600	1.000.000
qwen3.5-plus-2026-02-15	International	60	1.000.000
qwen-plus Pembatasan laju tidak berlaku untuk panggilan layanan yang menggunakan Batch API.	International	600	1.500.000
qwen-plus-latest	International	600	1.000.000
qwen-plus-2025-12-01	International	120	1.000.000
qwen-plus-2025-09-11	International	120	1.000.000
qwen-plus-2025-07-28	International	60	100.000
qwen-plus-2025-07-14 (qwen-plus-0714)	International	60	100.000
qwen-plus-2025-04-28 (qwen-plus-0428)	International	60	1.000.000
qwen-plus-2025-01-25 (qwen-plus-0125)	International	60	100.000
qwen3.5-flash	International	15.000	5.000.000
qwen3.5-flash-2026-02-23	International	60	1.000.000
qwen-flash Pembatasan laju tidak berlaku untuk panggilan layanan yang menggunakan Batch API.	International	600	5.000.000
qwen-flash-2025-07-28	International	600	5.000.000
qwq-plus	International	60	100.000
qwen-turbo Pembatasan laju tidak berlaku untuk panggilan layanan yang menggunakan Batch API.	International	600	5.000.000

AS (Virginia)

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded) Batas berikut berlaku per menit. Layanan juga dapat menerapkan batas berdasarkan permintaan per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60).
Model name	Service deployment scope	Requests per minute (RPM)	Tokens per minute (TPM) Termasuk token input dan output.
qwen3.7-max	Global	30.000	5.000.000
qwen3.7-max-us	US	600	1.000.000
qwen3.7-max-2026-06-08	Global	600	1.000.000
qwen3.7-max-2026-05-20	Global	600	1.000.000
qwen3-max	Global	600	1.000.000
qwen3-max-preview	Global	600	1.000.000
qwen3-max-2025-09-23	Global	60	100.000
qwen3.7-plus	Global	30.000	5.000.000
qwen3.7-plus-us	US	15.000	5.000.000
qwen3.7-plus-2026-05-26	Global	600	1.000.000
qwen3.6-plus	Global	30.000	5.000.000
qwen3.6-plus-2026-04-02	Global	600	1.000.000
qwen3.6-flash	Global	15.000	5.000.000
qwen3.6-flash-2026-04-16	Global	60	1.000.000
qwen3.5-plus	Global	30.000	5.000.000
qwen3.5-plus-2026-02-15	Global	600	1.000.000
qwen-plus	Global	15.000	5.000.000
qwen-plus-us	US	600	1.000.000
qwen-plus-2025-12-01	Global	60	1.000.000
qwen-plus-2025-09-11	Global	60	1.000.000
qwen-plus-2025-07-28	Global	60	1.000.000
qwen-plus-2025-12-01-us	US	60	1.000.000
qwen3.5-flash	Global	30.000	10.000.000
qwen3.5-flash-2026-02-23	Global	600	1.000.000
qwen-flash	Global	15.000	10.000.000
qwen-flash-us	US	600	5.000.000
qwen-flash-2025-07-28	Global	60	1.000.000
qwen-flash-2025-07-28-us	US	600	5.000.000

Tiongkok (Beijing)

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded) Batas berikut berlaku per menit. Layanan juga dapat menerapkan batas berdasarkan permintaan per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60).
Model name	Service deployment scope	Requests per minute (RPM)	Tokens per minute (TPM) Termasuk token input dan output.
qwen3.7-max Pembatasan laju tidak berlaku untuk panggilan layanan yang menggunakan Batch API.	The Chinese mainland	30.000	5.000.000
qwen3.7-max-2026-06-08	The Chinese mainland	600	1.000.000
qwen3.7-max-2026-05-20	The Chinese mainland	600	1.000.000
qwen3.6-max-preview	The Chinese mainland	600	1.000.000
qwen3-max Pembatasan laju tidak berlaku untuk panggilan layanan yang menggunakan Batch API.	The Chinese mainland	30.000	5.000.000
qwen3-max-2026-01-23	The Chinese mainland	600	1.000.000
qwen3-max-2025-09-23	The Chinese mainland	60	100.000
qwen3-max-preview	The Chinese mainland	600	1.000.000
qwen-max Pembatasan laju tidak berlaku untuk panggilan layanan yang menggunakan Batch API.	The Chinese mainland	1.200	1.000.000
qwen3.7-plus	The Chinese mainland	30.000	5.000.000
qwen3.7-plus-2026-05-26	The Chinese mainland	600	1.000.000
qwen3.6-plus Pembatasan laju tidak berlaku untuk panggilan layanan yang menggunakan Batch API.	The Chinese mainland	30.000	5.000.000
qwen3.6-plus-2026-04-02	The Chinese mainland	600	1.000.000
qwen3.6-flash Pembatasan laju tidak berlaku untuk panggilan layanan yang menggunakan Batch API.	The Chinese mainland	30.000	10.000.000
qwen3.6-flash-2026-04-16	The Chinese mainland	600	1.000.000
qwen3.5-plus Pembatasan laju tidak berlaku untuk panggilan layanan yang menggunakan Batch API.	The Chinese mainland	30.000	5.000.000
qwen3.5-plus-2026-04-20	The Chinese mainland	600	1.000.000
qwen3.5-plus-2026-02-15	The Chinese mainland	600	1.000.000
qwen-plus Pembatasan laju tidak berlaku untuk panggilan layanan yang menggunakan Batch API.	The Chinese mainland	30.000	5.000.000
qwen-plus-latest Pembatasan laju tidak berlaku untuk panggilan layanan yang menggunakan Batch API.	The Chinese mainland	15.000	1.200.000
qwen-plus-2025-12-01	The Chinese mainland	120	1.000.000
qwen-plus-2025-09-11	The Chinese mainland	60	1.000.000
qwen-plus-2025-07-28 (qwen-plus-0728)	The Chinese mainland	60	1.000.000
qwen-plus-2025-07-14 (qwen-plus-0714)	The Chinese mainland	60	100.000
qwen-plus-2025-04-28 (qwen-plus-0428)	The Chinese mainland	60	1.000.000
qwen-plus-2025-01-25 (qwen-plus-0125)	The Chinese mainland	60	150.000
qwen-plus-2025-01-12 (qwen-plus-0112)	The Chinese mainland	60	150.000
qwen-plus-2024-12-20 (qwen-plus-1220)	The Chinese mainland	60	150.000
qwen3.5-flash Pembatasan laju tidak berlaku untuk panggilan layanan yang menggunakan Batch API.	The Chinese mainland	30.000	10.000.000
qwen3.5-flash-2026-02-23	The Chinese mainland	600	1.000.000
qwen-flash Pembatasan laju tidak berlaku untuk panggilan layanan yang menggunakan Batch API.	The Chinese mainland	30.000	10.000.000
qwen-flash-2025-07-28	The Chinese mainland	60	1.000.000
qwq-plus Pembatasan laju tidak berlaku untuk panggilan layanan yang menggunakan Batch API.	The Chinese mainland	600	1.000.000
qwen-turbo	The Chinese mainland	1.200	5.000.000
qwen-long-latest Pembatasan laju tidak berlaku untuk panggilan layanan yang menggunakan Batch API.	The Chinese mainland	1.200	60.000
qwen-long-2025-01-25 (qwen-long-0125)	The Chinese mainland	3	7.500

Jerman (Frankfurt)

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded) Batas berikut berlaku per menit. Layanan juga dapat menerapkan batas berdasarkan permintaan per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60).
Model name	Service deployment scope	Requests per minute (RPM)	Tokens per minute (TPM) Termasuk token input dan output.
qwen3.7-max	Global	30.000	5.000.000
qwen3.7-max-2026-06-08	Global	600	1.000.000
qwen3.7-max-2026-05-20	Global	600	1.000.000
qwen3-max	Global	600	1.000.000
qwen3-max	EU	600	1.000.000
qwen3-max-preview	Global	600	1.000.000
qwen3-max-2026-01-23	EU	600	1.000.000
qwen3-max-2025-09-23	Global	60	100.000
qwen3.7-plus	Global	30.000	5.000.000
qwen3.7-plus-2026-05-26	Global	600	1.000.000
qwen3.6-plus	Global	30.000	5.000.000
qwen3.6-plus-2026-04-02	Global	600	1.000.000
qwen3.6-flash	Global	15.000	5.000.000
qwen3.6-flash-2026-04-16	Global	60	1.000.000
qwen3.5-plus	Global	30.000	5.000.000
qwen3.5-plus-2026-02-15	Global	600	1.000.000
qwen-plus	Global	15.000	5.000.000
qwen-plus	EU	600	1.000.000
qwen-plus-2025-12-01	Global	60	1.000.000
qwen-plus-2025-12-01	EU	120	1.000.000
qwen-plus-2025-09-11	Global	60	1.000.000
qwen-plus-2025-07-28	Global	60	1.000.000
qwen3.5-flash	Global	30.000	10.000.000
qwen3.5-flash	EU	30.000	10.000.000
qwen3.5-flash-2026-02-23	Global	600	1.000.000
qwen3.5-flash-2026-02-23	EU	600	1.000.000
qwen-flash	Global	15.000	10.000.000
qwen-flash-2025-07-28	Global	60	1.000.000

Hong Kong (Tiongkok)

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded) Batas berikut berlaku per menit. Layanan juga dapat menerapkan batas berdasarkan permintaan per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60).
Model name	Service deployment scope	Requests per minute (RPM)	Tokens per minute (TPM) Termasuk token input dan output.
qwen3-max	Hong Kong (China)	600	1.000.000
qwen3-max-2026-01-23	Hong Kong (China)	600	1.000.000
qwen3.6-plus	Global	30.000	5.000.000
qwen3.6-flash	Global	15.000	5.000.000
qwen-plus	Hong Kong (China)	600	1.000.000
qwen-plus-2025-12-01	Hong Kong (China)	120	1.000.000
qwen3.5-flash	Hong Kong (China)	15.000	5.000.000
qwen3.5-flash-2026-02-23	Hong Kong (China)	60	1.000.000

Jepang (Tokyo)

Model name	Service deployment scope	Kondisi batas laju (pembatasan laju dipicu ketika nilai apa pun terlampaui) Berikut adalah batas laju per menit. Layanan juga dapat menerapkan batas per detik pada RPS (RPM/60) dan TPS (TPM/60)
Model name	Service deployment scope	Requests per minute (RPM)	Tokens per minute (TPM) Termasuk token input dan output
qwen3.7-max	Global	30.000	5.000.000
qwen3.7-max-2026-05-20	Global	600	1.000.000
qwen3.7-plus	Global	30.000	5.000.000
qwen3.7-plus-2026-05-26	Global	600	1.000.000
qwen3.7-plus	Japan	15.000	5.000.000
qwen3.7-plus-2026-05-26	Japan	60	1.000.000
qwen3.6-plus	Global	30.000	5.000.000
qwen3.6-plus-2026-04-02	Global	600	1.000.000
qwen3.6-flash	Global	15.000	5.000.000
qwen3.6-flash-2026-04-16	Global	60	1.000.000

Qwen-VL (pemahaman visual/gambar-ke-teks)

Singapura

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded) Batas berikut berlaku per menit. Layanan juga dapat menerapkan batas berdasarkan permintaan per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60).
Model name	Service deployment scope	Requests per minute (RPM)	Tokens per minute (TPM) Termasuk token input dan output.
qwen3-vl-plus	International	1.200	1.000.000
qwen3-vl-plus-2025-12-19	International	60	100.000
qwen3-vl-plus-2025-09-23	International	120	1.000.000
qwen3-vl-flash	International	1.200	1.000.000
qwen3-vl-flash-2026-01-22	International	60	100.000
qwen3-vl-flash-2025-10-15	International	120	1.000.000
qwen-vl-max	International	1.200	1.000.000
qwen-vl-plus	International	1.200	1.000.000
qvq-max	International	60	100.000

AS (Virginia)

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded) Batas berikut berlaku per menit. Layanan juga dapat menerapkan batas berdasarkan permintaan per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60).
Model name	Service deployment scope	Requests per minute (RPM)	Tokens per minute (TPM) Termasuk token input dan output.
qwen3-vl-plus	Global	1.200	1.000.000
qwen3-vl-plus-2025-09-23	Global	60	100.000
qwen3-vl-flash	Global	1.200	1.000.000
qwen3-vl-flash-us	US	1.200	1.000.000
qwen3-vl-flash-2025-10-15	Global	60	100.000
qwen3-vl-flash-2026-01-22-us	US	120	1.000.000
qwen3-vl-flash-2025-10-15-us	US	120	1.000.000

Tiongkok (Beijing)

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded) Batas berikut berlaku per menit. Layanan juga dapat menerapkan batas berdasarkan permintaan per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60).
Model name	Service deployment scope	Requests per minute (RPM)	Tokens per minute (TPM) Termasuk token input dan output.
qwen3-vl-plus Pembatasan laju tidak berlaku untuk panggilan layanan yang menggunakan Batch API.	The Chinese mainland	3.000	5.000.000
qwen3-vl-plus-2025-12-19	The Chinese mainland	60	100.000
qwen3-vl-plus-2025-09-23	The Chinese mainland	60	100.000
qwen3-vl-flash Pembatasan laju tidak berlaku untuk panggilan layanan yang menggunakan Batch API.	The Chinese mainland	3.000	5.000.000
qwen3-vl-flash-2026-01-22	The Chinese mainland	60	100.000
qwen3-vl-flash-2025-10-15	The Chinese mainland	60	100.000
qwen-vl-max Pembatasan laju tidak berlaku untuk panggilan layanan yang menggunakan Batch API.	The Chinese mainland	1.200	1.000.000
qwen-vl-plus Pembatasan laju tidak berlaku untuk panggilan layanan yang menggunakan Batch API.	The Chinese mainland	1.200	1.000.000
qvq-max	The Chinese mainland	60	100.000
qvq-plus	The Chinese mainland	60	100.000

Jerman (Frankfurt)

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded) Batas berikut berlaku per menit. Layanan juga dapat menerapkan batas berdasarkan permintaan per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60).
Model name	Service deployment scope	Requests per minute (RPM)	Tokens per minute (TPM) Termasuk token input dan output.
qwen3-vl-plus	Global	1.200	1.000.000
qwen3-vl-plus	EU	1.200	1.000.000
qwen3-vl-plus-2025-09-23	Global	60	100.000
qwen3-vl-flash	Global	1.200	1.000.000
qwen3-vl-flash	EU	1.200	1.000.000
qwen3-vl-flash-2026-01-22	EU	60	100.000
qwen3-vl-flash-2025-10-15	Global	60	100.000
qwen3-vl-flash-2025-10-15	EU	60	100.000

Hong Kong (Tiongkok)

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded) Batas berikut berlaku per menit. Layanan juga dapat menerapkan batas berdasarkan permintaan per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60).
Model name	Service deployment scope	Requests per minute (RPM)	Tokens per minute (TPM) Termasuk token input dan output.
qwen3-vl-plus	Hong Kong (China)	1.200	1.000.000
qwen3-vl-plus-2025-12-19	Hong Kong (China)	60	100.000

Qwen-Omni (omni-modal)

Singapura

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded) Batas berikut berlaku per menit. Layanan juga dapat menerapkan batas berdasarkan permintaan per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60).
Model name	Service deployment scope	Requests per minute (RPM)	Tokens per minute (TPM) Termasuk token input dan output.
qwen3.5-omni-flash	International	60	100.000
qwen3.5-omni-flash-2026-03-15	International	60	100.000
qwen3.5-omni-plus	International	60	100.000
qwen3.5-omni-plus-2026-03-15	International	60	100.000
qwen3-omni-flash	International	60	100.000
qwen3-omni-flash-2025-12-01	International	60	100.000
qwen3-omni-flash-2025-09-15	International	60	100.000
qwen-omni-turbo	International	60	100.000
qwen-omni-turbo-latest	International	60	100.000
qwen-omni-turbo-2025-03-26	International	60	100.000

Tiongkok (Beijing)

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded) Batas berikut berlaku per menit. Layanan juga dapat menerapkan batas berdasarkan permintaan per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60).
Model name	Service deployment scope	Requests per minute (RPM)	Tokens per minute (TPM) Termasuk token input dan output.
qwen3.5-omni-flash	The Chinese mainland	60	100.000
qwen3.5-omni-flash-2026-03-15	The Chinese mainland	60	100.000
qwen3.5-omni-plus	The Chinese mainland	60	100.000
qwen3.5-omni-plus-2026-03-15	The Chinese mainland	60	100.000
qwen3-omni-flash	The Chinese mainland	60	100.000
qwen3-omni-flash-2025-12-01	The Chinese mainland	60	100.000
qwen3-omni-flash-2025-09-15	The Chinese mainland	60	100.000
qwen-omni-turbo	The Chinese mainland	60	100.000
qwen-omni-turbo-latest	The Chinese mainland	60	100.000
qwen-omni-turbo-2025-03-26 (qwen-omni-turbo-0326)	The Chinese mainland	60	100.000
qwen-omni-turbo-2025-01-19 (qwen-omni-turbo-0119)	The Chinese mainland	60	100.000

Qwen-Omni-Realtime (multimodal real-time)

Singapura

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded) Batas berikut berlaku per menit. Layanan juga dapat menerapkan batas berdasarkan permintaan per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60).
Model name	Service deployment scope	Requests per minute (RPM)	Tokens per minute (TPM) Termasuk token input dan output.
qwen3.5-omni-plus-realtime	International	60	100.000
qwen3.5-omni-plus-realtime-2026-03-15	International	60	100.000
qwen3.5-omni-flash-realtime	International	60	100.000
qwen3.5-omni-flash-realtime-2026-03-15	International	60	100.000
qwen3-omni-flash-realtime	International	60	100.000
qwen3-omni-flash-realtime-2025-12-01	International	60	100.000
qwen3-omni-flash-realtime-2025-09-15	International	60	100.000
qwen-omni-turbo-realtime	International	60	10.000
qwen-omni-turbo-realtime-latest	International	60	10.000
qwen-omni-turbo-realtime-2025-05-08	International	60	10.000

Tiongkok (Beijing)

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded) Batas berikut berlaku per menit. Layanan juga dapat menerapkan batas berdasarkan permintaan per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60).
Model name	Service deployment scope	Requests per minute (RPM)	Tokens per minute (TPM) Termasuk token input dan output.
qwen3.5-omni-plus-realtime	The Chinese mainland	60	100.000
qwen3.5-omni-plus-realtime-2026-03-15	The Chinese mainland	60	100.000
qwen3.5-omni-flash-realtime	The Chinese mainland	60	100.000
qwen3.5-omni-flash-realtime-2026-03-15	The Chinese mainland	60	100.000
qwen3-omni-flash-realtime	The Chinese mainland	60	100.000
qwen3-omni-flash-realtime-2025-12-01	The Chinese mainland	60	100.000
qwen3-omni-flash-realtime-2025-09-15	The Chinese mainland	60	100.000
qwen-omni-turbo-realtime	The Chinese mainland	60	100.000
qwen-omni-turbo-realtime-latest	The Chinese mainland	60	100.000
qwen-omni-turbo-realtime-2025-05-08	The Chinese mainland	60	100.000

Qwen-OCR (ekstraksi teks)

Singapura

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded) Batas berikut berlaku per menit. Layanan juga dapat menerapkan batas berdasarkan permintaan per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60).
Model name	Service deployment scope	Requests per minute (RPM)	Tokens per minute (TPM) Termasuk token input dan output.
qwen-vl-ocr	International	600	6.000.000
qwen-vl-ocr-2025-11-20	International	1.200	6.000.000

AS (Virginia)

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded) Batas berikut berlaku per menit. Layanan juga dapat menerapkan batas berdasarkan permintaan per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60).
Model name	Service deployment scope	Requests per minute (RPM)	Tokens per minute (TPM) Termasuk token input dan output.
qwen-vl-ocr	Global	600	6.000.000
qwen-vl-ocr-2025-11-20	Global	1.200	6.000.000

Tiongkok (Beijing)

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded) Batas berikut berlaku per menit. Layanan juga dapat menerapkan batas berdasarkan permintaan per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60).
Model name	Service deployment scope	Requests per minute (RPM)	Tokens per minute (TPM) Termasuk token input dan output.
qwen3.5-ocr	The Chinese mainland	6.000	30.000.000
qwen-vl-ocr Pembatasan laju tidak berlaku untuk panggilan layanan yang menggunakan Batch API.	The Chinese mainland	600	6.000.000
qwen-vl-ocr-latest	The Chinese mainland	1.200	6.000.000
qwen-vl-ocr-2025-11-20	The Chinese mainland	1.200	6.000.000
qwen-vl-ocr-2025-04-13	The Chinese mainland	600	6.000.000
qwen-vl-ocr-2024-10-28	The Chinese mainland	600	6.000.000

Jerman (Frankfurt)

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded) Batas berikut berlaku per menit. Layanan juga dapat menerapkan batas berdasarkan permintaan per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60).
Model name	Service deployment scope	Requests per minute (RPM)	Tokens per minute (TPM) Termasuk token input dan output.
qwen-vl-ocr	Global	600	6.000.000
qwen-vl-ocr-2025-11-20	Global	1.200	6.000.000

Model matematika Qwen

Tiongkok (Beijing)

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded) Batas berikut berlaku per menit. Layanan juga dapat menerapkan batas berdasarkan permintaan per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60).
Model name	Service deployment scope	Requests per minute (RPM)	Tokens per minute (TPM) Termasuk token input dan output.
qwen-math-plus	The Chinese mainland	1.200	1.000.000
qwen-math-plus-latest	The Chinese mainland	1.200	1.000.000
qwen-math-plus-2024-09-19 (qwen-math-plus-0919)	The Chinese mainland	60	100.000
qwen-math-plus-2024-08-16 (qwen-math-plus-0816)	The Chinese mainland	10	20.000
qwen-math-turbo	The Chinese mainland	1200	1.000.000

Qwen-Coder

Singapura

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded) Batas berikut berlaku per menit. Layanan juga dapat menerapkan batas berdasarkan permintaan per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60).
Model name	Service deployment scope	Requests per minute (RPM)	Tokens per minute (TPM) Termasuk token input dan output.
qwen3-coder-plus	International	2.400	2.000.000
qwen3-coder-plus-2025-09-23	International	600	1.000.000
qwen3-coder-plus-2025-07-22	International	60	1.000.000
qwen3-coder-flash	International	600	5.000.000
qwen3-coder-flash-2025-07-28	International	600	5.000.000

AS (Virginia)

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded) Batas berikut berlaku per menit. Layanan juga dapat menerapkan batas berdasarkan permintaan per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60).
Model name	Service deployment scope	Requests per minute (RPM)	Tokens per minute (TPM) Termasuk token input dan output.
qwen3-coder-plus	Global	2.400	2.000.000
qwen3-coder-plus-2025-09-23	Global	60	1.000.000
qwen3-coder-plus-2025-07-22	Global	60	1.000.000
qwen3-coder-flash	Global	1.200	1.000.000
qwen3-coder-flash-2025-07-28	Global	60	1.000.000

Tiongkok (Beijing)

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded) Batas berikut berlaku per menit. Layanan juga dapat menerapkan batas berdasarkan permintaan per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60).
Model name	Service deployment scope	Requests per minute (RPM)	Tokens per minute (TPM) Termasuk token input dan output.
qwen3-coder-plus	The Chinese mainland	5.000	5.000.000
qwen3-coder-plus-2025-09-23	The Chinese mainland	60	1.000.000
qwen3-coder-plus-2025-07-22	The Chinese mainland	60	1.000.000
qwen3-coder-flash	The Chinese mainland	5.000	5.000.000
qwen3-coder-flash-2025-07-28	The Chinese mainland	60	1.000.000
qwen-coder-plus	The Chinese mainland	1.200	1.000.000
qwen-coder-turbo	The Chinese mainland	1.200	1.000.000

Jerman (Frankfurt)

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded) Batas berikut berlaku per menit. Layanan juga dapat menerapkan batas berdasarkan permintaan per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60).
Model name	Service deployment scope	Requests per minute (RPM)	Tokens per minute (TPM) Termasuk token input dan output.
qwen3-coder-plus	Global	2.400	2.000.000
qwen3-coder-plus-2025-09-23	Global	60	1.000.000
qwen3-coder-plus-2025-07-22	Global	60	1.000.000
qwen3-coder-flash	Global	1.200	1.000.000
qwen3-coder-flash-2025-07-28	Global	60	1.000.000

Model terjemahan Qwen

Singapura

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded) Batas berikut berlaku per menit. Layanan juga dapat menerapkan batas berdasarkan permintaan per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60).
Model name	Service deployment scope	Requests per minute (RPM)	Tokens per minute (TPM) Termasuk token input dan output.
qwen-mt-plus	International	60	100.000
qwen-mt-flash	International	60	100.000
qwen-mt-lite	International	60	100.000
qwen-mt-turbo	International	60	100.000

AS (Virginia)

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded) Batas berikut berlaku per menit. Layanan juga dapat menerapkan batas berdasarkan permintaan per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60).
Model name	Service deployment scope	Requests per minute (RPM)	Tokens per minute (TPM) Termasuk token input dan output.
qwen-mt-plus	Global	60	25.000
qwen-mt-flash	Global	60	35.000
qwen-mt-lite	Global	60	100.000
qwen-mt-lite-us	US	60	100.000

Tiongkok (Beijing)

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded) Batas berikut berlaku per menit. Layanan juga dapat menerapkan batas berdasarkan permintaan per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60).
Model name	Service deployment scope	Requests per minute (RPM)	Tokens per minute (TPM) Termasuk token input dan output.
qwen-mt-plus	The Chinese mainland	60	25.000
qwen-mt-flash	The Chinese mainland	60	35.000
qwen-mt-lite	The Chinese mainland	60	100.000
qwen-mt-turbo	The Chinese mainland	60	35.000

Jerman (Frankfurt)

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded) Batas berikut berlaku per menit. Layanan juga dapat menerapkan batas berdasarkan permintaan per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60).
Model name	Service deployment scope	Requests per minute (RPM)	Tokens per minute (TPM) Termasuk token input dan output.
qwen-mt-plus	Global	60	25.000
qwen-mt-flash	Global	60	35.000
qwen-mt-lite	Global	60	100.000

Model penambangan data Qwen

Tiongkok (Beijing)

Model name

Service deployment scope

Rate limiting conditions (triggered if any value is exceeded)

Batas berikut berlaku per menit. Layanan juga dapat menerapkan batas berdasarkan permintaan per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60).

Requests per minute (RPM)

Tokens per minute (TPM)

Termasuk token input dan output.

qwen-doc-turbo

The Chinese mainland

600

3.000.000

Model riset mendalam Qwen

Tiongkok (Beijing)

Model name

Service deployment scope

Rate limiting conditions (triggered if any value is exceeded)

Batas berikut berlaku per menit. Layanan juga dapat menerapkan batas berdasarkan permintaan per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60).

Requests per minute (RPM)

Tokens per minute (TPM)

Termasuk token input dan output.

qwen-deep-research

The Chinese mainland

120

1.200.000

Generasi teks - Qwen - Sumber terbuka

Model bahasa Qwen sumber terbuka

Singapura

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded) Batas berikut berlaku per menit. Layanan juga dapat menerapkan batas berdasarkan jumlah permintaan per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60).
Model name	Service deployment scope	Requests per minute (RPM)	Tokens per minute (TPM) Mencakup token input dan output.
qwen3.6-35b-a3b	International	600	1.000.000
qwen3.6-27b	International	600	1.000.000
qwen3.5-397b-a17b	International	600	1.000.000
qwen3.5-122b-a10b	International	600	1.000.000
qwen3.5-27b	International	600	1.000.000
qwen3.5-35b-a3b	International	600	5.000.000
qwen3-next-80b-a3b-thinking	International	600	1.000.000
qwen3-next-80b-a3b-instruct	International	600	1.000.000
qwen3-235b-a22b-thinking-2507	International	600	1.000.000
qwen3-235b-a22b-instruct-2507	International	600	1.000.000
qwen3-30b-a3b-thinking-2507	International	600	5.000.000
qwen3-30b-a3b-instruct-2507	International	600	5.000.000
qwen3-235b-a22b	International	600	1.000.000
qwen3-32b	International	600	1.000.000
qwen3-30b-a3b	International	600	1.000.000
qwen3-14b	International	600	1.000.000
qwen3-8b	International	600	1.000.000
qwen3-4b	International	600	1.000.000
qwen3-1.7b	International	600	1.000.000
qwen3-0.6b	International	600	1.000.000

AS (Virginia)

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded) Batas berikut berlaku per menit. Layanan juga dapat menerapkan batas berdasarkan jumlah permintaan per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60).
Model name	Service deployment scope	Requests per minute (RPM)	Tokens per minute (TPM) Mencakup token input dan output.
qwen3.5-397b-a17b	Global	600	1.000.000
qwen3.5-122b-a10b	Global	600	1.000.000
qwen3.5-27b	Global	600	1.000.000
qwen3.6-35b-a3b	Global	600	1.000.000
qwen3.5-35b-a3b	Global	600	1.000.000
qwen3-next-80b-a3b-thinking	Global	600	1.000.000
qwen3-next-80b-a3b-instruct	Global	600	1.000.000
qwen3-235b-a22b-thinking-2507	Global	600	1.000.000
qwen3-235b-a22b-instruct-2507	Global	600	1.000.000
qwen3-30b-a3b-thinking-2507	Global	600	1.000.000
qwen3-30b-a3b-instruct-2507	Global	600	1.000.000
qwen3-235b-a22b	Global	600	1.000.000
qwen3-30b-a3b	Global	600	1.000.000
qwen3-32b	Global	600	1.000.000
qwen3-14b	Global	600	1.000.000
qwen3-8b	Global	600	1.000.000

Tiongkok (Beijing)

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded) Batas berikut berlaku per menit. Layanan juga dapat menerapkan batas berdasarkan jumlah permintaan per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60).
Model name	Service deployment scope	Requests per minute (RPM)	Tokens per minute (TPM) Mencakup token input dan output.
qwen3.6-35b-a3b	The Chinese mainland	600	1.000.000
qwen3.6-27b	The Chinese mainland	600	1.000.000
qwen3.5-397b-a17b	The Chinese mainland	600	1.000.000
qwen3.5-122b-a10b	The Chinese mainland	600	1.000.000
qwen3.5-27b	The Chinese mainland	600	1.000.000
qwen3.5-35b-a3b	The Chinese mainland	600	1.000.000
qwen3-next-80b-a3b-thinking	The Chinese mainland	600	1.000.000
qwen3-next-80b-a3b-instruct	The Chinese mainland	600	1.000.000
qwen3-235b-a22b-thinking-2507	The Chinese mainland	600	1.000.000
qwen3-235b-a22b-instruct-2507	The Chinese mainland	600	1.000.000
qwen3-30b-a3b-thinking-2507	The Chinese mainland	600	1.000.000
qwen3-30b-a3b-instruct-2507	The Chinese mainland	600	1.000.000
qwen3-235b-a22b	The Chinese mainland	600	1.000.000
qwen3-30b-a3b	The Chinese mainland	600	1.000.000
qwen3-32b	The Chinese mainland	2400	1.000.000
qwen3-14b	The Chinese mainland	600	1.000.000
qwen3-8b	The Chinese mainland	600	1.000.000
qwen3-4b	The Chinese mainland	600	1.000.000
qwen3-1.7b	The Chinese mainland	600	1.000.000
qwen3-0.6b	The Chinese mainland	600	1.000.000
qwen2.5-3b-instruct	The Chinese mainland	1.200	2.000.000
qwen2.5-1.5b-instruct	The Chinese mainland	1.200	2.000.000
qwen2.5-0.5b-instruct	The Chinese mainland	1.200	2.000.000

Jerman (Frankfurt)

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded) Batas berikut berlaku per menit. Layanan juga dapat menerapkan batas berdasarkan jumlah permintaan per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60).
Model name	Service deployment scope	Requests per minute (RPM)	Tokens per minute (TPM) Mencakup token input dan output.
qwen3.5-397b-a17b	Global	600	1.000.000
qwen3.5-122b-a10b	Global	600	1.000.000
qwen3.5-27b	Global	600	1.000.000
qwen3.6-35b-a3b	Global	600	1.000.000
qwen3.5-35b-a3b	Global	600	1.000.000
qwen3-next-80b-a3b-thinking	Global	600	1.000.000
qwen3-next-80b-a3b-instruct	Global	600	1.000.000
qwen3-235b-a22b-thinking-2507	Global	600	1.000.000
qwen3-235b-a22b-instruct-2507	Global	600	1.000.000
qwen3-30b-a3b-thinking-2507	Global	600	1.000.000
qwen3-30b-a3b-instruct-2507	Global	600	1.000.000
qwen3-235b-a22b	Global	600	1.000.000
qwen3-30b-a3b	Global	600	1.000.000
qwen3-32b	Global	600	1.000.000
qwen3-14b	Global	600	1.000.000
qwen3-8b	Global	600	1.000.000

Qwen-VL (pemahaman visual/gambar-ke-teks)

Singapura

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded) Batas berikut berlaku per menit. Layanan juga dapat menerapkan batas berdasarkan jumlah permintaan per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60).
Model name	Service deployment scope	Requests per minute (RPM)	Tokens per minute (TPM) Mencakup token input dan output.
qwen3-vl-32b-thinking	International	60	100.000
qwen3-vl-32b-instruct	International	60	100.000
qwen3-vl-30b-a3b-thinking	International	60	100.000
qwen3-vl-30b-a3b-instruct	International	60	100.000
qwen3-vl-8b-thinking	International	60	100.000
qwen3-vl-8b-instruct	International	60	100.000
qwen3-vl-235b-a22b-thinking	International	60	100.000
qwen3-vl-235b-a22b-instruct	International	60	100.000

AS (Virginia)

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded) Batas berikut berlaku per menit. Layanan juga dapat menerapkan batas berdasarkan jumlah permintaan per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60).
Model name	Service deployment scope	Requests per minute (RPM)	Tokens per minute (TPM) Mencakup token input dan output.
qwen3-vl-235b-a22b-thinking	Global	60	100.000
qwen3-vl-235b-a22b-instruct	Global	60	100.000
qwen3-vl-32b-thinking	Global	600	1.000.000
qwen3-vl-32b-instruct	Global	600	1.000.000
qwen3-vl-30b-a3b-thinking	Global	600	1.000.000
qwen3-vl-30b-a3b-instruct	Global	600	1.000.000
qwen3-vl-8b-thinking	Global	600	1.000.000
qwen3-vl-8b-instruct	Global	600	1.000.000

Tiongkok (Beijing)

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded) Batas berikut berlaku per menit. Layanan juga dapat menerapkan batas berdasarkan jumlah permintaan per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60).
Model name	Service deployment scope	Requests per minute (RPM)	Tokens per minute (TPM) Mencakup token input dan output.
qwen3-vl-32b-thinking	The Chinese mainland	600	1.000.000
qwen3-vl-32b-instruct	The Chinese mainland	600	1.000.000
qwen3-vl-30b-a3b-thinking	The Chinese mainland	600	1.000.000
qwen3-vl-30b-a3b-instruct	The Chinese mainland	600	1.000.000
qwen3-vl-8b-thinking	The Chinese mainland	600	1.000.000
qwen3-vl-8b-instruct	The Chinese mainland	600	1.000.000
qwen3-vl-235b-a22b-thinking	The Chinese mainland	60	100.000
qwen3-vl-235b-a22b-instruct	The Chinese mainland	60	100.000
qwen2-vl-72b-instruct	The Chinese mainland	1.200	1.000.000
qwen2-vl-7b-instruct	The Chinese mainland	1.200	1.000.000
qwen2-vl-2b-instruct	The Chinese mainland	1.200	1.000.000

Jerman (Frankfurt)

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded) Batas berikut berlaku per menit. Layanan juga dapat menerapkan batas berdasarkan jumlah permintaan per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60).
Model name	Service deployment scope	Requests per minute (RPM)	Tokens per minute (TPM) Mencakup token input dan output.
qwen3-vl-235b-a22b-thinking	Global	60	100.000
qwen3-vl-235b-a22b-instruct	Global	60	100.000
qwen3-vl-32b-thinking	Global	600	1.000.000
qwen3-vl-32b-instruct	Global	600	1.000.000
qwen3-vl-30b-a3b-thinking	Global	600	1.000.000
qwen3-vl-30b-a3b-instruct	Global	600	1.000.000
qwen3-vl-8b-thinking	Global	600	1.000.000
qwen3-vl-8b-instruct	Global	600	1.000.000

Qwen3-Omni

Singapura

Model name

Service deployment scope

Rate limiting conditions (triggered if any value is exceeded)

Batas berikut berlaku per menit. Layanan juga dapat menerapkan batas berdasarkan jumlah permintaan per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60).

Requests per minute (RPM)

Tokens per minute (TPM)

Mencakup token input dan output.

qwen2.5-omni-7b

International

100.000

Tiongkok (Beijing)

Model name

Service deployment scope

Rate limiting conditions (triggered if any value is exceeded)

Batas berikut berlaku per menit. Layanan juga dapat menerapkan batas berdasarkan jumlah permintaan per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60).

Requests per minute (RPM)

Tokens per minute (TPM)

Mencakup token input dan output.

qwen2.5-omni-7b

The Chinese mainland

100.000

Qwen3-Omni-Captioner

Singapura

Model name

Service deployment scope

Rate limiting conditions (triggered if any value is exceeded)

Batas berikut berlaku per menit. Layanan juga dapat menerapkan batas berdasarkan jumlah permintaan per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60).

Requests per minute (RPM)

Tokens per minute (TPM)

Mencakup token input dan output.

qwen3-omni-30b-a3b-captioner

International

100.000

Tiongkok (Beijing)

Model name

Service deployment scope

Rate limiting conditions (triggered if any value is exceeded)

Batas berikut berlaku per menit. Layanan juga dapat menerapkan batas berdasarkan jumlah permintaan per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60).

Requests per minute (RPM)

Tokens per minute (TPM)

Mencakup token input dan output.

qwen3-omni-30b-a3b-captioner

The Chinese mainland

100.000

Qwen-Math

Tiongkok (Beijing)

Model name

Service deployment scope

Rate limiting conditions (triggered if any value is exceeded)

Batas berikut berlaku per menit. Layanan juga dapat menerapkan batas berdasarkan jumlah permintaan per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60).

Requests per minute (RPM)

Tokens per minute (TPM)

Mencakup token input dan output.

Qwen-Coder

Singapura

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded) Batas berikut berlaku per menit. Layanan juga dapat menerapkan batas berdasarkan jumlah permintaan per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60).
Model name	Service deployment scope	Requests per minute (RPM)	Tokens per minute (TPM) Mencakup token input dan output.
qwen3-coder-next	International	600	1.000.000
qwen3-coder-480b-a35b-instruct	International	600	1.000.000
qwen3-coder-30b-a3b-instruct	International	600	1.000.000

AS (Virginia)

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded) Batas berikut berlaku per menit. Layanan juga dapat menerapkan batas berdasarkan jumlah permintaan per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60).
Model name	Service deployment scope	Requests per minute (RPM)	Tokens per minute (TPM) Mencakup token input dan output.
qwen3-coder-480b-a35b-instruct	Global	600	1.000.000
qwen3-coder-30b-a3b-instruct	Global	600	1.000.000

Tiongkok (Beijing)

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded) Batas berikut berlaku per menit. Layanan juga dapat menerapkan batas berdasarkan jumlah permintaan per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60).
Model name	Service deployment scope	Requests per minute (RPM)	Tokens per minute (TPM) Mencakup token input dan output.
qwen3-coder-next	The Chinese mainland	600	1.000.000
qwen3-coder-480b-a35b-instruct	The Chinese mainland	600	1.000.000
qwen3-coder-30b-a3b-instruct	The Chinese mainland	600	1.000.000

Jerman (Frankfurt)

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded) Batas berikut berlaku per menit. Layanan juga dapat menerapkan batas berdasarkan jumlah permintaan per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60).
Model name	Service deployment scope	Requests per minute (RPM)	Tokens per minute (TPM) Mencakup token input dan output.
qwen3-coder-480b-a35b-instruct	Global	600	1.000.000
qwen3-coder-30b-a3b-instruct	Global	600	1.000.000
qwen3-coder-next	EU	600	1.000.000

Text generation - Third-party models

DeepSeek

Singapore

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded) Batas berikut berlaku per menit. Layanan juga dapat memberlakukan batas berdasarkan requests per second (RPS = RPM/60) dan tokens per second (TPS = TPM/60).
Model name	Service deployment scope	Requests per minute (RPM)	Tokens per minute (TPM) Mencakup token input dan output.
deepseek-v4-pro	International	10.000	1.200.000
deepseek-v4-flash	International	10.000	1.200.000
deepseek-v3.2	International	10.000	1.200.000

US (Virginia)

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded) Batas berikut berlaku per menit. Layanan juga dapat memberlakukan batas berdasarkan requests per second (RPS = RPM/60) dan tokens per second (TPS = TPM/60).
Model name	Service deployment scope	Requests per minute (RPM)	Tokens per minute (TPM) Mencakup token input dan output.
deepseek-v4-pro	Global	15.000	1.200.000
deepseek-v4-flash	Global	15.000	1.200.000

China (Beijing)

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded) Batas berikut berlaku per menit. Layanan juga dapat memberlakukan batas berdasarkan requests per second (RPS = RPM/60) dan tokens per second (TPS = TPM/60).
Model name	Service deployment scope	Requests per minute (RPM)	Tokens per minute (TPM) Mencakup token input dan output.
deepseek-v4-pro	The Chinese mainland	15.000	1.200.000
deepseek-v4-flash	The Chinese mainland	15.000	1.200.000
deepseek-v3.2 Pembatasan laju tidak berlaku untuk panggilan layanan yang menggunakan Batch API.	The Chinese mainland	15.000	1.200.000
deepseek-v3.2-exp	The Chinese mainland	15.000	1.200.000
deepseek-v3.1	The Chinese mainland	15.000	1.200.000
deepseek-r1-0528	The Chinese mainland	60	100.000
deepseek-r1 Pembatasan laju tidak berlaku untuk panggilan layanan yang menggunakan Batch API.	The Chinese mainland	15.000	1.200.000
deepseek-v3 Pembatasan laju tidak berlaku untuk panggilan layanan yang menggunakan Batch API.	The Chinese mainland	15.000	1.200.000
deepseek-r1-distill-qwen-7b	The Chinese mainland	15.000	1.200.000
deepseek-r1-distill-qwen-14b	The Chinese mainland	15.000	1.200.000
deepseek-r1-distill-qwen-32b	The Chinese mainland	15.000	1.200.000
deepseek-r1-distill-qwen-1.5b	The Chinese mainland	60	100.000
deepseek-r1-distill-llama-8b	The Chinese mainland	60	100.000
deepseek-r1-distill-llama-70b	The Chinese mainland	60	100.000

Germany (Frankfurt)

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded) Batas berikut berlaku per menit. Layanan juga dapat memberlakukan batas berdasarkan requests per second (RPS = RPM/60) dan tokens per second (TPS = TPM/60).
Model name	Service deployment scope	Requests per minute (RPM)	Tokens per minute (TPM) Mencakup token input dan output.
deepseek-v4-pro	Global	15.000	1.200.000
deepseek-v4-flash	Global	15.000	1.200.000

Japan (Tokyo)

Model name	Service deployment scope	Rate limit conditions (rate limiting is triggered when any value is exceeded) Berikut ini adalah batas laju per menit. Layanan juga dapat memberlakukan batas per detik pada RPS (RPM/60) dan TPS (TPM/60)
Model name	Service deployment scope	Requests per minute (RPM)	Tokens per minute (TPM) Mencakup token input dan output
deepseek-v4-pro	Japan	10.000	1.200.000
deepseek-v4-flash	Japan	10.000	1.200.000
deepseek-v4-pro	Global	15.000	1.200.000
deepseek-v4-flash	Global	15.000	1.200.000

Kimi

China (Beijing)

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded) Batas berikut berlaku per menit. Layanan juga dapat memberlakukan batas berdasarkan requests per second (RPS = RPM/60) dan tokens per second (TPS = TPM/60).
Model name	Service deployment scope	Requests per minute (RPM)	Tokens per minute (TPM) Mencakup token input dan output.
kimi-k2.7-code	The Chinese mainland	500	1.000.000
kimi-k2.6	The Chinese mainland	500	1.000.000
kimi-k2.5	The Chinese mainland	500	1.000.000
kimi-k2-thinking	The Chinese mainland	500	1.000.000
Moonshot-Kimi-K2-Instruct	The Chinese mainland	500	1.000.000

US (Virginia)

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded) Batas berikut berlaku per menit. Layanan juga dapat memberlakukan batas berdasarkan requests per second (RPS = RPM/60) dan tokens per second (TPS = TPM/60).
Model name	Service deployment scope	Requests per minute (RPM)	Tokens per minute (TPM) Mencakup token input dan output.
kimi-k2.7-code	Global	500	1.000.000
kimi-k2.5	Global	500	1.000.000

Germany (Frankfurt)

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded) Batas berikut berlaku per menit. Layanan juga dapat memberlakukan batas berdasarkan requests per second (RPS = RPM/60) dan tokens per second (TPS = TPM/60).
Model name	Service deployment scope	Requests per minute (RPM)	Tokens per minute (TPM) Mencakup token input dan output.
kimi-k2.7-code	Global	500	1.000.000
kimi-k2.5	Global	500	1.000.000

Hong Kong (China)

Model name

Service deployment scope

Rate limiting conditions (triggered if any value is exceeded)

Batas berikut berlaku per menit. Layanan juga dapat memberlakukan batas berdasarkan requests per second (RPS = RPM/60) dan tokens per second (TPS = TPM/60).

Requests per minute (RPM)

Tokens per minute (TPM)

Mencakup token input dan output.

kimi-k2.7-code

Global

500

1.000.000

Japan (Tokyo)

Model name

Service deployment scope

Rate limit conditions (rate limiting is triggered when any value is exceeded)

Berikut ini adalah batas laju per menit. Layanan juga dapat memberlakukan batas per detik pada RPS (RPM/60) dan TPS (TPM/60)

Requests per minute (RPM)

Tokens per minute (TPM)

Mencakup token input dan output

kimi-k2.5

Global

500

1.000.000

Singapore

Model name

Service deployment scope

Rate limits (triggered if any value is exceeded)

Berikut ini adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan requests per second (RPS = RPM/60) dan tokens per second (TPS = TPM/60).

Requests per minute (RPM)

Tokens per minute (TPM)

Mencakup token input dan output

kimi-k2.7-code

International

500

1.000.000

MiniMax

China (Beijing)

Model name

Service deployment scope

Rate limiting conditions (triggered if any value is exceeded)

Batas berikut berlaku per menit. Layanan juga dapat memberlakukan batas berdasarkan requests per second (RPS = RPM/60) dan tokens per second (TPS = TPM/60).

Requests per minute (RPM)

Tokens per minute (TPM)

Mencakup token input dan output.

MiniMax-M2.5

The Chinese mainland

500

1.000.000

GLM

US (Virginia)

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded) Batas berikut berlaku per menit. Layanan juga dapat memberlakukan batas berdasarkan requests per second (RPS = RPM/60) dan tokens per second (TPS = TPM/60).
Model name	Service deployment scope	Requests per minute (RPM)	Tokens per minute (TPM) Mencakup token input dan output.
glm-5.2	Global	500	1.000.000
glm-5.1	Global	500	1.000.000

China (Beijing)

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded) Batas berikut berlaku per menit. Layanan juga dapat memberlakukan batas berdasarkan requests per second (RPS = RPM/60) dan tokens per second (TPS = TPM/60).
Model name	Service deployment scope	Requests per minute (RPM)	Tokens per minute (TPM) Mencakup token input dan output.
glm-5.2	The Chinese mainland	500	1.000.000
glm-5.1	The Chinese mainland	500	1.000.000
glm-5	The Chinese mainland	500	1.000.000
glm-4.7	The Chinese mainland	500	1.000.000
glm-4.6	The Chinese mainland	60	1.000.000

Germany (Frankfurt)

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded) Batas berikut berlaku per menit. Layanan juga dapat memberlakukan batas berdasarkan requests per second (RPS = RPM/60) dan tokens per second (TPS = TPM/60).
Model name	Service deployment scope	Requests per minute (RPM)	Tokens per minute (TPM) Mencakup token input dan output.
glm-5.2	Global	500	1.000.000
glm-5.1	Global	500	1.000.000

Singapore

Model name

Rate limiting conditions (triggered if any value is exceeded)

Batas berikut berlaku per menit. Layanan juga dapat memberlakukan batas berdasarkan requests per second (RPS = RPM/60) dan tokens per second (TPS = TPM/60).

Requests per minute (RPM)

Tokens per minute (TPM)

Mencakup token input dan output.

glm-5.1

500

1.000.000

Hong Kong (China)

Model name

Service deployment scope

Rate limiting conditions (triggered if any value is exceeded)

Batas berikut berlaku per menit. Layanan juga dapat memberlakukan batas berdasarkan requests per second (RPS = RPM/60) dan tokens per second (TPS = TPM/60).

Requests per minute (RPM)

Tokens per minute (TPM)

Mencakup token input dan output.

glm-5.2

Global

500

1.000.000

Japan (Tokyo)

Model name

Rate limit conditions (rate limiting is triggered when any value is exceeded)

Berikut ini adalah batas laju per menit. Layanan juga dapat memberlakukan batas per detik pada RPS (RPM/60) dan TPS (TPM/60)

Requests per minute (RPM)

Tokens per minute (TPM)

Mencakup token input dan output

glm-5.1

500

1.000.000

Generasi gambar

Qwen-Image

Singapura

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded)
Model name	Service deployment scope	Task submission API call limit	Number of concurrent tasks (concurrency)
qwen-image-2.0-pro	International	2 kali/menit	Tidak ada batas untuk API synchronous
qwen-image-2.0-pro-2026-06-22	International	2 kali/menit	Tidak ada batas untuk API synchronous
qwen-image-2.0-pro-2026-04-22	International	2 kali/menit	Tidak ada batas untuk API synchronous
qwen-image-2.0-pro-2026-03-03	International	2 kali/menit	Tidak ada batas untuk API synchronous
qwen-image-2.0	International	2 kali/detik	Tidak ada batas untuk API synchronous
qwen-image-2.0-2026-03-03	International	2 kali/detik	Tidak ada batas untuk API synchronous
qwen-image-max	International	2 kali/menit	Tidak ada batas untuk API synchronous
qwen-image-max-2025-12-30	International	2 kali/menit	Tidak ada batas untuk API synchronous
qwen-image-plus	International	2 kali/detik	Tidak ada batas untuk API synchronous / 2 untuk API asynchronous
qwen-image-plus-2026-01-09	International	2 kali/detik	Tidak ada batas untuk API synchronous
qwen-image	International	2 kali/detik	Tidak ada batas untuk API synchronous / 2 untuk API asynchronous
qwen-image-edit-max	International	2 kali/menit	Tidak ada batas untuk API synchronous
qwen-image-edit-max-2026-01-16	International	2 kali/menit	Tidak ada batas untuk API synchronous
qwen-image-edit-plus	International	2 kali/detik	Tidak ada batas untuk API synchronous
qwen-image-edit-plus-2025-12-15	International	2 kali/detik	Tidak ada batas untuk API synchronous
qwen-image-edit-plus-2025-10-30	International	2 kali/detik	Tidak ada batas untuk API synchronous
qwen-image-edit	International	2 kali/detik	Tidak ada batas untuk API synchronous

Tiongkok (Beijing)

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded)
Model name	Service deployment scope	Task submission API call limit	Number of concurrent tasks (concurrency)
qwen-image-2.0-pro	The Chinese mainland	2 kali/menit	Tidak ada batas untuk API synchronous
qwen-image-2.0-pro-2026-06-22	The Chinese mainland	2 kali/menit	Tidak ada batas untuk API synchronous
qwen-image-2.0-pro-2026-04-22	The Chinese mainland	2 kali/menit	Tidak ada batas untuk API synchronous
qwen-image-2.0-pro-2026-03-03	The Chinese mainland	2 kali/menit	Tidak ada batas untuk API synchronous
qwen-image-2.0	The Chinese mainland	2 kali/detik	Tidak ada batas untuk API synchronous
qwen-image-2.0-2026-03-03	The Chinese mainland	2 kali/detik	Tidak ada batas untuk API synchronous
qwen-image-max	The Chinese mainland	2 kali/menit	Tidak ada batas untuk API synchronous
qwen-image-max-2025-12-30	The Chinese mainland	2 kali/menit	Tidak ada batas untuk API synchronous
qwen-image-plus	The Chinese mainland	2 kali/detik	Tidak ada batas untuk API synchronous / 2 untuk API asynchronous
qwen-image-plus-2026-01-09	The Chinese mainland	2 kali/detik	Tidak ada batas untuk API synchronous
qwen-image	The Chinese mainland	2 kali/detik	Tidak ada batas untuk API synchronous / 2 untuk API asynchronous
qwen-image-edit-max	The Chinese mainland	2 kali/menit	Tidak ada batas untuk API synchronous
qwen-image-edit-max-2026-01-16	The Chinese mainland	2 kali/menit	Tidak ada batas untuk API synchronous
qwen-image-edit-plus	The Chinese mainland	2 kali/detik	Tidak ada batas untuk API synchronous
qwen-image-edit-plus-2025-12-15	The Chinese mainland	2 kali/detik	Tidak ada batas untuk API synchronous
qwen-image-edit-plus-2025-10-30	The Chinese mainland	2 kali/detik	Tidak ada batas untuk API synchronous
qwen-image-edit	The Chinese mainland	2 kali/detik	Tidak ada batas untuk API synchronous
qwen-mt-image	The Chinese mainland	1 kali/detik	2

Text-to-image - Z-Image

Singapura

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded)
		RPS limit for task submission API	Number of concurrent tasks (concurrency)
z-image-turbo	International	2	Tidak ada batas untuk API synchronous

Tiongkok (Beijing)

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded)
		RPS limit for task submission API	Number of concurrent tasks (concurrency)
z-image-turbo	The Chinese mainland	2	Tidak ada batas untuk API synchronous

Wanxiang

Singapura

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded)
Model name	Service deployment scope	RPS limit for task submission API	Number of concurrent tasks (concurrency)
wan2.7-image-pro	International	5	5
wan2.7-image	International	5	5
wan2.6-image	International	5	5
wan2.6-t2i	International	5	5
wan2.5-t2i-preview	International	5	5
wan2.2-t2i-flash	International	2	2
wan2.2-t2i-plus	International	2	2
wan2.1-t2i-turbo	International	2	2
wan2.1-t2i-plus	International	2	2
wan2.5-i2i-preview	International	5	5

AS (Virginia)

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded)
Model name	Service deployment scope	RPS limit for task submission API	Number of concurrent tasks (concurrency)
wan2.6-t2i	Global	5	5
wan2.6-image	Global	5	5

Tiongkok (Beijing)

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded)
Model name	Service deployment scope	RPS limit for task submission API	Number of concurrent tasks (concurrency)
wan2.7-image-pro	The Chinese mainland	5	5
wan2.7-image	The Chinese mainland	5	5
wan2.6-image	The Chinese mainland	5	5
wan2.6-t2i	The Chinese mainland	1	5
wan2.5-t2i-preview	The Chinese mainland	5	5
wanx2.0-t2i-turbo	The Chinese mainland	2	2
wanx2.1-t2i-turbo	The Chinese mainland	2	2
wanx2.1-t2i-plus	The Chinese mainland	2	2
wan2.2-t2i-flash	The Chinese mainland	2	2
wan2.2-t2i-plus	The Chinese mainland	2	2
wan2.5-i2i-preview	The Chinese mainland	5	5
wanx2.1-imageedit	The Chinese mainland	2	2

Jerman (Frankfurt)

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded)
Model name	Service deployment scope	RPS limit for task submission API	Number of concurrent tasks (concurrency)
wan2.6-t2i	Global	5	5
wan2.6-image	Global	5	5

OutfitAnyone

Tiongkok (Beijing)

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded)
Model name	Service deployment scope	RPS limit for job submission API	Number of concurrent tasks
aitryon-plus	The Chinese mainland	10	5
aitryon-parsing-v1	The Chinese mainland	10	Tidak ada batas untuk API synchronous

Video generation

HappyHorse series

Singapura

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded)
Model name	Service deployment scope	RPS limit for task submission API	Number of concurrent tasks (concurrency)
happyhorse-1.1-t2v	International	10	5
happyhorse-1.1-i2v	International	10	5
happyhorse-1.1-r2v	International	10	5
happyhorse-1.0-t2v	International	10	5
happyhorse-1.0-i2v	International	10	5
happyhorse-1.0-r2v	International	10	5
happyhorse-1.0-video-edit	International	10	5

US (Virginia)

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded)
Model name	Service deployment scope	RPS limit for task submission API	Number of concurrent tasks (concurrency)
happyhorse-1.1-t2v	Global	10	5
happyhorse-1.1-i2v	Global	10	5
happyhorse-1.1-r2v	Global	10	5
happyhorse-1.0-t2v	Global	10	5
happyhorse-1.0-i2v	Global	10	5
happyhorse-1.0-r2v	Global	10	5
happyhorse-1.0-video-edit	Global	10	5

China (Beijing)

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded)
Model name	Service deployment scope	RPS limit for task submission API	Number of concurrent tasks (concurrency)
happyhorse-1.1-t2v	Tiongkok daratan	10	5
happyhorse-1.1-i2v	Tiongkok daratan	10	5
happyhorse-1.1-r2v	Tiongkok daratan	10	5
happyhorse-1.0-t2v	Tiongkok daratan	10	5
happyhorse-1.0-i2v	Tiongkok daratan	10	5
happyhorse-1.0-r2v	Tiongkok daratan	10	5
happyhorse-1.0-video-edit	Tiongkok daratan	10	5

Jerman (Frankfurt)

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded)
Model name	Service deployment scope	RPS limit for task submission API	Number of concurrent tasks (concurrency)
happyhorse-1.1-t2v	Global	10	5
happyhorse-1.1-i2v	Global	10	5
happyhorse-1.1-r2v	Global	10	5
happyhorse-1.0-t2v	Global	10	5
happyhorse-1.0-i2v	Global	10	5
happyhorse-1.0-r2v	Global	10	5
happyhorse-1.0-video-edit	Global	10	5

Hong Kong (China)

Model name	Service deployment scope	Rate limits (triggered if any value is exceeded)
Model name	Service deployment scope	Task submission API RPS limit	Number of concurrent processing tasks (concurrency)
happyhorse-1.1-t2v	Global	10	5
happyhorse-1.1-i2v	Global	10	5
happyhorse-1.1-r2v	Global	10	5

Wanxiang series

Singapura

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded)
Model name	Service deployment scope	RPS limit for task submission API	Number of concurrent tasks (concurrency)
wan2.7-r2v-2026-06-12	International	5	5
wan2.7-t2v-2026-06-12	International	5	5
wan2.7-t2v-2026-04-25	International	5	5
wan2.7-t2v	International	5	5
wan2.6-t2v	International	5	5
wan2.5-t2v-preview	International	5	5
wan2.2-t2v-plus	International	2	2
wan2.1-t2v-turbo	International	2	2
wan2.1-t2v-plus	International	2	2
wan2.7-i2v-2026-04-25	International	5	5
wan2.7-i2v	International	5	5
wan2.6-i2v-flash	International	5	5
wan2.6-i2v	International	5	5
wan2.5-i2v-preview	International	5	5
wan2.2-i2v-flash	International	2	2
wan2.1-i2v-plus	International	2	2
wan2.1-i2v-turbo	International	2	2
wan2.2-i2v-plus	International	2	2
wan2.2-kf2v-flash	International	2	2
wan2.1-kf2v-plus	International	1	2
wan2.1-vace-plus	International	2	2
wan2.7-videoedit	International	5	5
wan2.7-r2v	International	5	5
wan2.6-r2v-flash	International	5	5
wan2.6-r2v	International	5	5
wan2.2-animate-move	International	5	1
wan2.2-animate-mix	International	5	1

US (Virginia)

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded)
Model name	Service deployment scope	RPS limit for task submission API	Number of concurrent tasks (concurrency)
wan2.6-t2v	Global	5	5
wan2.6-i2v	Global	5	5
wan2.6-r2v	Global	5	5
wan2.6-t2v-us	US	5	5
wan2.6-i2v-us	US	5	5

China (Beijing)

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded)
Model name	Service deployment scope	RPS limit for task submission API	Number of concurrent tasks (concurrency)
wan2.7-r2v-2026-06-12	Tiongkok daratan	5	5
wan2.7-t2v-2026-06-12	tiongkok daratan	5	5
wan2.7-t2v-2026-04-25	Tiongkok daratan	5	5
wan2.7-t2v	Tiongkok daratan	5	5
wan2.6-t2v	Tiongkok daratan	5	5
wan2.5-t2v-preview	Tiongkok daratan	5	5
wan2.2-t2v-plus	Tiongkok daratan	2	2
wanx2.1-t2v-turbo	Tiongkok daratan	2	2
wanx2.1-t2v-plus	Tiongkok daratan	2	2
wan2.7-i2v-2026-04-25	Tiongkok daratan	5	5
wan2.7-i2v	Tiongkok daratan	5	5
wan2.6-i2v-flash	Tiongkok daratan	5	5
wan2.6-i2v	Tiongkok daratan	5	5
wan2.5-i2v-preview	Tiongkok daratan	5	5
wan2.2-i2v-plus	Tiongkok daratan	2	2
wanx2.1-i2v-turbo	Tiongkok daratan	2	2
wanx2.1-i2v-plus	Tiongkok daratan	2	2
wan2.2-kf2v-flash	Tiongkok daratan	2	2
wanx2.1-kf2v-plus	Tiongkok daratan	2	2
wanx2.1-vace-plus	Tiongkok daratan	2	2
wan2.7-videoedit	Tiongkok daratan	5	5
wan2.7-r2v	Tiongkok daratan	5	5
wan2.6-r2v-flash	Tiongkok daratan	5	5
wan2.6-r2v	Tiongkok daratan	5	5
wan2.2-s2v-detect	Tiongkok daratan	5	No limit for synchronous APIs
wan2.2-s2v	Tiongkok daratan	5	1
wan2.2-animate-move	Tiongkok daratan	5	1
wan2.2-animate-mix	Tiongkok daratan	5	1

Jerman (Frankfurt)

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded)
Model name	Service deployment scope	RPS limit for task submission API	Number of concurrent tasks (concurrency)
wan2.6-t2v	Global	5	5
wan2.6-i2v	Global	5	5
wan2.6-r2v	Global	5	5

AnimateAnyone

China (Beijing)

Model name	Service deployment scope	RPS limit for task submission API	Number of concurrent tasks
animate-anyone-detect-gen2	Tiongkok daratan	5	No limit for synchronous APIs
animate-anyone-template-gen2	Tiongkok daratan	5	1 Only one job runs at a time. Other jobs in the queue are in a waiting state.
animate-anyone-gen2	Tiongkok daratan	5	1 Only one job runs at a time. Other jobs in the queue are in a waiting state.

EMO

China (Beijing)

Model name

Service deployment scope

RPS limit for task submission API

Number of concurrent tasks

emo-detect-v1

Tiongkok daratan

No limit for synchronous APIs

emo-v1

Tiongkok daratan

Only one job runs at a time. Other jobs in the queue are in a waiting state.

LivePortrait

China (Beijing)

Model name

Service deployment scope

RPS limit for task submission API

Number of concurrent tasks

liveportrait-detect

Tiongkok daratan

No limit for synchronous APIs

liveportrait

Tiongkok daratan

Only one job runs at a time. Other jobs in the queue are in a waiting state.

VideoRetalk

China (Beijing)

Model name

Service deployment scope

RPS limit for task submission API

Number of concurrent tasks

videoretalk

Tiongkok daratan

Only one job runs at a time. Other jobs in the queue are in a waiting state.

Emoji

China (Beijing)

Model name

Service deployment scope

RPS limit for task submission API

Number of concurrent tasks

emoji-detect-v1

Tiongkok daratan

No limit for synchronous APIs

emoji-v1

Tiongkok daratan

Only one job runs at a time. Other jobs in the queue are in a waiting state.

Video style transform

China (Beijing)

Model name

Service deployment scope

RPS limit for task submission API

Number of concurrent tasks

video-style-transform

Tiongkok daratan

Only one job runs at a time. Other jobs in the queue are in a waiting state.

Music generation

China (Beijing)

Nama model	Cakupan penerapan layanan	Permintaan per menit (RPM)
fun-music-preview	Wilayah Tiongkok Daratan	180
fun-music-v1	Wilayah Tiongkok Daratan	180

Sintesis suara (teks-ke-ucapan)

Sintesis suara Qwen

Singapura

Qwen3-TTS-Instruct-Flash

Model name	Service deployment scope	Requests per minute (RPM)
qwen3-tts-instruct-flash	International	180
qwen3-tts-instruct-flash-2026-01-26	International	180

Qwen3-TTS-VD

Model name	Service deployment scope	Requests per minute (RPM)
qwen3-tts-vd-2026-01-26	International	180

Qwen3-TTS-VC

Model name	Service deployment scope	Requests per minute (RPM)
qwen3-tts-vc-2026-01-22	International	180

Qwen3-TTS-Flash

Model name	Service deployment scope	Requests per minute (RPM)
qwen3-tts-flash	International	180
qwen3-tts-flash-2025-11-27	International	180
qwen3-tts-flash-2025-09-18	International	10

Tiongkok (Beijing)

Qwen3-TTS-Instruct-Flash

Model name	Service deployment scope	Requests per minute (RPM)
qwen3-tts-instruct-flash	Mainland China	180
qwen3-tts-instruct-flash-2026-01-26	Mainland China	180

Qwen3-TTS-VD

Model name	Service deployment scope	Requests per minute (RPM)
qwen3-tts-vd-2026-01-26	Mainland China	180

Qwen3-TTS-VC

Model name	Service deployment scope	Requests per minute (RPM)
qwen3-tts-vc-2026-01-22	Mainland China	180

Qwen3-TTS-Flash

Model name	Service deployment scope	Requests per minute (RPM)
qwen3-tts-flash	Mainland China	180
qwen3-tts-flash-2025-11-27	Mainland China	180
qwen3-tts-flash-2025-09-18	Mainland China	10

Qwen-TTS

Model name	Service deployment scope	Rate limiting conditions (rate limiting is triggered when any value is exceeded) The following are per-minute rate limiting conditions. The service may also enforce RPS (RPM/60) and TPS (TPM/60) limits
		Requests per minute (RPM)	Tokens consumed per minute (TPM) Including input and output tokens
qwen-tts	Mainland China	10	100,000
qwen-tts-latest	Mainland China
qwen-tts-2025-05-22	Mainland China
qwen-tts-2025-04-10	Mainland China

Sintesis suara real-time Qwen

Singapura

Qwen3-TTS-Instruct-Flash-Realtime

Model name	Service deployment scope	Requests per minute (RPM)
qwen3-tts-instruct-flash-realtime	International	180
qwen3-tts-instruct-flash-realtime-2026-01-22	International	180

Qwen3-TTS-VD-Realtime

Model name	Service deployment scope	Requests per minute (RPM)
qwen3-tts-vd-realtime-2026-01-15	International	180
qwen3-tts-vd-realtime-2025-12-16	International	180

Qwen3-TTS-VC-Realtime

Model name	Service deployment scope	Requests per minute (RPM)
qwen3-tts-vc-realtime-2026-01-15	International	180
qwen3-tts-vc-realtime-2025-11-27	International	180

Qwen3-TTS-Flash-Realtime

Model name	Service deployment scope	Requests per minute (RPM)
qwen3-tts-flash-realtime	International	180
qwen3-tts-flash-realtime-2025-11-27	International	180
qwen3-tts-flash-realtime-2025-09-18	International	10

Tiongkok (Beijing)

Qwen3-TTS-Instruct-Flash-Realtime

Model name	Service deployment scope	Requests per minute (RPM)
qwen3-tts-instruct-flash-realtime	Mainland China	180
qwen3-tts-instruct-flash-realtime-2026-01-22	Mainland China	180

Qwen3-TTS-VD-Realtime

Model name	Service deployment scope	Requests per minute (RPM)
qwen3-tts-vd-realtime-2026-01-15	Mainland China	180
qwen3-tts-vd-realtime-2025-12-16	Mainland China	180

Qwen3-TTS-VC-Realtime

Model name	Service deployment scope	Requests per minute (RPM)
qwen3-tts-vc-realtime-2026-01-15	Mainland China	180
qwen3-tts-vc-realtime-2025-11-27	Mainland China	180

Qwen3-TTS-Flash-Realtime

Model name	Service deployment scope	Requests per minute (RPM)
qwen3-tts-flash-realtime	Mainland China	180
qwen3-tts-flash-realtime-2025-11-27	Mainland China	180
qwen3-tts-flash-realtime-2025-09-18	Mainland China	10

Qwen-TTS-Realtime

Model name	Service deployment scope	Rate limiting conditions (rate limiting is triggered when any value is exceeded) The following are per-minute rate limiting conditions. The service may also enforce RPS (RPM/60) and TPS (TPM/60) limits
		Requests per minute (RPM)	Tokens consumed per minute (TPM) Including input and output tokens
qwen-tts-realtime	Mainland China	10	100,000
qwen-tts-realtime-latest	Mainland China
qwen-tts-realtime-2025-07-15	Mainland China

Kloning suara Qwen

Singapura

Model name	Service deployment scope	Requests per minute (RPM)
qwen-voice-enrollment	International	180

Tiongkok (Beijing)

Model name	Service deployment scope	Requests per minute (RPM)
qwen-voice-enrollment	Mainland China	180

Desain suara Qwen

Singapura

Model name	Service deployment scope	Requests per minute (RPM)
qwen-voice-design	International	180

Tiongkok (Beijing)

Model name	Service deployment scope	Requests per minute (RPM)
qwen-voice-design	Mainland China	180

Sintesis suara CosyVoice

Singapura

Model name	Service deployment scope	Job submission API RPS limit
cosyvoice-v3-plus	International	3
cosyvoice-v3-flash	International	3

Tiongkok (Beijing)

Model name	Service deployment scope	Job submission API RPS limit
cosyvoice-v3.5-plus	Mainland China	3
cosyvoice-v3.5-flash	Mainland China
cosyvoice-v3-plus	Mainland China
cosyvoice-v3-flash	Mainland China
cosyvoice-v2	Mainland China

Kloning/desain suara CosyVoice

Model kloning suara CosyVoice menggunakan satu model yang sama dan berbagi kuota pembatasan laju.

Singapura

Model name	Service deployment scope	Job submission API RPS limit
voice-enrollment	International	10

Tiongkok (Beijing)

Model name	Service deployment scope	Job submission API RPS limit
voice-enrollment	Mainland China	10

Pengenalan ucapan (speech-to-text) dan terjemahan (ucapan ke teks dalam bahasa tertentu)

Qwen3-LiveTranslate-Flash

Singapura

Model name	Service deployment scope	Rate limiting conditions (rate limiting is triggered when any value is exceeded) Kondisi pembatasan laju berikut berlaku per menit. Layanan juga dapat menerapkan batas RPS (RPM/60) dan TPS (TPM/60)
Model name	Service deployment scope	Requests per minute (RPM)	Tokens consumed per minute (TPM) Termasuk token input dan output
qwen3-livetranslate-flash	International	100	100.000
qwen3-livetranslate-flash-2025-12-01	International	6.000	1.000.000

Tiongkok (Beijing)

Model name	Service deployment scope	Rate limiting conditions (rate limiting is triggered when any value is exceeded) Kondisi pembatasan laju berikut berlaku per menit. Layanan juga dapat menerapkan batas RPS (RPM/60) dan TPS (TPM/60)
		Requests per minute (RPM)	Tokens consumed per minute (TPM) Termasuk token input dan output
qwen3-livetranslate-flash	Mainland China	100	100.000
qwen3-livetranslate-flash-2025-12-01	Mainland China

Qwen-LiveTranslate-Flash-Realtime

Singapura

Model name	Service deployment scope	Rate limiting conditions (rate limiting is triggered when any value is exceeded) Kondisi pembatasan laju berikut berlaku per menit. Layanan juga dapat menerapkan batas RPS (RPM/60) dan TPS (TPM/60)
		Requests per minute (RPM)	Tokens consumed per minute (TPM) Termasuk token input dan output
qwen3.5-livetranslate-flash-realtime	International	10	100.000
qwen3.5-livetranslate-flash-realtime-2026-05-19	International
qwen3-livetranslate-flash-realtime	International
qwen3-livetranslate-flash-realtime-2025-09-22	International

Tiongkok (Beijing)

Model name	Service deployment scope	Rate limiting conditions (rate limiting is triggered when any value is exceeded) Kondisi pembatasan laju berikut berlaku per menit. Layanan juga dapat menerapkan batas RPS (RPM/60) dan TPS (TPM/60)
		Requests per minute (RPM)	Tokens consumed per minute (TPM) Termasuk token input dan output
qwen3.5-livetranslate-flash-realtime	Mainland China	10	100.000
qwen3.5-livetranslate-flash-realtime-2026-05-19	Mainland China
qwen3-livetranslate-flash-realtime	Mainland China
qwen3-livetranslate-flash-realtime-2025-09-22	Mainland China

Pengenalan file audio Qwen

Singapura

Qwen3-ASR-Flash-Filetrans

Model name	Service deployment scope	Requests per minute (RPM)
qwen3-asr-flash-filetrans	International	100
qwen3-asr-flash-filetrans-2025-11-17	International	100

Qwen3-ASR-Flash

Model name	Service deployment scope	Requests per minute (RPM)
qwen3-asr-flash	International	100
qwen3-asr-flash-2026-02-10	International
qwen3-asr-flash-2025-09-08	International

AS (Virginia)

Model name	Service deployment scope	Requests per minute (RPM)
qwen3-asr-flash-us	US	100
qwen3-asr-flash-2025-09-08-us	US	100

Tiongkok (Beijing)

Qwen3-ASR-Flash-Filetrans

Model name	Service deployment scope	Requests per minute (RPM)
qwen3-asr-flash-filetrans	Mainland China	100
qwen3-asr-flash-filetrans-2025-11-17	Mainland China	100

Qwen3-ASR-Flash

Model name	Service deployment scope	Requests per minute (RPM)
qwen3-asr-flash	Mainland China	100
qwen3-asr-flash-2026-02-10	Mainland China
qwen3-asr-flash-2025-09-08	Mainland China

Pengenalan ucapan real-time Qwen

Singapura

Model name	Service deployment scope	Requests per second (RPS)
qwen3-asr-flash-realtime	International	20
qwen3-asr-flash-realtime-2026-02-10	International
qwen3-asr-flash-realtime-2025-10-27	International

Tiongkok (Beijing)

Model name	Service deployment scope	Requests per second (RPS)
qwen3-asr-flash-realtime	Mainland China	20
qwen3-asr-flash-realtime-2026-02-10	Mainland China
qwen3-asr-flash-realtime-2025-10-27	Mainland China

Paraformer Pengenalan ucapan

Tiongkok (Beijing)

Model name	Service deployment scope	Job submission API RPS limit
paraformer-realtime-v2	Mainland China	20
paraformer-realtime-8k-v2	Mainland China	20

Model name	Service deployment scope	Requests per minute (RPM)
paraformer-v2	Mainland China	1.200

Model name	Service deployment scope	Job submission API RPS limit	Number of tasks being processed simultaneously (concurrency)
paraformer-8k-v2	Mainland China	20	100

Pengenalan file audio Fun-ASR

Singapura

Model name	Service deployment scope	Requests per minute (RPM)
fun-asr	International	600
fun-asr-2025-11-07	International	600
fun-asr-2025-08-25	International	600
fun-asr-mtl	International	100
fun-asr-mtl-2025-08-25	International	100
fun-asr-flash-2026-06-15	International	600

Tiongkok (Beijing)

Model name	Service deployment scope	Requests per minute (RPM)
fun-asr	Mainland China	600
fun-asr-2025-11-07	Mainland China
fun-asr-2025-08-25	Mainland China
fun-asr-mtl	Mainland China
fun-asr-mtl-2025-08-25	Mainland China
fun-asr-flash-2026-06-15	Mainland China

Pengenalan ucapan real-time Fun-ASR

Singapura

Model name	Service deployment scope	Job submission API RPS limit
fun-asr-realtime	International	20
fun-asr-realtime-2025-11-07	International	20

Tiongkok (Beijing)

Model name	Service deployment scope	Job submission API RPS limit
fun-asr-realtime	Mainland China	20
fun-asr-realtime-2026-02-28	Mainland China
fun-asr-realtime-2025-11-07	Mainland China
fun-asr-realtime-2025-09-15	Mainland China
fun-asr-flash-8k-realtime	Mainland China
fun-asr-flash-8k-realtime-2026-01-28	Mainland China

Text embedding

Singapore

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded) Batas berikut berlaku per menit. Layanan juga dapat menerapkan batas berdasarkan jumlah request per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60).
Model name	Service deployment scope	Requests per minute (RPM)	Tokens per minute (TPM)/Number of jobs Mencakup token input dan output.
text-embedding-v4	International	1.800	1.000.000
text-embedding-v3	International	6.000	24.000.000

China (Beijing)

Model name

Service deployment scope

Rate limiting conditions (triggered if any value is exceeded)

Requests per second (RPS)

Tokens per minute (TPM)/Number of jobs

Mencakup token input dan output.

text-embedding-v4

Batas laju tidak berlaku untuk panggilan layanan yang menggunakan Batch API.

The Chinese mainland

1.200.000

Hong Kong (China)

Model name

Service deployment scope

Rate limiting conditions (triggered if any value is exceeded)

Batas berikut berlaku per menit. Layanan juga dapat menerapkan batas berdasarkan jumlah request per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60).

Requests per minute (RPM)

Tokens per minute (TPM)/Number of jobs

Mencakup token input dan output.

text-embedding-v4

Hong Kong (China)

1.800

1.000.000

Multimodal embedding

Singapore

Model name	Service deployment scope	Rate limiting conditions Batas berikut berlaku per menit. Layanan juga dapat menerapkan batas berdasarkan jumlah request per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60).
Model name	Service deployment scope	Requests per minute (RPM)	Tokens per minute (TPM) Hanya token input.
tongyi-embedding-vision-plus	International	600	200.000
tongyi-embedding-vision-flash	International	600	200.000

China (Beijing)

Model name	Service deployment scope	Rate limiting conditions Batas berikut berlaku per menit. Layanan juga dapat menerapkan batas berdasarkan jumlah request per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60).
Model name	Service deployment scope	Requests per minute (RPM)	Tokens per minute (TPM) Hanya token input.
qwen3-vl-embedding	The Chinese mainland	2.400	1.200.000
multimodal-embedding-v1	The Chinese mainland	120	100.000

Sorting model

Singapore

Model name

Service deployment scope

Rate limiting conditions

Batas berikut berlaku per menit. Layanan juga dapat menerapkan batas berdasarkan jumlah request per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60).

Requests per minute (RPM)

Tokens per minute (TPM)

Hanya token input.

qwen3-rerank

International

5.400

5.000.000.000

China (Beijing)

Model name	Service deployment scope	Rate limiting conditions Batas berikut berlaku per menit. Layanan juga dapat menerapkan batas berdasarkan jumlah request per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60).
Model name	Service deployment scope	Requests per minute (RPM)	Tokens per minute (TPM) Hanya token input.
qwen3-vl-rerank	The Chinese mainland	600	9.000.000
gte-rerank-v2	The Chinese mainland	5.040	4.980.000.000

Industri

Intention recognition

Tiongkok (Beijing)

Model name

Service deployment scope

Rate limiting conditions (triggered if any value is exceeded)

Batas berikut berlaku per menit. Layanan juga dapat menerapkan batas berdasarkan jumlah permintaan per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60).

Requests per minute (RPM)

Tokens per minute (TPM)

Mencakup token input dan output.

tongyi-intent-detect-v3

The Chinese mainland

1.200

1.000.000

Role assumption

Singapura

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded) Batas berikut berlaku per menit. Layanan juga dapat menerapkan batas berdasarkan jumlah permintaan per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60).
Model name	Service deployment scope	Requests per minute (RPM)	Tokens per minute (TPM) Mencakup token input dan output.
qwen-plus-character	International	120	500.000
qwen-flash-character	International	120	500.000
qwen-plus-character-ja	International	120	500.000

Tiongkok (Beijing)

Model name	Service deployment scope	Rate limiting conditions (triggered if any value is exceeded) Batas berikut berlaku per menit. Layanan juga dapat menerapkan batas berdasarkan jumlah permintaan per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60).
Model name	Service deployment scope	Requests per minute (RPM)	Tokens per minute (TPM) Mencakup token input dan output.
qwen-plus-character	The Chinese mainland	120	500.000
qwen-flash-character	The Chinese mainland	120	500.000

Model offline

Untuk informasi lebih lanjut, lihat Model unpublishing policy.

Offline pada 30 Januari 2026

Category	Model name	Rate limiting conditions (triggered if any value is exceeded)
		Requests per minute (RPM)	Tokens per minute (TPM) Includes input and output tokens.
Qwen-Plus	qwen-plus-2024-11-27	0	0
	qwen-plus-2024-11-25
	qwen-plus-2024-09-19
	qwen-plus-2024-08-06
Qwen-Turbo	qwen-turbo-2024-09-19
Qwen-VL	qwen-vl-max-2024-10-30
	qwen-vl-max-2024-08-09
	qwen-vl-plus-2024-08-09

Offline pada 20 Agustus 2025

Category	Model name	Rate limiting conditions (triggered if any value is exceeded)
		Requests per minute (RPM)	Tokens per minute (TPM) Includes input and output tokens.
Text generation - Qwen	qwen2-72b-instruct	0	0
	qwen2-57b-a14b-instruct
	qwen2-7b-instruct
	qwen1.5-110b-chat
	qwen1.5-72b-chat
	qwen1.5-32b-chat
	qwen1.5-14b-chat
	qwen1.5-7b-chat