全部产品
Search
文档中心

Alibaba Cloud Model Studio:Pembatasan laju

更新时间:Feb 10, 2026

Untuk memastikan penggunaan yang adil, Alibaba Cloud Model Studio menerapkan pembatasan laju dasar. Pembatasan ini bersifat spesifik per model dan terkait dengan Akun Alibaba Cloud Anda. Batas dihitung berdasarkan total panggilan ke suatu model dari semua Pengguna RAM, ruang kerja, dan Kunci API di bawah akun Anda. Jika batas tersebut terlampaui, permintaan API akan gagal. Anda harus menunggu hingga batas direset sebelum melakukan panggilan berikutnya.

Aturan

  • Batas tingkat akun: Pembatasan laju diterapkan pada tingkat Akun Alibaba Cloud. Batas dihitung berdasarkan total panggilan dari semua Pengguna RAM, ruang kerja, dan Kunci API di bawah akun tersebut.

  • Batas spesifik per model: Setiap model memiliki batas laju independen. Lihat tabel di bawah untuk detailnya.

FAQ

Mengapa pembatasan laju dipicu?

Periksa pesan error:

  • Requests rate limit exceeded atau You exceeded your current requests list: Error ini menunjukkan bahwa batas frekuensi panggilan telah terpicu.

  • Allocated quota exceeded atau You exceeded your current quota: Error ini menunjukkan bahwa batas konsumsi token telah terpicu.

  • Request rate increased too quickly: Error ini menunjukkan bahwa lonjakan tiba-tiba dalam frekuensi panggilan memicu perlindungan stabilitas sistem, meskipun batas Requests Per Minute (RPM) atau Tokens Per Minute (TPM) belum tercapai.

  • Untuk error lainnya, lihat Pesan error untuk mengidentifikasi penyebabnya.

Catatan: Selain RPM dan TPM, batas laju juga dapat diterapkan per detik dalam bentuk Requests per Second (RPS), yang dihitung sebagai RPM/60 atau TPM/60. Lonjakan permintaan dalam periode singkat dapat memicu pembatasan laju, meskipun jumlah total panggilan berada di bawah batas per menit.

Bagaimana cara melihat penggunaan panggilan model?

Satu jam setelah Anda memanggil suatu model, buka halaman Monitoring (Singapura atau Beijing). Atur kondisi kueri, seperti rentang waktu dan ruang kerja. Kemudian, di area Models, temukan model target dan klik Monitor di kolom Actions untuk melihat statistik panggilan model tersebut. Untuk informasi lebih lanjut, lihat dokumen Monitoring.

Data diperbarui setiap jam. Selama periode puncak, mungkin terjadi latensi hingga satu jam.

image

Berapa lama waktu pemulihan setelah pembatasan laju dipicu?

Batas biasanya direset dalam waktu satu menit. Jika terjadi error lain, lihat Pesan error untuk solusinya.

Bagaimana cara menghindari pembatasan laju?

  1. Pilih model dengan batas laju lebih tinggi: Versi stabil atau terbaru memiliki batas laju yang lebih tinggi dibandingkan versi snapshot lama.

  2. Optimalkan strategi pemanggilan Anda

    • Sesuaikan frekuensi panggilan: Jika Anda menerima error "Requests rate limit exceeded" atau "You exceeded your current requests list", kurangi frekuensi panggilan.

    • Kurangi konsumsi token: Jika Anda menerima error "Allocated quota exceeded" atau "You exceeded your current quota", perpendek panjang input atau output.

    • Ratakan laju permintaan: Jika peningkatan tiba-tiba dalam frekuensi panggilan memicu perlindungan stabilitas sistem, Anda mungkin menerima error "Request rate increased too quickly". Dalam kasus ini, optimalkan logika pemanggilan di sisi klien. Anda dapat menerapkan strategi perataan permintaan, seperti penjadwalan seragam, eksponensial backoff, atau buffer antrian permintaan. Strategi ini mendistribusikan permintaan secara merata dalam jendela waktu dan menghindari puncak instan.

  3. Tambahkan model cadangan

    Jika Anda mengalami error pembatasan laju, alihkan ke model cadangan untuk melanjutkan generasi. Hal ini meningkatkan konkurensi dan mengurangi tingkat kegagalan. Kode berikut menunjukkan contoh mencoba ulang permintaan dengan qwen-plus-2025-07-14 setelah pembatasan laju dipicu untuk qwen-plus-2025-07-28.

    Kode contoh

    import os
    import asyncio
    from openai import AsyncOpenAI, APIStatusError
    
    # Konfigurasi
    API_KEY = os.getenv("DASHSCOPE_API_KEY")
    # Model utama
    MODEL = "qwen-plus-2025-07-28"
    # Model cadangan
    BACKUP_MODEL = "qwen-plus-2025-07-14"
    # Pertanyaan uji
    QUESTION = "Who are you?"
    # Pengaturan konkurensi
    NUM_REQUESTS = 10
    
    client = AsyncOpenAI(
        api_key=API_KEY,
        base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1"
    )
    
    async def send_request(model):
        """Kirim permintaan tunggal"""
        try:
            await client.chat.completions.create(
                model=model,
                messages=[{"role": "user", "content": QUESTION}]
            )
            return True
        except APIStatusError as e:
            if e.status_code == 429:
                print(f"[Pembatasan laju dipicu] Model {model}")
                return False
            raise
        except Exception as e:
            print(f"[Permintaan gagal] Model {model}, Error: {e}")
            return False
    
    async def task(i):
        # Coba model utama
        if await send_request(MODEL):
            return True
        # Jika terkena pembatasan laju, coba model cadangan
        return await send_request(BACKUP_MODEL)
    
    async def main():
        results = await asyncio.gather(*(task(i) for i in range(NUM_REQUESTS)))
        print(f"Permintaan berhasil: {sum(results)}, Permintaan gagal: {len(results) - sum(results)}")
    
    if __name__ == "__main__":
        asyncio.run(main())
  4. Pisahkan tugas: Memproses percakapan panjang atau dokumen besar dapat mengonsumsi banyak token dengan cepat. Pisahkan tugas batch besar menjadi batch yang lebih kecil dan kirimkan pada waktu yang berbeda.

  5. Gunakan inferensi batch: Jika Anda tidak memerlukan hasil real-time, gunakan inferensi batch (Batch API). Fitur ini tidak tunduk pada pembatasan laju real-time, tetapi Anda harus mempertimbangkan antrian dan waktu pemrosesan.

Generasi teks - Qwen

Model bahasa Qwen

Global

Dalam mode penyebaran Global, titik akhir dan penyimpanan data berlokasi di wilayah AS (Virginia). Sumber daya komputasi Inferensi dijadwalkan secara dinamis di seluruh dunia.

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-max

600

1.000.000

qwen3-max-2025-09-23

60

100.000

qwen3-max-preview

600

1.000.000

qwen-plus

15.000

5.000.000

qwen-plus-2025-12-01

60

1.000.000

qwen-plus-2025-09-11

qwen-plus-2025-07-28

qwen-flash

15.000

10.000.000

qwen-flash-2025-07-28

60

1.000.000

Internasional

Dalam mode penyebaran Internasional, titik akhir dan penyimpanan data berlokasi di wilayah Singapura. Sumber daya komputasi Inferensi dijadwalkan secara dinamis di seluruh dunia, kecuali Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-max

600

1.000.000

qwen3-max-2026-01-23

qwen3-max-2025-09-23

60

100.000

qwen3-max-preview

600

1.000.000

qwen-max

600

1.000.000

qwen-max-latest

60

100.000

qwen-max-2025-01-25

(qwen-max-0125)

qwen-plus

600

1.000.000

qwen-plus-latest

60

100.000

qwen-plus-2025-12-01

1.000.000

qwen-plus-2025-09-11

120

qwen-plus-2025-07-28

60

100.000

qwen-plus-2025-07-14

(qwen-plus-0714)

qwen-plus-2025-04-28

(qwen-plus-0428)

qwen-plus-2025-01-25

(qwen-plus-0125)

qwen-flash

600

5.000.000

qwen-flash-2025-07-28

600

5.000.000

qwq-plus

60

100.000

qwen-turbo

600

5.000.000

qwen-turbo-latest

60

qwen-turbo-2025-04-28

(qwen-turbo-0428)

qwen-turbo-2024-11-01

(qwen-turbo-1101)

AS

Dalam mode penyebaran AS, titik akhir dan penyimpanan data berlokasi di wilayah AS (Virginia). Sumber daya komputasi Inferensi terbatas di Amerika Serikat.

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen-plus-us

600

1.000.000

qwen-plus-2025-12-01-us

60

qwen-flash-us

600

5.000.000

qwen-flash-2025-07-28-us

Tiongkok Daratan

Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data berlokasi di wilayah Beijing. Sumber daya komputasi Inferensi terbatas di Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-max

30.000

5.000.000

qwen3-max-2026-01-23

600

1.000.000

qwen3-max-2025-09-23

60

100.000

qwen3-max-preview

600

1.000.000

qwen-max

1.200

1.000.000

qwen-max-latest

qwen-max-2025-01-25

(qwen-max-0125)

60

100.000

qwen-max-2024-09-19

(qwen-max-0919)

qwen-plus

30.000

5.000.000

qwen-plus-latest

15.000

1.200.000

qwen-plus-2025-12-01

60

1.000.000

qwen-plus-2025-09-11

qwen-plus-2025-07-28

(qwen-plus-0728)

qwen-plus-2025-07-14

(qwen-plus-0714)

100.000

qwen-plus-2025-04-28

(qwen-plus-0428)

1.000.000

qwen-plus-2025-01-25

(qwen-plus-0125)

150.000

qwen-plus-2025-01-12

(qwen-plus-0112)

qwen-plus-2024-12-20

(qwen-plus-1220)

qwen-flash

30.000

10.000.000

qwen-flash-2025-07-28

60

1.000.000

qwq-plus

600

1.000.000

qwq-plus-latest

qwq-plus-2025-03-05

60

100.000

qwen-turbo

1.200

5.000.000

qwen-turbo-latest

qwen-turbo-2025-04-28

(qwen-turbo-0428)

60

1.000.000

qwen-turbo-2025-02-11

(qwen-turbo-0211)

5.000.000

qwen-turbo-2024-11-01

(qwen-turbo-1101)

qwen-long-latest

1.200

60.000

qwen-long-2025-01-25

(qwen-long-0125)

3

7.500

Qwen-VL (pemahaman visual/gambar-ke-teks)

Global

Dalam mode penyebaran Global, titik akhir dan penyimpanan data berlokasi di wilayah AS (Virginia). Sumber daya komputasi Inferensi dijadwalkan secara dinamis di seluruh dunia.

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-vl-plus

1.200

1.000.000

qwen3-vl-plus-2025-09-23

60

100.000

qwen3-vl-flash

1.200

1.000.000

qwen3-vl-flash-2025-10-15

60

100.000

Internasional

Dalam mode penyebaran Internasional, titik akhir dan penyimpanan data berlokasi di wilayah Singapura. Sumber daya komputasi Inferensi dijadwalkan secara dinamis di seluruh dunia, kecuali Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-vl-plus

1.200

1.000.000

qwen3-vl-plus-2025-12-19

60

100.000

qwen3-vl-plus-2025-09-23

qwen3-vl-flash

1.200

1.000.000

qwen3-vl-flash-2026-01-22

60

100.000

qwen3-vl-flash-2025-10-15

120

1.000.000

qwen-vl-max

1.200

1.000.000

qwen-vl-max-latest

qwen-vl-max-2025-08-13

(qwen-vl-max-0813)

60

100.000

qwen-vl-max-2025-04-08

(qwen-vl-max-0408)

1.200

1.000.000

qwen-vl-plus

qwen-vl-plus-latest

qwen-vl-plus-2025-08-15

(qwen-vl-plus-0815)

120

1.000.000

qwen-vl-plus-2025-05-07

(qwen-vl-plus-0507)

qwen-vl-plus-2025-01-25

(qwen-vl-plus-0125)

1.200

qvq-max

60

100.000

qvq-max-latest

qvq-max-2025-03-25

(qvq-max-0325)

AS

Dalam mode penyebaran AS, titik akhir dan penyimpanan data berlokasi di wilayah AS (Virginia). Sumber daya komputasi Inferensi terbatas di Amerika Serikat.

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-vl-flash-us

1.200

1.000.000

qwen3-vl-flash-2025-10-15-us

120

1.000.000

Tiongkok Daratan

Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data berlokasi di wilayah Beijing. Sumber daya komputasi Inferensi terbatas di Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-vl-plus

3.000

5.000.000

qwen3-vl-plus-2025-12-19

60

100.000

qwen3-vl-plus-2025-09-23

qwen3-vl-flash

3.000

5.000.000

qwen3-vl-flash-2026-01-22

60

100.000

qwen3-vl-flash-2025-10-15

qwen-vl-max

1.200

1.000.000

qwen-vl-max-latest

qwen-vl-max-2025-08-13

(qwen-vl-max-0813)

60

100.000

qwen-vl-max-2025-04-08

(qwen-vl-max-0408)

qwen-vl-max-2025-04-02

(qwen-vl-max-0402)

qwen-vl-max-2025-01-25

(qwen-vl-max-0125)

qwen-vl-max-2024-12-30

(qwen-vl-max-1230)

qwen-vl-max-2024-11-19

(qwen-vl-max-1119)

qwen-vl-plus

1.200

1.000.000

qwen-vl-plus-latest

qwen-vl-plus-2025-08-15

(qwen-vl-plus-0815)

60

100.000

qwen-vl-plus-2025-07-10

(qwen-vl-plus-0710)

qwen-vl-plus-2025-05-07

(qwen-vl-plus-0507)

qwen-vl-plus-2025-01-25

(qwen-vl-plus-0125)

qwen-vl-plus-2025-01-02

(qwen-vl-plus-0102)

qvq-max

qvq-max-latest

qvq-max-2025-05-15

(qvq-max-0515)

qvq-max-2025-03-25

(qvq-max-0325)

qvq-plus

qvq-plus-latest

qvq-plus-2025-05-15

(qvq-plus-0515)

Qwen-Omni (omni-modal)

Internasional

Dalam mode penyebaran Internasional, titik akhir dan penyimpanan data berlokasi di wilayah Singapura. Sumber daya komputasi Inferensi dijadwalkan secara dinamis di seluruh dunia, kecuali Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-omni-flash

60

100.000

qwen3-omni-flash-2025-12-01

qwen3-omni-flash-2025-09-15

qwen-omni-turbo

qwen-omni-turbo-latest

qwen-omni-turbo-2025-03-26

Tiongkok Daratan

Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data berlokasi di wilayah Beijing. Sumber daya komputasi Inferensi terbatas di Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-omni-flash

60

100.000

qwen3-omni-flash-2025-12-01

qwen3-omni-flash-2025-09-15

qwen-omni-turbo

qwen-omni-turbo-latest

qwen-omni-turbo-2025-03-26

(qwen-omni-turbo-0326)

qwen-omni-turbo-2025-01-19

(qwen-omni-turbo-0119)

Qwen-Omni-Realtime (multimodal real-time)

Internasional

Dalam mode penyebaran Internasional, titik akhir dan penyimpanan data berlokasi di wilayah Singapura. Sumber daya komputasi Inferensi dijadwalkan secara dinamis di seluruh dunia, kecuali Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-omni-flash-realtime

60

100.000

qwen3-omni-flash-realtime-2025-12-01

qwen3-omni-flash-realtime-2025-09-15

qwen-omni-turbo-realtime

qwen-omni-turbo-realtime-latest

qwen-omni-turbo-realtime-2025-05-08

Tiongkok Daratan

Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data berlokasi di wilayah Beijing. Sumber daya komputasi Inferensi terbatas di Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-omni-flash-realtime

60

100.000

qwen3-omni-flash-realtime-2025-12-01

qwen3-omni-flash-realtime-2025-09-15

qwen-omni-turbo-realtime

qwen-omni-turbo-realtime-latest

qwen-omni-turbo-realtime-2025-05-08

Qwen-OCR (ekstraksi teks)

Global

Dalam mode penyebaran Global, titik akhir dan penyimpanan data berlokasi di wilayah AS (Virginia). Sumber daya komputasi Inferensi dijadwalkan secara dinamis di seluruh dunia.

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen-vl-ocr

600

6.000.000

qwen-vl-ocr-2025-11-20

1.200

Internasional

Dalam mode penyebaran Internasional, titik akhir dan penyimpanan data berlokasi di wilayah Singapura. Sumber daya komputasi Inferensi dijadwalkan secara dinamis di seluruh dunia, kecuali Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen-vl-ocr

600

6.000.000

qwen-vl-ocr-2025-11-20

1.200

Tiongkok Daratan

Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data berlokasi di wilayah Beijing. Sumber daya komputasi Inferensi terbatas di Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen-vl-ocr

600

6.000.000

qwen-vl-ocr-latest

1.200

qwen-vl-ocr-2025-11-20

qwen-vl-ocr-2025-04-13

600

qwen-vl-ocr-2024-10-28

Qwen-Math

Catatan

Hanya mode penyebaran Tiongkok Daratan yang didukung. Dalam mode ini, titik akhir dan penyimpanan data berlokasi di wilayah Beijing, dan sumber daya komputasi Inferensi terbatas di Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen-math-plus

1.200

1.000.000

qwen-math-plus-latest

qwen-math-plus-2024-09-19

(qwen-math-plus-0919)

60

100.000

qwen-math-plus-2024-08-16

(qwen-math-plus-0816)

10

20.000

qwen-math-turbo

1200

1.000.000

qwen-math-turbo-latest

qwen-math-turbo-2024-09-19

(qwen-math-turbo-0919)

60

100.000

Qwen-Coder

Global

Dalam mode penyebaran Global, titik akhir dan penyimpanan data berlokasi di wilayah AS (Virginia). Sumber daya komputasi Inferensi dijadwalkan secara dinamis di seluruh dunia.

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-coder-plus

2.400

2.000.000

qwen3-coder-plus-2025-09-23

60

1.000.000

qwen3-coder-plus-2025-07-22

qwen3-coder-flash

1.200

qwen3-coder-flash-2025-07-28

60

Internasional

Dalam mode penyebaran Internasional, titik akhir dan penyimpanan data berlokasi di wilayah Singapura. Sumber daya komputasi Inferensi dijadwalkan secara dinamis di seluruh dunia, kecuali Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-coder-plus

2.400

2.000.000

qwen3-coder-plus-2025-09-23

60

1.000.000

qwen3-coder-plus-2025-07-22

60

1.000.000

qwen3-coder-flash

600

5.000.000

qwen3-coder-flash-2025-07-28

600

5.000.000

Tiongkok Daratan

Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data berlokasi di wilayah Beijing. Sumber daya komputasi Inferensi terbatas di Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-coder-plus

5.000

5.000.000

qwen3-coder-plus-2025-09-23

60

1.000.000

qwen3-coder-plus-2025-07-22

qwen3-coder-flash

5.000

5.000.000

qwen3-coder-flash-2025-07-28

60

1.000.000

qwen-coder-plus

1.200

qwen-coder-plus-latest

qwen-coder-plus-2024-11-06

(qwen-coder-plus-1106)

60

100.000

qwen-coder-turbo

1.200

1.000.000

qwen-coder-turbo-latest

qwen-coder-turbo-2024-09-19

(qwen-coder-turbo-0919)

60

100.000

Terjemahan Qwen

Global

Dalam mode penyebaran Global, titik akhir dan penyimpanan data berlokasi di wilayah AS (Virginia). Sumber daya komputasi Inferensi dijadwalkan secara dinamis di seluruh dunia.

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen-mt-plus

60

25.000

qwen-mt-flash

35.000

qwen-mt-lite

100.000

Internasional

Dalam mode penyebaran Internasional, titik akhir dan penyimpanan data berlokasi di wilayah Singapura. Sumber daya komputasi Inferensi dijadwalkan secara dinamis di seluruh dunia, kecuali Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen-mt-plus

60

100.000

qwen-mt-flash

qwen-mt-lite

qwen-mt-turbo

Tiongkok Daratan

Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data berlokasi di wilayah Beijing. Sumber daya komputasi Inferensi terbatas di Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen-mt-plus

60

25.000

qwen-mt-flash

35.000

qwen-mt-lite

100.000

qwen-mt-turbo

35.000

Penambangan data Qwen

Catatan

Hanya mode penyebaran Tiongkok Daratan yang didukung. Dalam mode ini, titik akhir dan penyimpanan data berlokasi di wilayah Beijing, dan sumber daya komputasi Inferensi terbatas di Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen-doc-turbo

600

3.000.000

Penelitian mendalam Qwen

Catatan

Hanya mode penyebaran Tiongkok Daratan yang didukung. Dalam mode ini, titik akhir dan penyimpanan data berlokasi di wilayah Beijing, dan sumber daya komputasi Inferensi terbatas di Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen-deep-research

120

1.200.000

Generasi teks - Qwen - Open source

Model bahasa Qwen open-source

Global

Dalam mode penyebaran Global, titik akhir dan penyimpanan data berlokasi di wilayah AS (Virginia). Sumber daya komputasi Inferensi dijadwalkan secara dinamis di seluruh dunia.

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-next-80b-a3b-thinking

600

1.000.000

qwen3-next-80b-a3b-instruct

qwen3-235b-a22b-thinking-2507

qwen3-235b-a22b-instruct-2507

qwen3-30b-a3b-thinking-2507

qwen3-30b-a3b-instruct-2507

qwen3-235b-a22b

qwen3-30b-a3b

qwen3-32b

qwen3-14b

qwen3-8b

Internasional

Dalam mode penyebaran Internasional, titik akhir dan penyimpanan data berlokasi di wilayah Singapura. Sumber daya komputasi Inferensi dijadwalkan secara dinamis di seluruh dunia, kecuali Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-next-80b-a3b-thinking

600

1.000.000

qwen3-next-80b-a3b-instruct

qwen3-235b-a22b-thinking-2507

qwen3-235b-a22b-instruct-2507

qwen3-30b-a3b-thinking-2507

qwen3-30b-a3b-instruct-2507

qwen3-235b-a22b

qwen3-32b

qwen3-30b-a3b

qwen3-14b

qwen3-8b

qwen3-4b

qwen3-1.7b

qwen3-0.6b

qwen2.5-14b-instruct-1m

60

1.000.000

qwen2.5-7b-instruct-1m

qwen2.5-72b-instruct

100.000

qwen2.5-32b-instruct

qwen2.5-14b-instruct

qwen2.5-7b-instruct

Tiongkok Daratan

Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data berlokasi di wilayah Beijing. Sumber daya komputasi Inferensi terbatas di Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-next-80b-a3b-thinking

600

1.000.000

qwen3-next-80b-a3b-instruct

qwen3-235b-a22b-thinking-2507

qwen3-235b-a22b-instruct-2507

qwen3-30b-a3b-thinking-2507

qwen3-30b-a3b-instruct-2507

qwen3-235b-a22b

qwen3-30b-a3b

qwen3-32b

qwen3-14b

qwen3-8b

qwen3-4b

qwen3-1.7b

qwen3-0.6b

qwq-32b

qwq-32b-preview

1.200

qwen2.5-72b-instruct

qwen2.5-32b-instruct

qwen2.5-14b-instruct

qwen2.5-14b-instruct-1m

qwen2.5-7b-instruct

qwen2.5-7b-instruct-1m

qwen2.5-3b-instruct

2.000.000

qwen2.5-1.5b-instruct

qwen2.5-0.5b-instruct

Qwen-VL (pemahaman visual/gambar-ke-teks)

Internasional

Dalam mode penyebaran Internasional, titik akhir dan penyimpanan data berlokasi di wilayah Singapura. Sumber daya komputasi Inferensi dijadwalkan secara dinamis di seluruh dunia, kecuali Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-vl-32b-thinking

60

100.000

qwen3-vl-32b-instruct

qwen3-vl-30b-a3b-thinking

qwen3-vl-30b-a3b-instruct

qwen3-vl-8b-thinking

qwen3-vl-8b-instruct

qwen3-vl-235b-a22b-thinking

qwen3-vl-235b-a22b-instruct

qwen2.5-vl-72b-instruct

qwen2.5-vl-32b-instruct

qwen2.5-vl-7b-instruct

qwen2.5-vl-3b-instruct

Tiongkok Daratan

Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data berlokasi di wilayah Beijing. Sumber daya komputasi Inferensi terbatas di Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-vl-32b-thinking

600

1.000.000

qwen3-vl-32b-instruct

qwen3-vl-30b-a3b-thinking

qwen3-vl-30b-a3b-instruct

qwen3-vl-8b-thinking

qwen3-vl-8b-instruct

qwen3-vl-235b-a22b-thinking

60

100.000

qwen3-vl-235b-a22b-instruct

qwen2.5-vl-72b-instruct

qwen2.5-vl-32b-instruct

qwen2.5-vl-7b-instruct

1.200

1.000.000

qwen2.5-vl-3b-instruct

qwen2-vl-72b-instruct

60

100.000

qwen2-vl-7b-instruct

1.200

1.000.000

qwen2-vl-2b-instruct

qvq-72b-preview

60

100.000

Qwen-Omni

Internasional

Dalam mode penyebaran Internasional, titik akhir dan penyimpanan data berlokasi di wilayah Singapura. Sumber daya komputasi Inferensi dijadwalkan secara dinamis di seluruh dunia, kecuali Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen2.5-omni-7b

60

100.000

Tiongkok Daratan

Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data berlokasi di wilayah Beijing. Sumber daya komputasi Inferensi terbatas di Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen2.5-omni-7b

60

100.000

Qwen3-Omni-Captioner

Internasional

Dalam mode penyebaran Internasional, titik akhir dan penyimpanan data berlokasi di wilayah Singapura. Sumber daya komputasi Inferensi dijadwalkan secara dinamis di seluruh dunia, kecuali Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-omni-30b-a3b-captioner

60

100.000

Tiongkok Daratan

Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data berlokasi di wilayah Beijing. Sumber daya komputasi Inferensi terbatas di Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-omni-30b-a3b-captioner

60

100.000

Qwen-Math

Catatan

Hanya mode penyebaran Tiongkok Daratan yang didukung. Dalam mode ini, titik akhir dan penyimpanan data berlokasi di wilayah Beijing, dan sumber daya komputasi Inferensi terbatas di Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen2.5-math-72b-instruct

1.200

1.000.000

qwen2.5-math-7b-instruct

qwen2.5-math-1.5b-instruct

Qwen-Coder

Global

Dalam mode penyebaran Global, titik akhir dan penyimpanan data berlokasi di wilayah AS (Virginia). Sumber daya komputasi Inferensi dijadwalkan secara dinamis di seluruh dunia.

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-coder-480b-a35b-instruct

600

1.000.000

qwen3-coder-30b-a3b-instruct

Internasional

Dalam mode penyebaran Internasional, titik akhir dan penyimpanan data berlokasi di wilayah Singapura. Sumber daya komputasi Inferensi dijadwalkan secara dinamis di seluruh dunia, kecuali Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-coder-480b-a35b-instruct

1.000.000

600

qwen3-coder-30b-a3b-instruct

Tiongkok Daratan

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-coder-480b-a35b-instruct

600

1.000.000

qwen3-coder-30b-a3b-instruct

qwen2.5-coder-32b-instruct

1.200

qwen2.5-coder-14b-instruct

qwen2.5-coder-7b-instruct

qwen2.5-coder-3b-instruct

2.000.000

qwen2.5-coder-1.5b-instruct

qwen2.5-coder-0.5b-instruct

Generasi teks - Pihak ketiga

DeepSeek

Catatan

Hanya mode penyebaran Tiongkok Daratan yang didukung. Dalam mode ini, titik akhir dan penyimpanan data berlokasi di wilayah Beijing, dan sumber daya komputasi Inferensi terbatas di Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

deepseek-v3.2

15.000

1.200.000

deepseek-v3.2-exp

15.000

1.200.000

deepseek-v3.1

15.000

1.200.000

deepseek-r1-0528

60

100.000

deepseek-r1

15.000

1.200.000

deepseek-v3

deepseek-r1-distill-qwen-7b

deepseek-r1-distill-qwen-14b

deepseek-r1-distill-qwen-32b

deepseek-r1-distill-qwen-1.5b

60

100.000

deepseek-r1-distill-llama-8b

deepseek-r1-distill-llama-70b

Kimi

Catatan

Hanya didukung di Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

kimi-k2.5

60

100.000

kimi-k2-thinking

60

100.000

Moonshot-Kimi-K2-Instruct

60

100.000

GLM

Catatan

Hanya mode penyebaran Tiongkok Daratan yang didukung. Dalam mode ini, titik akhir dan penyimpanan data berlokasi di wilayah Beijing, dan sumber daya komputasi Inferensi terbatas di Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

glm-4.7

60

1.000.000

glm-4.6

Generasi gambar

Qwen (Qwen-Image)

Internasional

Dalam mode penyebaran Internasional, titik akhir dan penyimpanan data berlokasi di wilayah Singapura. Sumber daya komputasi Inferensi dijadwalkan secara dinamis di seluruh dunia, kecuali Tiongkok Daratan.

Layanan

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Batas pengiriman tugas

Tugas konkuren

Teks-ke-gambar

qwen-image-max

2 per menit

Tidak ada batas untuk API sinkron

qwen-image-max-2025-12-30

2 per menit

Tidak ada batas untuk API sinkron

qwen-image-plus

2 per detik

Tidak ada batas untuk API sinkron / 2 untuk API async

qwen-image-plus-2026-01-09

2 per detik

Tidak ada batas untuk API sinkron

qwen-image

2 per detik

Tidak ada batas untuk API sinkron / 2 untuk API async

Pengeditan gambar

qwen-image-edit-max

2 per menit

Tidak ada batas untuk API sinkron

qwen-image-edit-max-2026-01-16

2 per menit

Tidak ada batas untuk API sinkron

qwen-image-edit-plus

2 per detik

Tidak ada batas untuk API sinkron

qwen-image-edit-plus-2025-12-15

2 per detik

Tidak ada batas untuk API sinkron

qwen-image-edit-plus-2025-10-30

2 per detik

Tidak ada batas untuk API sinkron

qwen-image-edit

2 per detik

Tidak ada batas untuk API sinkron

Tiongkok Daratan

Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data berlokasi di wilayah Beijing. Sumber daya komputasi Inferensi terbatas di Tiongkok Daratan.

Layanan

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Batas pengiriman tugas

Tugas konkuren

Teks-ke-gambar

qwen-image-max

2 per menit

Tidak ada batas untuk API sinkron

qwen-image-max-2025-12-30

2 per menit

Tidak ada batas untuk API sinkron

qwen-image-plus

2 per detik

Tidak ada batas untuk API sinkron / 2 untuk API async

qwen-image-plus-2026-01-09

2 per detik

Tidak ada batas untuk API sinkron

qwen-image

2 per detik

Tidak ada batas untuk API sinkron / 2 untuk API async

Pengeditan gambar

qwen-image-edit-max

2 per menit

Tidak ada batas untuk API sinkron

qwen-image-edit-max-2026-01-16

2 per menit

Tidak ada batas untuk API sinkron

qwen-image-edit-plus

2 per detik

Tidak ada batas untuk API sinkron

qwen-image-edit-plus-2025-12-15

2 per detik

Tidak ada batas untuk API sinkron

qwen-image-edit-plus-2025-10-30

2 per detik

Tidak ada batas untuk API sinkron

qwen-image-edit

2 per detik

Tidak ada batas untuk API sinkron

Image translation

qwen-mt-image

1 per detik

2

Tongyi - teks-ke-gambar - Z-Image

Internasional

Dalam mode penyebaran Internasional, titik akhir dan penyimpanan data berlokasi di wilayah Singapura. Sumber daya komputasi Inferensi dijadwalkan secara dinamis di seluruh dunia, kecuali Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Batas RPS pengiriman tugas

Tugas konkuren

z-image-turbo

2

Tidak ada batas untuk API sinkron

Tiongkok Daratan

Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data berlokasi di wilayah Beijing. Sumber daya komputasi Inferensi terbatas di Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Batas RPS pengiriman tugas

Tugas konkuren

z-image-turbo

2

Tidak ada batas untuk API sinkron

Wan

Global

Dalam mode penyebaran Global, titik akhir dan penyimpanan data berlokasi di wilayah AS (Virginia). Sumber daya komputasi Inferensi dijadwalkan secara dinamis di seluruh dunia.

Layanan

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Batas RPS pengiriman tugas

Tugas konkuren

Teks-ke-gambar

wan2.6-t2i

5

5

Generasi gambar

wan2.6-image

5

5

Internasional

Dalam mode penyebaran Internasional, titik akhir dan penyimpanan data berlokasi di wilayah Singapura. Sumber daya komputasi Inferensi dijadwalkan secara dinamis di seluruh dunia, kecuali Tiongkok Daratan.

Layanan

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Batas RPS pengiriman tugas

Tugas konkuren

Teks-ke-gambar

wan2.6-t2i

5

5

wan2.5-t2i-preview

wan2.2-t2i-flash

2

2

wan2.2-t2i-plus

wan2.1-t2i-turbo

wan2.1-t2i-plus

Pengeditan gambar

wan2.5-i2i-preview

5

5

Generasi gambar

wan2.6-image

5

5

Tiongkok Daratan

Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data berlokasi di wilayah Beijing. Sumber daya komputasi Inferensi terbatas di Tiongkok Daratan.

Layanan

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Batas RPS Pengiriman Tugas

Tugas konkuren

Teks-ke-gambar

wan2.6-t2i

1

5

wan2.5-t2i-preview

5

wanx2.0-t2i-turbo

2

2

wanx2.1-t2i-turbo

wanx2.1-t2i-plus

wan2.2-t2i-flash

wan2.2-t2i-plus

Pengeditan gambar umum

wan2.5-i2i-preview

5

5

wanx2.1-imageedit

2

2

Generasi gambar

wan2.6-image

5

5

OutfitAnyone

Catatan

Hanya didukung di Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Batas RPS pengiriman tugas

Tugas konkuren

aitryon-plus

10

5

aitryon-parsing-v1

10

Tidak ada batas untuk API sinkron

Generasi video

Seri Wan

Global

Dalam mode penyebaran Global, titik akhir dan penyimpanan data berlokasi di wilayah AS (Virginia). Sumber daya komputasi Inferensi dijadwalkan secara dinamis di seluruh dunia.

Layanan

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Batas RPS pengiriman tugas

Tugas konkuren

Teks-ke-gambar

wan2.6-t2v

5

5

Gambar-ke-video - frame pertama

wan2.6-i2v

Referensi-ke-video

wan2.6-r2v

Internasional

Dalam mode penyebaran Internasional, titik akhir dan penyimpanan data berlokasi di wilayah Singapura. Sumber daya komputasi Inferensi dijadwalkan secara dinamis di seluruh dunia, kecuali Tiongkok Daratan.

Layanan

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Batas RPS pengiriman tugas

Tugas konkuren

Teks-ke-gambar

wan2.6-t2v

5

5

wan2.5-t2v-preview

wan2.2-t2v-plus

2

2

wan2.1-t2v-turbo

wan2.1-t2v-plus

Gambar-ke-video - frame pertama

wan2.6-i2v-flash

5

5

wan2.6-i2v

wan2.5-i2v-preview

wan2.2-i2v-flash

2

2

wan2.1-i2v-plus

wan2.1-i2v-turbo

wan2.2-i2v-plus

Gambar-ke-video - frame pertama dan terakhir

wan2.2-kf2v-flash

wan2.1-kf2v-plus

Pengeditan video umum

wan2.1-vace-plus

Referensi-ke-video

wan2.6-r2v-flash

5

5

wan2.6-r2v

5

5

Animasikan gambar

wan2.2-animate-move

5

1

Pertukaran karakter video

wan2.2-animate-mix

5

1

AS

Dalam mode penyebaran AS, titik akhir dan penyimpanan data berlokasi di wilayah AS (Virginia). Sumber daya komputasi Inferensi terbatas di Amerika Serikat.

Layanan

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Batas RPS pengiriman tugas

Tugas konkuren

Teks-ke-gambar

wan2.6-t2v-us

5

5

Gambar-ke-video - frame pertama

wan2.6-i2v-us

Tiongkok Daratan

Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data berlokasi di wilayah Beijing. Sumber daya komputasi Inferensi terbatas di Tiongkok Daratan.

Layanan

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Batas RPS pengiriman tugas

Tugas konkuren

Teks-ke-gambar

wan2.6-t2v

5

5

wan2.5-t2v-preview

wan2.2-t2v-plus

2

2

wanx2.1-t2v-turbo

wanx2.1-t2v-plus

Gambar-ke-video - frame pertama

wan2.6-i2v-flash

5

5

wan2.6-i2v

wan2.5-i2v-preview

wan2.2-i2v-plus

2

2

wanx2.1-i2v-turbo

wanx2.1-i2v-plus

Gambar-ke-video - frame pertama dan terakhir

wan2.2-kf2v-flash

wanx2.1-kf2v-plus

Pengeditan video umum

wanx2.1-vace-plus

Referensi-ke-video

wan2.6-r2v-flash

5

5

wan2.6-r2v

5

5

Manusia digital

wan2.2-s2v-detect

5

Tidak ada batas untuk API sinkron

wan2.2-s2v

1

Animasikan gambar

wan2.2-animate-move

5

1

Pertukaran karakter video

wan2.2-animate-mix

5

1

AnimateAnyone

Catatan

Hanya mode penyebaran Tiongkok Daratan yang didukung. Dalam mode ini, titik akhir dan penyimpanan data berlokasi di wilayah Beijing, dan sumber daya komputasi Inferensi terbatas di Tiongkok Daratan.

Model

Batas RPS Pengiriman Tugas

Tugas konkuren

animate-anyone-detect-gen2

5

Tidak ada batas untuk API sinkron

animate-anyone-template-gen2

1

Pada waktu tertentu, hanya satu tugas yang berjalan. Tugas lain dalam antrian berada dalam status tertunda.

animate-anyone-gen2

EMO

Catatan

Hanya mode penyebaran Tiongkok Daratan yang didukung. Dalam mode ini, titik akhir dan penyimpanan data berlokasi di wilayah Beijing, dan sumber daya komputasi Inferensi terbatas di Tiongkok Daratan.

Model

Batas RPS pengiriman tugas

Tugas konkuren

emo-detect-v1

5

Tidak ada batas untuk API sinkron

emo-v1

1

Pada waktu tertentu, hanya satu tugas yang berjalan. Tugas lain dalam antrian berada dalam status tertunda.

LivePortrait

Catatan

Hanya mode penyebaran Tiongkok Daratan yang didukung. Dalam mode ini, titik akhir dan penyimpanan data berlokasi di wilayah Beijing, dan sumber daya komputasi Inferensi terbatas di Tiongkok Daratan.

Model

Batas RPS pengiriman tugas

Tugas konkuren

liveportrait-detect

5

Tidak ada batas untuk API sinkron

liveportrait

1

Pada waktu tertentu, hanya satu tugas yang berjalan. Tugas lain dalam antrian berada dalam status tertunda.

VideoRetalk

Catatan

Hanya mode penyebaran Tiongkok Daratan yang didukung. Dalam mode ini, titik akhir dan penyimpanan data berlokasi di wilayah Beijing, dan sumber daya komputasi Inferensi terbatas di Tiongkok Daratan.

Model

Batas RPS pengiriman tugas

Tugas konkuren

videoretalk

1

1

Pada waktu tertentu, hanya satu tugas yang berjalan. Tugas lain dalam antrian berada dalam status tertunda.

Emoji

Catatan

Hanya mode penyebaran Tiongkok Daratan yang didukung. Dalam mode ini, titik akhir dan penyimpanan data berlokasi di wilayah Beijing, dan sumber daya komputasi Inferensi terbatas di Tiongkok Daratan.

Model

Batas RPS pengiriman tugas

Tugas konkuren

emoji-detect-v1

1

Tidak ada batas untuk API sinkron

emoji-v1

1

Pada waktu tertentu, hanya satu tugas yang berjalan. Tugas lain dalam antrian berada dalam status tertunda.

Transformasi gaya video

Catatan

Hanya mode penyebaran Tiongkok Daratan yang didukung. Dalam mode ini, titik akhir dan penyimpanan data berlokasi di wilayah Beijing, dan sumber daya komputasi Inferensi terbatas di Tiongkok Daratan.

Model

Batas RPS pengiriman tugas

Tugas konkuren

video-style-transform

2

1

Pada waktu tertentu, hanya satu tugas yang berjalan. Tugas lain dalam antrian berada dalam status tertunda.

Sintesis suara (teks-ke-ucapan)

Sintesis suara Qwen

Internasional

Dalam mode penyebaran internasional, titik akhir dan penyimpanan data keduanya berlokasi di wilayah Singapura. Sumber daya komputasi inferensi dijadwalkan secara dinamis di seluruh dunia (kecuali Tiongkok Daratan).

Model

RPM

qwen3-tts-flash

180

qwen3-tts-flash-2025-11-27

180

qwen3-tts-flash-2025-09-18

10

Tiongkok Daratan

Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data keduanya berlokasi di wilayah Beijing. Sumber daya komputasi inferensi terbatas di Tiongkok Daratan.

Qwen3-TTS-Flash

Model

RPM

qwen3-tts-flash

180

qwen3-tts-flash-2025-11-27

180

qwen3-tts-flash-2025-09-18

10

Qwen-TTS

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen-tts

10

100.000

qwen-tts-latest

qwen-tts-2025-05-22

qwen-tts-2025-04-10

Sintesis suara real-time Qwen

Internasional

Dalam mode penyebaran internasional, titik akhir dan penyimpanan data keduanya berlokasi di wilayah Singapura. Sumber daya komputasi inferensi dijadwalkan secara dinamis di seluruh dunia (kecuali Tiongkok Daratan).

Qwen3-TTS-VD-Realtime

Model

RPM

qwen3-tts-vd-realtime-2025-12-16

180

Qwen3-TTS-VC-Realtime

Model

RPM

qwen3-tts-vc-realtime-2025-11-27

180

Qwen3-TTS-Flash-Realtime

Model

RPM

qwen3-tts-flash-realtime

180

qwen3-tts-flash-realtime-2025-11-27

180

qwen3-tts-flash-realtime-2025-09-18

10

Tiongkok Daratan

Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data keduanya berlokasi di wilayah Beijing. Sumber daya komputasi inferensi terbatas di Tiongkok Daratan.

Qwen3-TTS-VD-Realtime

Model

RPM

qwen3-tts-vd-realtime-2025-12-16

180

Qwen3-TTS-VC-Realtime

Model

RPM

qwen3-tts-vc-realtime-2025-11-27

180

Qwen3-TTS-Flash-Realtime

Model

RPM

qwen3-tts-flash-realtime

180

qwen3-tts-flash-realtime-2025-11-27

180

qwen3-tts-flash-realtime-2025-09-18

10

Qwen-TTS-Realtime

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen-tts-realtime

10

100.000

qwen-tts-realtime-latest

qwen-tts-realtime-2025-07-15

Kloning suara Qwen

Internasional

Dalam mode penyebaran internasional, titik akhir dan penyimpanan data keduanya berlokasi di wilayah Singapura. Sumber daya komputasi inferensi dijadwalkan secara dinamis di seluruh dunia (kecuali Tiongkok Daratan).

Model

RPM

qwen-voice-enrollment

180

Tiongkok Daratan

Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data keduanya berlokasi di wilayah Beijing. Sumber daya komputasi inferensi terbatas di Tiongkok Daratan.

Model

RPM

qwen-voice-enrollment

180

Desain suara Qwen

Internasional

Dalam mode penyebaran internasional, titik akhir dan penyimpanan data keduanya berlokasi di wilayah Singapura. Sumber daya komputasi inferensi dijadwalkan secara dinamis di seluruh dunia (kecuali Tiongkok Daratan).

Model

RPM

qwen-voice-design

180

Tiongkok Daratan

Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data keduanya berlokasi di wilayah Beijing. Sumber daya komputasi inferensi terbatas di Tiongkok Daratan.

Model

RPM

qwen-voice-design

180

Sintesis suara CosyVoice

Catatan

Hanya mode penyebaran Tiongkok Daratan yang didukung. Dalam mode ini, titik akhir dan penyimpanan data berlokasi di wilayah Beijing, dan sumber daya komputasi inferensi terbatas di Tiongkok Daratan.

Sintesis suara

Model

Batas RPS pengiriman tugas

cosyvoice-v3-plus

3

cosyvoice-v3-flash

cosyvoice-v2

Kloning suara

Model

Batas RPS pengiriman tugas

cosyvoice-v3-plus

10

Batas permintaan konkuren total untuk fitur kloning suara adalah 10 RPS. Batas ini berlaku baik saat Anda memanggil satu versi model maupun beberapa versi model secara bersamaan. Artinya:

  • Jika Anda hanya memanggil v2, laju permintaan konkuren maksimumnya adalah 10 RPS.

  • Jika Anda memanggil v2 dan v3 secara bersamaan, laju permintaan gabungan keduanya tidak boleh melebihi 10 RPS. Misalnya, jika v2 menggunakan 7 RPS, v3 dapat menggunakan maksimal 3 RPS.

cosyvoice-v3-flash

cosyvoice-v2

Pengenalan ucapan (ucapan-ke-teks) dan terjemahan (ucapan-ke-terjemahan)

Qwen3-LiveTranslate-Flash

Internasional

Dalam mode penyebaran internasional, titik akhir dan penyimpanan data keduanya berlokasi di wilayah Singapura. Sumber daya komputasi inferensi dijadwalkan secara dinamis di seluruh dunia (kecuali Tiongkok Daratan).

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-livetranslate-flash

100

100.000

qwen3-livetranslate-flash-2025-12-01

Tiongkok Daratan

Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data keduanya berlokasi di wilayah Beijing. Sumber daya komputasi inferensi terbatas di Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-livetranslate-flash

100

100.000

qwen3-livetranslate-flash-2025-12-01

Qwen3-LiveTranslate-Flash-Realtime

Internasional

Dalam mode penyebaran internasional, titik akhir dan penyimpanan data keduanya berlokasi di wilayah Singapura. Sumber daya komputasi inferensi dijadwalkan secara dinamis di seluruh dunia (kecuali Tiongkok Daratan).

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-livetranslate-flash-realtime

10

100.000

qwen3-livetranslate-flash-realtime-2025-09-22

Tiongkok Daratan

Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data keduanya berlokasi di wilayah Beijing. Sumber daya komputasi inferensi terbatas di Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-livetranslate-flash-realtime

10

100.000

qwen3-livetranslate-flash-realtime-2025-09-22

Pengenalan file audio Qwen

Internasional

Dalam mode penyebaran internasional, titik akhir dan penyimpanan data keduanya berlokasi di wilayah Singapura. Sumber daya komputasi inferensi dijadwalkan secara dinamis di seluruh dunia (kecuali Tiongkok Daratan).

Qwen3-ASR-Flash-Filetrans

Model

RPM

qwen3-asr-flash-filetrans

100

qwen3-asr-flash-filetrans-2025-11-17

Qwen3-ASR-Flash

Model

RPM

qwen3-asr-flash

100

qwen3-asr-flash-2025-09-08

AS

Dalam mode penyebaran AS, titik akhir dan penyimpanan data keduanya berlokasi di wilayah AS (Virginia). Sumber daya komputasi inferensi terbatas di Amerika Serikat.

Model

RPM

qwen3-asr-flash-us

100

qwen3-asr-flash-2025-09-08-us

Tiongkok Daratan

Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data keduanya berlokasi di wilayah Beijing. Sumber daya komputasi inferensi terbatas di Tiongkok Daratan.

Qwen3-ASR-Flash-Filetrans

Model

RPM

qwen3-asr-flash-filetrans

100

qwen3-asr-flash-filetrans-2025-11-17

Qwen3-ASR-Flash

Model

Panggilan per Menit (RPM)

qwen3-asr-flash

100

qwen3-asr-flash-2025-09-08

Pengenalan ucapan real-time Qwen

Internasional

Dalam mode penyebaran internasional, titik akhir dan penyimpanan data keduanya berlokasi di wilayah Singapura. Sumber daya komputasi inferensi dijadwalkan secara dinamis di seluruh dunia (kecuali Tiongkok Daratan).

Model

RPS

qwen3-asr-flash-realtime

20

qwen3-asr-flash-realtime-2025-10-27

Tiongkok Daratan

Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data keduanya berlokasi di wilayah Beijing. Sumber daya komputasi inferensi terbatas di Tiongkok Daratan.

Model

RPS

qwen3-asr-flash-realtime

20

qwen3-asr-flash-realtime-2025-10-27

Pengenalan ucapan Paraformer

Catatan

Hanya mode penyebaran Tiongkok Daratan yang didukung. Dalam mode ini, titik akhir dan penyimpanan data berlokasi di wilayah Beijing, dan sumber daya komputasi inferensi terbatas di Tiongkok Daratan.

Model

Batas RPS pengiriman tugas

paraformer-realtime-v2

20

paraformer-realtime-8k-v2

Model

Batas RPS pengiriman tugas

Batas RPS kueri tugas

paraformer-v2

20

20

paraformer-8k-v2

20

Pengenalan file audio Fun-ASR

Internasional

Dalam mode penyebaran internasional, titik akhir dan penyimpanan data keduanya berlokasi di wilayah Singapura. Sumber daya komputasi inferensi dijadwalkan secara dinamis di seluruh dunia (kecuali Tiongkok Daratan).

Model

Batas RPS pengiriman tugas

Batas RPS kueri tugas

fun-asr

10

20

fun-asr-2025-11-07

fun-asr-2025-08-25

Model

Batas RPM pengiriman tugas

Batas RPS kueri tugas

fun-asr-mtl

100

20

fun-asr-mtl-2025-08-25

Tiongkok Daratan

Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data keduanya berlokasi di wilayah Beijing. Sumber daya komputasi inferensi terbatas di Tiongkok Daratan.

Model

Batas RPS pengiriman tugas

Batas RPS kueri tugas

fun-asr

10

20

fun-asr-2025-11-07

fun-asr-2025-08-25

fun-asr-mtl

fun-asr-mtl-2025-08-25

Pengenalan ucapan real-time Fun-ASR

Internasional

Dalam mode penyebaran internasional, titik akhir dan penyimpanan data keduanya berlokasi di wilayah Singapura. Sumber daya komputasi inferensi dijadwalkan secara dinamis di seluruh dunia (kecuali Tiongkok Daratan).

Model

Batas RPS pengiriman tugas

fun-asr-realtime

20

fun-asr-realtime-2025-11-07

Tiongkok Daratan

Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data keduanya berlokasi di wilayah Beijing. Sumber daya komputasi inferensi terbatas di Tiongkok Daratan.

Model

Batas RPS pengiriman tugas

fun-asr-realtime

20

fun-asr-realtime-2025-11-07

fun-asr-realtime-2025-09-15

Penyematan teks

Internasional

Dalam mode penyebaran Internasional, titik akhir dan penyimpanan data berlokasi di wilayah Singapura. Sumber daya komputasi Inferensi dijadwalkan secara dinamis di seluruh dunia, kecuali Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM/Jumlah tugas

Mencakup token input dan output

text-embedding-v4

1.800

1.000.000

text-embedding-v3

6.000

24.000.000

Tiongkok Daratan

Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data berlokasi di wilayah Beijing. Sumber daya komputasi Inferensi terbatas di Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

RPS

TPM/Jumlah tugas

Mencakup token input dan output

text-embedding-v4

30

1.200.000

Penyematan multimodal

Catatan

Hanya mode penyebaran Tiongkok Daratan yang didukung. Dalam mode ini, titik akhir dan penyimpanan data berlokasi di wilayah Beijing, dan sumber daya komputasi Inferensi terbatas di Tiongkok Daratan.

Model

Pembatasan laju

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

仅输入Token

qwen3-vl-embedding

1.200

600.000

multimodal-embedding-v1

120

200.000

Penataan ulang teks

Catatan

Hanya mode penyebaran Tiongkok Daratan yang didukung. Dalam mode ini, titik akhir dan penyimpanan data berlokasi di wilayah Beijing, dan sumber daya komputasi Inferensi terbatas di Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

gte-rerank-v2

5.040

4.980.000.000

Spesifik domain

Pengenalan maksud

Catatan

Hanya mode penyebaran Tiongkok Daratan yang didukung. Dalam mode ini, titik akhir dan penyimpanan data berlokasi di wilayah Beijing, dan sumber daya komputasi Inferensi terbatas di Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

tongyi-intent-detect-v3

1.200

1.000.000

Bermain peran

Internasional

Dalam mode penyebaran Internasional, titik akhir dan penyimpanan data berlokasi di wilayah Singapura. Sumber daya komputasi Inferensi dijadwalkan secara dinamis di seluruh dunia, kecuali Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen-plus-character

120

500.000

qwen-flash-character

qwen-plus-character-ja

Tiongkok Daratan

Catatan

Hanya mode penyebaran Tiongkok Daratan yang didukung. Dalam mode ini, titik akhir dan penyimpanan data berlokasi di wilayah Beijing, dan sumber daya komputasi Inferensi terbatas di Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen-plus-character

120

500.000

Model yang telah dipensiunkan

Untuk informasi lebih lanjut, lihat Mekanisme pembatalan publikasi model.

Dipensiunkan pada 30 Januari 2026

Kategori

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

RPM

TPM

Mencakup token input dan output

Qwen-Plus

qwen-plus-2024-11-27

0

0

qwen-plus-2024-11-25

qwen-plus-2024-09-19

qwen-plus-2024-08-06

Qwen-Turbo

qwen-turbo-2024-09-19

Qwen-VL

qwen-vl-max-2024-10-30

qwen-vl-max-2024-08-09

qwen-vl-plus-2024-08-09

Dipensiunkan pada 20 Agustus 2025

Kategori

Model

Pembatasan laju (terpicu jika nilai apa pun terlampaui)

RPM

TPM

Mencakup token input dan output

Generasi teks - Qwen

qwen2-72b-instruct

0

0

qwen2-57b-a14b-instruct

qwen2-7b-instruct

qwen1.5-110b-chat

qwen1.5-72b-chat

qwen1.5-32b-chat

qwen1.5-14b-chat

qwen1.5-7b-chat