All Products
Search
Document Center

Alibaba Cloud Model Studio:Batas laju

Last Updated:Mar 31, 2026

Model Studio menerapkan batas laju untuk memastikan penggunaan yang adil. Batas ini dihitung secara menyeluruh di seluruh Pengguna RAM, ruang kerja, dan Kunci API dalam satu Akun Alibaba Cloud. Permintaan yang melebihi batas akan gagal—tunggu hingga batas tersebut diatur ulang sebelum melakukan panggilan lain.

Aturan

  • Batas laju akun: Batas laju diterapkan pada tingkat Akun Alibaba Cloud dan dihitung secara menyeluruh di seluruh Pengguna RAM, ruang kerja, serta Kunci API dalam akun tersebut.

  • Batas laju spesifik model: Setiap model memiliki batas laju independen. Lihat tabel di bawah ini untuk detailnya.

FAQ

Mengapa pembatasan laju dipicu?

Periksa pesan error:

  • Requests rate limit exceeded atau You exceeded your current requests list: Batas frekuensi panggilan telah dipicu.

  • Allocated quota exceeded atau You exceeded your current quota: Batas konsumsi token telah dipicu.

  • Request rate increased too quickly: Lonjakan mendadak pada frekuensi panggilan memicu perlindungan stabilitas sistem, meskipun batas Requests Per Minute (RPM) atau Tokens Per Minute (TPM) belum tercapai.

  • Untuk error lainnya, lihat Pesan error untuk mengidentifikasi penyebabnya.

Catatan: Selain RPM dan TPM, batas laju juga dapat diberlakukan per detik (Requests per Second: RPS = RPM/60, Tokens per Second: TPS = TPM/60). Permintaan yang tiba-tiba meningkat (burst) dapat memicu pembatasan laju meskipun total panggilan masih di bawah batas per menit.

Bagaimana cara melihat penggunaan panggilan model?

Satu jam setelah Anda memanggil model, buka halaman Pemantauan (Singapura atau Beijing). Atur kondisi kueri, seperti rentang waktu dan ruang kerja. Lalu, pada area Models, temukan model target dan klik Monitor di kolom Actions untuk melihat statistik pemanggilan model. Untuk informasi selengkapnya, lihat dokumen Pemantauan.

Data diperbarui setiap jam. Selama periode puncak, mungkin terjadi latensi hingga satu jam.

image

Berapa lama waktu pemulihan setelah batas laju dipicu?

Batas biasanya diatur ulang dalam waktu satu menit. Jika terjadi error lain, lihat Pesan error untuk solusinya.

Bagaimana cara menghindari pembatasan laju?

  1. Pilih model dengan batas laju lebih tinggi: Versi stabil atau versi terbaru memiliki batas laju yang lebih tinggi dibandingkan versi snapshot lama.

  2. Optimalkan strategi pemanggilan Anda

    • Sesuaikan frekuensi panggilan: Jika menerima error "Requests rate limit exceeded" atau "You exceeded your current requests list", kurangi frekuensi panggilan.

    • Kurangi konsumsi token: Jika menerima error "Allocated quota exceeded" atau "You exceeded your current quota", perpendek panjang input atau output.

    • Ratakan laju permintaan: Jika melihat pesan Request rate increased too quickly, optimalkan logika pemanggilan di sisi klien. Terapkan teknik perataan laju (penjadwalan seragam, backoff eksponensial, atau buffering antrian permintaan) untuk menyebarkan permintaan secara merata dalam jendela waktu dan menghindari lonjakan instan.

  3. Tambahkan model cadangan

    Jika mengalami error batas laju, alihkan ke model cadangan untuk melanjutkan generasi. Hal ini meningkatkan konkurensi dan mengurangi tingkat kegagalan. Kode contoh berikut menunjukkan cara mencoba ulang permintaan dengan qwen-plus-2025-07-14 setelah batas laju terpicu untuk qwen-plus-2025-07-28.

    Kode contoh

    import os
    import asyncio
    from openai import AsyncOpenAI, APIStatusError
    
    # Konfigurasi
    API_KEY = os.getenv("DASHSCOPE_API_KEY")
    # Model utama
    MODEL = "qwen-plus-2025-07-28"
    # Model cadangan
    BACKUP_MODEL = "qwen-plus-2025-07-14"
    # Pertanyaan uji
    QUESTION = "Siapa kamu?"
    # Pengaturan konkurensi
    NUM_REQUESTS = 10
    
    client = AsyncOpenAI(
        api_key=API_KEY,
        base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1"
    )
    
    async def send_request(model):
        """Kirim satu permintaan"""
        try:
            await client.chat.completions.create(
                model=model,
                messages=[{"role": "user", "content": QUESTION}]
            )
            return True
        except APIStatusError as e:
            if e.status_code == 429:
                print(f"[Batas laju terpicu] Model {model}")
                return False
            raise
        except Exception as e:
            print(f"[Permintaan gagal] Model {model}, Error: {e}")
            return False
    
    async def task(i):
        # Coba model utama
        if await send_request(MODEL):
            return True
        # Jika terkena batas laju, coba model cadangan
        return await send_request(BACKUP_MODEL)
    
    async def main():
        results = await asyncio.gather(*(task(i) for i in range(NUM_REQUESTS)))
        print(f"Permintaan berhasil: {sum(results)}, Permintaan gagal: {len(results) - sum(results)}")
    
    if __name__ == "__main__":
        asyncio.run(main())
  4. Pisahkan tugas: Memproses percakapan panjang atau dokumen besar dapat menghabiskan banyak token dengan cepat. Pecah batch besar menjadi tugas-tugas kecil dan kirimkan pada waktu yang berbeda.

  5. Gunakan inferensi batch: Jika Anda tidak memerlukan hasil real-time, gunakan inferensi batch (Batch API). Fitur ini tidak tunduk pada batas laju real-time, tetapi Anda harus mempertimbangkan waktu antrian dan pemrosesan.

Generasi teks - Qwen

Model bahasa Qwen

Global

Dalam mode penyebaran Global, titik akhir dan penyimpanan data berada di wilayah US (Virginia) atau wilayah Jerman (Frankfurt), serta sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia.

Model

Pembatasan laju (terpicu jika nilai apa pun dilampaui)

Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60)

RPM

TPM

Mencakup token input dan output

qwen3-max

600

1.000.000

qwen3-max-2025-09-23

60

100.000

qwen3-max-preview

600

1.000.000

qwen3.5-plus

30.000

5.000.000

qwen3.5-plus-2026-02-15

600

1.000.000

qwen-plus

15.000

5.000.000

qwen-plus-2025-12-01

60

1.000.000

qwen-plus-2025-09-11

qwen-plus-2025-07-28

qwen3.5-flash

30.000

10.000.000

qwen3.5-flash-2026-02-23

600

1.000.000

qwen-flash

15.000

10.000.000

qwen-flash-2025-07-28

60

1.000.000

International

Dalam mode penyebaran International, titik akhir dan penyimpanan data berada di wilayah Singapura, sedangkan sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia (tidak termasuk Tiongkok daratan).

Model

Pembatasan laju (terpicu jika nilai apa pun dilampaui)

Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60)

RPM

TPM

Mencakup token input dan output

qwen3-max

600

1.000.000

qwen3-max-2026-01-23

qwen3-max-2025-09-23

60

100.000

qwen3-max-preview

600

1.000.000

qwen-max

120

100.000

qwen-max-latest

600

1.000.000

qwen-max-2025-01-25

(qwen-max-0125)

60

100.000

qwen3.5-plus

15.000

5.000.000

qwen3.5-plus-2026-02-15

60

1.000.000

qwen-plus

600

1.000.000

qwen-plus-latest

600

1.000.000

qwen-plus-2025-12-01

120

1.000.000

qwen-plus-2025-09-11

120

qwen-plus-2025-07-28

60

100.000

qwen-plus-2025-07-14

(qwen-plus-0714)

qwen-plus-2025-04-28

(qwen-plus-0428)

1.000.000

qwen-plus-2025-01-25

(qwen-plus-0125)

100.000

qwen3.5-flash

15.000

5.000.000

qwen3.5-flash-2026-02-23

60

1.000.000

qwen-flash

600

5.000.000

qwen-flash-2025-07-28

600

5.000.000

qwq-plus

60

100.000

qwen-turbo

240

100.000

qwen-turbo-latest

600

5.000.000

qwen-turbo-2025-04-28

(qwen-turbo-0428)

60

1.000.000

qwen-turbo-2024-11-01

(qwen-turbo-1101)

5.000.000

US

Dalam mode penyebaran US, titik akhir dan penyimpanan data berada di wilayah US (Virginia), serta sumber daya komputasi inferensi model dibatasi hanya untuk Amerika Serikat.

Model

Pembatasan laju (terpicu jika nilai apa pun dilampaui)

Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60)

RPM

TPM

Mencakup token input dan output

qwen-plus-us

600

1.000.000

qwen-plus-2025-12-01-us

60

qwen-flash-us

600

5.000.000

qwen-flash-2025-07-28-us

Tiongkok Daratan

Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data berada di wilayah Beijing, serta sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun dilampaui)

Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60)

RPM

TPM

Mencakup token input dan output

qwen3-max

30.000

5.000.000

qwen3-max-2026-01-23

600

1.000.000

qwen3-max-2025-09-23

60

100.000

qwen3-max-preview

600

1.000.000

qwen-max

1.200

1.000.000

qwen-max-latest

qwen-max-2025-01-25

(qwen-max-0125)

60

100.000

qwen-max-2024-09-19

(qwen-max-0919)

qwen3.5-plus

30.000

5.000.000

qwen3.5-plus-2026-02-15

600

1.000.000

qwen-plus

30.000

5.000.000

qwen-plus-latest

15.000

1.200.000

qwen-plus-2025-12-01

120

1.000.000

qwen-plus-2025-09-11

60

qwen-plus-2025-07-28

(qwen-plus-0728)

qwen-plus-2025-07-14

(qwen-plus-0714)

100.000

qwen-plus-2025-04-28

(qwen-plus-0428)

1.000.000

qwen-plus-2025-01-25

(qwen-plus-0125)

150.000

qwen-plus-2025-01-12

(qwen-plus-0112)

qwen-plus-2024-12-20

(qwen-plus-1220)

qwen3.5-flash

30.000

10.000.000

qwen3.5-flash-2026-02-23

600

1.000.000

qwen-flash

30.000

10.000.000

qwen-flash-2025-07-28

60

1.000.000

qwq-plus

600

1.000.000

qwq-plus-latest

qwq-plus-2025-03-05

60

100.000

qwen-turbo

1.200

5.000.000

qwen-turbo-latest

qwen-turbo-2025-04-28

(qwen-turbo-0428)

60

1.000.000

qwen-turbo-2025-02-11

(qwen-turbo-0211)

5.000.000

qwen-turbo-2024-11-01

(qwen-turbo-1101)

qwen-long-latest

1.200

60.000

qwen-long-2025-01-25

(qwen-long-0125)

3

7.500

China (Hong Kong)

Dalam mode penyebaran China (Hong Kong), titik akhir dan penyimpanan data berada di China (Hong Kong), serta sumber daya komputasi inferensi model dibatasi hanya untuk China (Hong Kong).

Model

Pembatasan laju (terpicu jika nilai apa pun dilampaui)

Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60)

RPM

TPM

Mencakup token input dan output

qwen3-max

600

1.000.000

qwen3-max-2026-01-23

qwen-plus

600

1.000.000

qwen-plus-2025-12-01

120

1.000.000

qwen3.5-flash

15.000

5.000.000

qwen3.5-flash-2026-02-23

60

1.000.000

EU

Dalam mode penyebaran EU, titik akhir dan penyimpanan data berada di Jerman (Frankfurt), serta sumber daya komputasi inferensi model dibatasi hanya untuk UE.

Model

Pembatasan laju (terpicu jika nilai apa pun dilampaui)

Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60)

RPM

TPM

Mencakup token input dan output

qwen3-max

600

1.000.000

qwen3-max-2026-01-23

qwen-plus

600

1.000.000

qwen-plus-2025-12-01

120

1.000.000

qwen3.5-flash

30.000

10.000.000

qwen3.5-flash-2026-02-23

600

1.000.000

Qwen-VL (pemahaman visual / gambar-ke-teks)

Global

Dalam mode penyebaran Global, titik akhir dan penyimpanan data berada di wilayah US (Virginia) atau wilayah Jerman (Frankfurt), serta sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia.

Model

Pembatasan laju (terpicu jika nilai apa pun dilampaui)

Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60)

RPM

TPM

Mencakup token input dan output

qwen3-vl-plus

1.200

1.000.000

qwen3-vl-plus-2025-09-23

60

100.000

qwen3-vl-flash

1.200

1.000.000

qwen3-vl-flash-2025-10-15

60

100.000

International

Dalam mode penyebaran International, titik akhir dan penyimpanan data berada di wilayah Singapura, sedangkan sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia (tidak termasuk Tiongkok daratan).

Model

Pembatasan laju (terpicu jika nilai apa pun dilampaui)

Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60)

RPM

TPM

Mencakup token input dan output

qwen3-vl-plus

1.200

1.000.000

qwen3-vl-plus-2025-12-19

60

100.000

qwen3-vl-plus-2025-09-23

120

1.000.000

qwen3-vl-flash

1.200

1.000.000

qwen3-vl-flash-2026-01-22

60

100.000

qwen3-vl-flash-2025-10-15

120

1.000.000

qwen-vl-max

1.200

1.000.000

qwen-vl-max-latest

qwen-vl-max-2025-08-13

(qwen-vl-max-0813)

60

100.000

qwen-vl-max-2025-04-08

(qwen-vl-max-0408)

1.200

1.000.000

qwen-vl-plus

qwen-vl-plus-latest

qwen-vl-plus-2025-08-15

(qwen-vl-plus-0815)

120

1.000.000

qwen-vl-plus-2025-05-07

(qwen-vl-plus-0507)

qwen-vl-plus-2025-01-25

(qwen-vl-plus-0125)

1.200

qvq-max

60

100.000

qvq-max-latest

qvq-max-2025-03-25

(qvq-max-0325)

US

Dalam mode penyebaran US, titik akhir dan penyimpanan data berada di wilayah US (Virginia), serta sumber daya komputasi inferensi model dibatasi hanya untuk Amerika Serikat.

Model

Pembatasan laju (terpicu jika nilai apa pun dilampaui)

Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60)

RPM

TPM

Mencakup token input dan output

qwen3-vl-flash-us

1.200

1.000.000

qwen3-vl-flash-2026-01-22-us

120

1.000.000

qwen3-vl-flash-2025-10-15-us

Tiongkok Daratan

Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data berada di wilayah Beijing, serta sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun dilampaui)

Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60)

RPM

TPM

Mencakup token input dan output

qwen3-vl-plus

3.000

5.000.000

qwen3-vl-plus-2025-12-19

60

100.000

qwen3-vl-plus-2025-09-23

qwen3-vl-flash

3.000

5.000.000

qwen3-vl-flash-2026-01-22

60

100.000

qwen3-vl-flash-2025-10-15

qwen-vl-max

1.200

1.000.000

qwen-vl-max-latest

qwen-vl-max-2025-08-13

(qwen-vl-max-0813)

60

100.000

qwen-vl-max-2025-04-08

(qwen-vl-max-0408)

qwen-vl-max-2025-04-02

(qwen-vl-max-0402)

qwen-vl-max-2025-01-25

(qwen-vl-max-0125)

qwen-vl-max-2024-12-30

(qwen-vl-max-1230)

qwen-vl-max-2024-11-19

(qwen-vl-max-1119)

qwen-vl-plus

1.200

1.000.000

qwen-vl-plus-latest

qwen-vl-plus-2025-08-15

(qwen-vl-plus-0815)

60

100.000

qwen-vl-plus-2025-07-10

(qwen-vl-plus-0710)

qwen-vl-plus-2025-05-07

(qwen-vl-plus-0507)

qwen-vl-plus-2025-01-25

(qwen-vl-plus-0125)

qwen-vl-plus-2025-01-02

(qwen-vl-plus-0102)

qvq-max

qvq-max-latest

qvq-max-2025-05-15

(qvq-max-0515)

qvq-max-2025-03-25

(qvq-max-0325)

qvq-plus

qvq-plus-latest

qvq-plus-2025-05-15

(qvq-plus-0515)

China (Hong Kong)

Dalam mode penyebaran China (Hong Kong), titik akhir dan penyimpanan data berada di China (Hong Kong), serta sumber daya komputasi inferensi model dibatasi hanya untuk China (Hong Kong).

Model

Pembatasan laju (terpicu jika nilai apa pun dilampaui)

Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60)

RPM

TPM

Mencakup token input dan output

qwen3-vl-plus

1.200

1.000.000

qwen3-vl-plus-2025-12-19

60

100.000

EU

Dalam mode penyebaran EU, titik akhir dan penyimpanan data berada di Jerman (Frankfurt), serta sumber daya komputasi inferensi model dibatasi hanya untuk UE.

Model

Pembatasan laju (terpicu jika nilai apa pun dilampaui)

Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60)

RPM

TPM

Mencakup token input dan output

qwen3-vl-plus

1.200

1.000.000

qwen3-vl-flash

1.200

1.000.000

qwen3-vl-flash-2025-10-15

60

100.000

Qwen-Omni (omni-modal)

International

Dalam mode penyebaran International, titik akhir dan penyimpanan data berada di wilayah Singapura, sedangkan sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia (tidak termasuk Tiongkok daratan).

Model

Pembatasan laju (terpicu jika nilai apa pun dilampaui)

Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60)

RPM

TPM

Mencakup token input dan output

qwen3-omni-flash

60

100.000

qwen3-omni-flash-2025-12-01

qwen3-omni-flash-2025-09-15

qwen-omni-turbo

qwen-omni-turbo-latest

qwen-omni-turbo-2025-03-26

Tiongkok Daratan

Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data berada di wilayah Beijing, serta sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun dilampaui)

Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60)

RPM

TPM

Mencakup token input dan output

qwen3-omni-flash

60

100.000

qwen3-omni-flash-2025-12-01

qwen3-omni-flash-2025-09-15

qwen-omni-turbo

qwen-omni-turbo-latest

qwen-omni-turbo-2025-03-26

(qwen-omni-turbo-0326)

qwen-omni-turbo-2025-01-19

(qwen-omni-turbo-0119)

Qwen-Omni-Realtime (multimodal real-time)

International

Dalam mode penyebaran US, titik akhir dan penyimpanan data berada di wilayah US (Virginia), serta sumber daya komputasi inferensi model dibatasi hanya untuk Amerika Serikat.

Model

Pembatasan laju (terpicu jika nilai apa pun dilampaui)

Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60)

RPM

TPM

Mencakup token input dan output

qwen3-omni-flash-realtime

60

100.000

qwen3-omni-flash-realtime-2025-12-01

qwen3-omni-flash-realtime-2025-09-15

qwen-omni-turbo-realtime

10.000

qwen-omni-turbo-realtime-latest

qwen-omni-turbo-realtime-2025-05-08

Tiongkok Daratan

Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data berada di wilayah Beijing, serta sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun dilampaui)

Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60)

RPM

TPM

Mencakup token input dan output

qwen3-omni-flash-realtime

60

100.000

qwen3-omni-flash-realtime-2025-12-01

qwen3-omni-flash-realtime-2025-09-15

qwen-omni-turbo-realtime

qwen-omni-turbo-realtime-latest

qwen-omni-turbo-realtime-2025-05-08

Qwen-OCR (ekstraksi teks)

Global

Dalam mode penyebaran Global, titik akhir dan penyimpanan data berada di wilayah US (Virginia) atau wilayah Jerman (Frankfurt), serta sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia.

Model

Pembatasan laju (terpicu jika nilai apa pun dilampaui)

Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60)

RPM

TPM

Mencakup token input dan output

qwen-vl-ocr

600

6.000.000

qwen-vl-ocr-2025-11-20

1.200

International

Dalam mode penyebaran International, titik akhir dan penyimpanan data berada di wilayah Singapura, sedangkan sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia (tidak termasuk Tiongkok daratan).

Model

Pembatasan laju (terpicu jika nilai apa pun dilampaui)

Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60)

RPM

TPM

Mencakup token input dan output

qwen-vl-ocr

600

6.000.000

qwen-vl-ocr-2025-11-20

1.200

Tiongkok Daratan

Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data berada di wilayah Beijing, serta sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun dilampaui)

Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60)

RPM

TPM

Mencakup token input dan output

qwen-vl-ocr

600

6.000.000

qwen-vl-ocr-latest

1.200

qwen-vl-ocr-2025-11-20

qwen-vl-ocr-2025-04-13

600

qwen-vl-ocr-2024-10-28

Qwen-Math

Catatan

Hanya mode penyebaran Tiongkok Daratan yang didukung. Titik akhir dan penyimpanan data berada di wilayah Beijing, serta sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun dilampaui)

Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60)

RPM

TPM

Mencakup token input dan output

qwen-math-plus

1.200

1.000.000

qwen-math-plus-latest

qwen-math-plus-2024-09-19

(qwen-math-plus-0919)

60

100.000

qwen-math-plus-2024-08-16

(qwen-math-plus-0816)

10

20.000

qwen-math-turbo

1200

1.000.000

qwen-math-turbo-latest

qwen-math-turbo-2024-09-19

(qwen-math-turbo-0919)

60

100.000

Qwen-Coder

Global

Dalam mode penyebaran Global, titik akhir dan penyimpanan data berada di wilayah US (Virginia) atau wilayah Jerman (Frankfurt), serta sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia.

Model

Pembatasan laju (terpicu jika nilai apa pun dilampaui)

Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60)

RPM

TPM

Mencakup token input dan output

qwen3-coder-plus

2.400

2.000.000

qwen3-coder-plus-2025-09-23

60

1.000.000

qwen3-coder-plus-2025-07-22

qwen3-coder-flash

1.200

qwen3-coder-flash-2025-07-28

60

International

Dalam mode penyebaran International, titik akhir dan penyimpanan data berada di wilayah Singapura, sedangkan sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia (tidak termasuk Tiongkok daratan).

Model

Pembatasan laju (terpicu jika nilai apa pun dilampaui)

Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60)

RPM

TPM

Mencakup token input dan output

qwen3-coder-plus

2.400

2.000.000

qwen3-coder-plus-2025-09-23

600

1.000.000

qwen3-coder-plus-2025-07-22

60

1.000.000

qwen3-coder-flash

600

5.000.000

qwen3-coder-flash-2025-07-28

600

5.000.000

Tiongkok Daratan

Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data berada di wilayah Beijing, serta sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun dilampaui)

Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60)

RPM

TPM

Mencakup token input dan output

qwen3-coder-plus

5.000

5.000.000

qwen3-coder-plus-2025-09-23

60

1.000.000

qwen3-coder-plus-2025-07-22

qwen3-coder-flash

5.000

5.000.000

qwen3-coder-flash-2025-07-28

60

1.000.000

qwen-coder-plus

1.200

qwen-coder-plus-latest

qwen-coder-plus-2024-11-06

(qwen-coder-plus-1106)

120

200.000

qwen-coder-turbo

1.200

1.000.000

qwen-coder-turbo-latest

qwen-coder-turbo-2024-09-19

(qwen-coder-turbo-0919)

60

100.000

EU

Dalam mode penyebaran EU, titik akhir dan penyimpanan data berada di Jerman (Frankfurt), serta sumber daya komputasi inferensi model dibatasi hanya untuk UE.

Model

Pembatasan laju (terpicu jika nilai apa pun dilampaui)

Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60)

RPM

TPM

Mencakup token input dan output

qwen3-coder-480b-a35b-instruct

600

1.000.000

qwen3-coder-30b-a3b-instruct

Qwen-MT

Global

Dalam mode penyebaran Global, titik akhir dan penyimpanan data berada di wilayah US (Virginia) atau wilayah Jerman (Frankfurt), serta sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia.

Model

Pembatasan laju (terpicu jika nilai apa pun dilampaui)

Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60)

RPM

TPM

Mencakup token input dan output

qwen-mt-plus

60

25.000

qwen-mt-flash

35.000

qwen-mt-lite

100.000

International

Dalam mode penyebaran International, titik akhir dan penyimpanan data berada di wilayah Singapura, sedangkan sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia (tidak termasuk Tiongkok daratan).

Model

Pembatasan laju (terpicu jika nilai apa pun dilampaui)

Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60)

RPM

TPM

Mencakup token input dan output

qwen-mt-plus

60

100.000

qwen-mt-flash

qwen-mt-lite

qwen-mt-turbo

Tiongkok Daratan

Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data berada di wilayah Beijing, serta sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun dilampaui)

Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60)

RPM

TPM

Mencakup token input dan output

qwen-mt-plus

60

25.000

qwen-mt-flash

35.000

qwen-mt-lite

100.000

qwen-mt-turbo

35.000

Qwen-Doc

Catatan

Hanya mode penyebaran Tiongkok Daratan yang didukung. Titik akhir dan penyimpanan data berada di wilayah Beijing, serta sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun dilampaui)

Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60)

RPM

TPM

Mencakup token input dan output

qwen-doc-turbo

600

3.000.000

Qwen-Deep-Research

Catatan

Hanya mode penyebaran Tiongkok Daratan yang didukung. Titik akhir dan penyimpanan data berada di wilayah Beijing, serta sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun dilampaui)

Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60)

RPM

TPM

Mencakup token input dan output

qwen-deep-research

120

1.200.000

Generasi teks - Qwen - Open source

Model bahasa Qwen open-source

Global

Dalam mode penyebaran Global, titik akhir dan penyimpanan data berada di wilayah US (Virginia) atau wilayah Jerman (Frankfurt), serta sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia.

Model

Pembatasan laju (terpicu jika nilai apa pun dilampaui)

Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60)

RPM

TPM

Mencakup token input dan output

qwen3.5-397b-a17b

600

1.000.000

qwen3.5-122b-a10b

qwen3.5-27b

qwen3.5-35b-a3b

qwen3-next-80b-a3b-thinking

qwen3-next-80b-a3b-instruct

qwen3-235b-a22b-thinking-2507

qwen3-235b-a22b-instruct-2507

qwen3-30b-a3b-thinking-2507

qwen3-30b-a3b-instruct-2507

qwen3-235b-a22b

qwen3-30b-a3b

qwen3-32b

qwen3-14b

qwen3-8b

International

Dalam mode penyebaran International, titik akhir dan penyimpanan data berada di wilayah Singapura, sedangkan sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia (tidak termasuk Tiongkok daratan).

Model

Pembatasan laju (terpicu jika nilai apa pun dilampaui)

Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60)

RPM

TPM

Mencakup token input dan output

qwen3.5-397b-a17b

600

1.000.000

qwen3.5-122b-a10b

5.000.000

qwen3.5-27b

qwen3.5-35b-a3b

qwen3-next-80b-a3b-thinking

1.000.000

qwen3-next-80b-a3b-instruct

qwen3-235b-a22b-thinking-2507

qwen3-235b-a22b-instruct-2507

qwen3-30b-a3b-thinking-2507

5.000.000

qwen3-30b-a3b-instruct-2507

qwen3-235b-a22b

1.000.000

qwen3-32b

qwen3-30b-a3b

qwen3-14b

qwen3-8b

qwen3-4b

qwen3-1.7b

qwen3-0.6b

qwen2.5-14b-instruct-1m

1.200

5.000.000

qwen2.5-7b-instruct-1m

qwen2.5-72b-instruct

60

150.000

qwen2.5-32b-instruct

qwen2.5-14b-instruct

qwen2.5-7b-instruct

Tiongkok Daratan

Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data berada di wilayah Beijing, serta sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun dilampaui)

Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60)

RPM

TPM

Mencakup token input dan output

qwen3.5-397b-a17b

600

1.000.000

qwen3.5-122b-a10b

qwen3.5-27b

qwen3.5-35b-a3b

qwen3-next-80b-a3b-thinking

qwen3-next-80b-a3b-instruct

qwen3-235b-a22b-thinking-2507

qwen3-235b-a22b-instruct-2507

qwen3-30b-a3b-thinking-2507

qwen3-30b-a3b-instruct-2507

qwen3-235b-a22b

qwen3-30b-a3b

qwen3-32b

2400

qwen3-14b

600

qwen3-8b

qwen3-4b

qwen3-1.7b

qwen3-0.6b

qwq-32b

qwq-32b-preview

1.200

qwen2.5-72b-instruct

qwen2.5-32b-instruct

qwen2.5-14b-instruct

qwen2.5-14b-instruct-1m

5.000.000

qwen2.5-7b-instruct

1.000.000

qwen2.5-7b-instruct-1m

5.000.000

qwen2.5-3b-instruct

2.000.000

qwen2.5-1.5b-instruct

qwen2.5-0.5b-instruct

Qwen-VL (pemahaman visual / gambar-ke-teks)

International

Dalam mode penyebaran International, titik akhir dan penyimpanan data berada di wilayah Singapura, sedangkan sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia (tidak termasuk Tiongkok daratan).

Model

Pembatasan laju (terpicu jika nilai apa pun dilampaui)

Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60)

RPM

TPM

Mencakup token input dan output

qwen3-vl-32b-thinking

60

100.000

qwen3-vl-32b-instruct

qwen3-vl-30b-a3b-thinking

qwen3-vl-30b-a3b-instruct

qwen3-vl-8b-thinking

qwen3-vl-8b-instruct

qwen3-vl-235b-a22b-thinking

qwen3-vl-235b-a22b-instruct

qwen2.5-vl-72b-instruct

qwen2.5-vl-32b-instruct

qwen2.5-vl-7b-instruct

1.200

1.000.000

qwen2.5-vl-3b-instruct

Tiongkok Daratan

Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data berada di wilayah Beijing, serta sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun dilampaui)

Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60)

RPM

TPM

Mencakup token input dan output

qwen3-vl-32b-thinking

600

1.000.000

qwen3-vl-32b-instruct

qwen3-vl-30b-a3b-thinking

qwen3-vl-30b-a3b-instruct

qwen3-vl-8b-thinking

qwen3-vl-8b-instruct

qwen3-vl-235b-a22b-thinking

60

100.000

qwen3-vl-235b-a22b-instruct

qwen2.5-vl-72b-instruct

qwen2.5-vl-32b-instruct

qwen2.5-vl-7b-instruct

1.200

1.000.000

qwen2.5-vl-3b-instruct

qwen2-vl-72b-instruct

qwen2-vl-7b-instruct

qwen2-vl-2b-instruct

qvq-72b-preview

60

100.000

Qwen2.5-Omni

International

Dalam mode penyebaran International, titik akhir dan penyimpanan data berada di wilayah Singapura, sedangkan sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia (tidak termasuk Tiongkok daratan).

Model

Pembatasan laju (terpicu jika nilai apa pun dilampaui)

Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60)

RPM

TPM

Mencakup token input dan output

qwen2.5-omni-7b

60

100.000

Tiongkok Daratan

Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data berada di wilayah Beijing, serta sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun dilampaui)

Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60)

RPM

TPM

Mencakup token input dan output

qwen2.5-omni-7b

60

100.000

Qwen3-Omni-Captioner

International

Dalam mode penyebaran International, titik akhir dan penyimpanan data berada di wilayah Singapura, sedangkan sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia (tidak termasuk Tiongkok daratan).

Model

Pembatasan laju (terpicu jika nilai apa pun dilampaui)

Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60)

RPM

TPM

Mencakup token input dan output

qwen3-omni-30b-a3b-captioner

60

100.000

Tiongkok Daratan

Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data berada di wilayah Beijing, serta sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun dilampaui)

Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60)

RPM

TPM

Mencakup token input dan output

qwen3-omni-30b-a3b-captioner

60

100.000

Qwen-Math

Catatan

Hanya mode penyebaran Tiongkok Daratan yang didukung. Titik akhir dan penyimpanan data berada di wilayah Beijing, serta sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun dilampaui)

Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60)

RPM

TPM

Mencakup token input dan output

qwen2.5-math-72b-instruct

1.200

1.000.000

qwen2.5-math-7b-instruct

qwen2.5-math-1.5b-instruct

Qwen-Coder

Global

Dalam mode penyebaran Global, titik akhir dan penyimpanan data berada di wilayah US (Virginia) atau wilayah Jerman (Frankfurt), serta sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia.

Model

Pembatasan laju (terpicu jika nilai apa pun dilampaui)

Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60)

RPM

TPM

Mencakup token input dan output

qwen3-coder-480b-a35b-instruct

600

1.000.000

qwen3-coder-30b-a3b-instruct

International

Dalam mode penyebaran International, titik akhir dan penyimpanan data berada di wilayah Singapura, sedangkan sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia (tidak termasuk Tiongkok daratan).

Model

Pembatasan laju (terpicu jika nilai apa pun dilampaui)

Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60)

RPM

TPM

Mencakup token input dan output

qwen3-coder-next

600

1.000.000

qwen3-coder-480b-a35b-instruct

qwen3-coder-30b-a3b-instruct

Tiongkok Daratan

Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data berada di wilayah Beijing, serta sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun dilampaui)

Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60)

RPM

TPM

Mencakup token input dan output

qwen3-coder-next

600

1.000.000

qwen3-coder-480b-a35b-instruct

qwen3-coder-30b-a3b-instruct

qwen2.5-coder-32b-instruct

1.200

qwen2.5-coder-14b-instruct

qwen2.5-coder-7b-instruct

qwen2.5-coder-3b-instruct

2.000.000

qwen2.5-coder-1.5b-instruct

qwen2.5-coder-0.5b-instruct

Generasi teks - Pihak Ketiga

DeepSeek

International

Dalam mode penyebaran International, titik akhir dan penyimpanan data berada di wilayah Singapura, sedangkan sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia (tidak termasuk Tiongkok daratan).

Model

Pembatasan laju (terpicu jika nilai apa pun dilampaui)

Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60)

RPM

TPM

Mencakup token input dan output

deepseek-v3.2

10.000

1.200.000

Tiongkok Daratan

Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data berada di wilayah Beijing, serta sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun dilampaui)

Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60)

RPM

TPM

Mencakup token input dan output

deepseek-v3.2

15.000

1.200.000

deepseek-v3.2-exp

15.000

1.200.000

deepseek-v3.1

15.000

1.200.000

deepseek-r1-0528

60

100.000

deepseek-r1

15.000

1.200.000

deepseek-v3

deepseek-r1-distill-qwen-7b

deepseek-r1-distill-qwen-14b

deepseek-r1-distill-qwen-32b

deepseek-r1-distill-qwen-1.5b

60

100.000

deepseek-r1-distill-llama-8b

deepseek-r1-distill-llama-70b

Kimi

Catatan

Hanya mode penyebaran Tiongkok Daratan yang didukung. Titik akhir dan penyimpanan data berada di wilayah Beijing, serta sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun dilampaui)

Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60)

RPM

TPM

Mencakup token input dan output

kimi-k2.5

500

1.000.000

kimi-k2-thinking

500

1.000.000

Moonshot-Kimi-K2-Instruct

500

1.000.000

MiniMax

Catatan

Hanya mode penyebaran Tiongkok Daratan yang didukung. Titik akhir dan penyimpanan data berada di wilayah Beijing, serta sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun dilampaui)

Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60)

RPM

TPM

Mencakup token input dan output

MiniMax-M2.5

500

1.000.000

GLM

Catatan

Hanya mode penyebaran Tiongkok Daratan yang didukung. Titik akhir dan penyimpanan data berada di wilayah Beijing, serta sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok Daratan.

Model

Pembatasan laju (terpicu jika nilai apa pun dilampaui)

Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60)

RPM

TPM

Mencakup token input dan output

glm-5

500

1.000.000

glm-4.7

500

glm-4.6

60

Image generation

Qwen-Image

Internasional

Dalam mode penyebaran Internasional, titik akhir dan penyimpanan data berlokasi di wilayah Singapura, sedangkan sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia (tidak termasuk Tiongkok daratan).

Service

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Batas pengiriman tugas

Tugas konkuren

Text-to-image & image editing

qwen-image-2.0-pro

2 per menit

Tidak ada batas untuk sync API

qwen-image-2.0-pro-2026-03-03

2 per menit

Tidak ada batas untuk sync API

qwen-image-2.0

2 per detik

Tidak ada batas untuk sync API

qwen-image-2.0-2026-03-03

2 per detik

Tidak ada batas untuk sync API

Text-to-image

qwen-image-max

2 per menit

Tidak ada batas untuk sync API

qwen-image-max-2025-12-30

2 per menit

Tidak ada batas untuk sync API

qwen-image-plus

2 per detik

Tidak ada batas untuk sync API / Async API: 2

qwen-image-plus-2026-01-09

2 per detik

Tidak ada batas untuk sync API

qwen-image

2 per detik

Tidak ada batas untuk sync API / Async API: 2

Image editing

qwen-image-edit-max

2 per menit

Tidak ada batas untuk sync API

qwen-image-edit-max-2026-01-16

2 per menit

Tidak ada batas untuk sync API

qwen-image-edit-plus

2 per detik

Tidak ada batas untuk sync API

qwen-image-edit-plus-2025-12-15

2 per detik

Tidak ada batas untuk sync API

qwen-image-edit-plus-2025-10-30

2 per detik

Tidak ada batas untuk sync API

qwen-image-edit

2 per detik

Tidak ada batas untuk sync API

Tiongkok Daratan

Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data berlokasi di wilayah Beijing, dan sumber daya komputasi inferensi model dibatasi hanya di Tiongkok Daratan.

Service

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Batas pengiriman tugas

Tugas konkuren

Text-to-image & image editing

qwen-image-2.0-pro

2 per menit

Tidak ada batas untuk sync API

qwen-image-2.0-pro-2026-03-03

2 per menit

Tidak ada batas untuk sync API

qwen-image-2.0

2 per detik

Tidak ada batas untuk sync API

qwen-image-2.0-2026-03-03

2 per detik

Tidak ada batas untuk sync API

Text-to-image

qwen-image-max

2 per menit

Tidak ada batas untuk sync API

qwen-image-max-2025-12-30

2 per menit

Tidak ada batas untuk sync API

qwen-image-plus

2 per detik

Tidak ada batas untuk sync API / Async API: 2

qwen-image-plus-2026-01-09

2 per detik

Tidak ada batas untuk sync API

qwen-image

2 per detik

Tidak ada batas untuk sync API / Async API: 2

Image editing

qwen-image-edit-max

2 per menit

Tidak ada batas untuk sync API

qwen-image-edit-max-2026-01-16

2 per menit

Tidak ada batas untuk sync API

qwen-image-edit-plus

2 per detik

Tidak ada batas untuk sync API

qwen-image-edit-plus-2025-12-15

2 per detik

Tidak ada batas untuk sync API

qwen-image-edit-plus-2025-10-30

2 per detik

Tidak ada batas untuk sync API

qwen-image-edit

2 per detik

Tidak ada batas untuk sync API

Image translation

qwen-mt-image

1 per detik

2

Text-to-image - Z-Image

Internasional

Dalam mode penyebaran Internasional, titik akhir dan penyimpanan data berlokasi di wilayah Singapura, sedangkan sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia (tidak termasuk Tiongkok daratan).

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Batas RPS pengiriman tugas

Tugas konkuren

z-image-turbo

2

Tidak ada batas untuk sync API

Tiongkok Daratan

Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data berlokasi di wilayah Beijing, dan sumber daya komputasi inferensi model dibatasi hanya di Tiongkok Daratan.

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Batas RPS pengiriman tugas

Tugas konkuren

z-image-turbo

2

Tidak ada batas untuk sync API

Wan

Global

Dalam mode penyebaran Global, titik akhir dan penyimpanan data berlokasi di wilayah AS (Virginia) atau wilayah Jerman (Frankfurt), dan sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia.

Service

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Batas RPS pengiriman tugas

Tugas konkuren

Text-to-image

wan2.6-t2i

5

5

Image generation

wan2.6-image

5

5

Internasional

Dalam mode penyebaran Internasional, titik akhir dan penyimpanan data berlokasi di wilayah Singapura, sedangkan sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia (tidak termasuk Tiongkok daratan).

Service

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Batas RPS pengiriman tugas

Tugas konkuren

Text-to-image

wan2.6-t2i

5

5

wan2.5-t2i-preview

wan2.2-t2i-flash

2

2

wan2.2-t2i-plus

wan2.1-t2i-turbo

wan2.1-t2i-plus

Image editing

wan2.5-i2i-preview

5

5

Image generation

wan2.6-image

5

5

Tiongkok Daratan

Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data berlokasi di wilayah Beijing, dan sumber daya komputasi inferensi model dibatasi hanya di Tiongkok Daratan.

Service

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Batas RPS pengiriman tugas

Tugas konkuren

Text-to-image

wan2.6-t2i

1

5

wan2.5-t2i-preview

5

wanx2.0-t2i-turbo

2

2

wanx2.1-t2i-turbo

wanx2.1-t2i-plus

wan2.2-t2i-flash

wan2.2-t2i-plus

General image editing

wan2.5-i2i-preview

5

5

wanx2.1-imageedit

2

2

Image generation

wan2.6-image

5

5

OutfitAnyone

Catatan

Hanya mode penyebaran Tiongkok Daratan yang didukung. Titik akhir dan penyimpanan data berlokasi di wilayah Beijing, dan sumber daya komputasi inferensi model dibatasi hanya di Tiongkok Daratan.

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Batas RPS pengiriman tugas

Tugas konkuren

aitryon-plus

10

5

aitryon-parsing-v1

10

Tidak ada batas untuk sync API

Video generation

Wan

Global

Dalam mode penyebaran Global, titik akhir dan penyimpanan data berlokasi di wilayah US (Virginia) atau wilayah Jerman (Frankfurt), sedangkan sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia.

Service

Model

Rate limit (triggered if any value is exceeded)

Task submission RPS limit

Concurrent tasks

Text-to-video

wan2.6-t2v

5

5

Image-to-video - first frame

wan2.6-i2v

Referece-to-video

wan2.6-r2v

International

Dalam mode penyebaran International, titik akhir dan penyimpanan data berlokasi di wilayah Singapura, sedangkan sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia (tidak termasuk Tiongkok daratan).

Service

Model

Rate limit (triggered if any value is exceeded)

Task submission RPS limit

Concurrent tasks

Text-to-image

wan2.6-t2v

5

5

wan2.5-t2v-preview

wan2.2-t2v-plus

2

2

wan2.1-t2v-turbo

wan2.1-t2v-plus

Image-to-video - first frame

wan2.6-i2v-flash

5

5

wan2.6-i2v

wan2.5-i2v-preview

wan2.2-i2v-flash

2

2

wan2.1-i2v-plus

wan2.1-i2v-turbo

wan2.2-i2v-plus

Image-to-video - first and last frames

wan2.2-kf2v-flash

wan2.1-kf2v-plus

1

General video editing

wan2.1-vace-plus

2

Referece-to-video

wan2.6-r2v-flash

5

5

wan2.6-r2v

5

5

Animate image

wan2.2-animate-move

5

1

Video character swap

wan2.2-animate-mix

5

1

US

Dalam mode penyebaran US, titik akhir dan penyimpanan data berlokasi di wilayah US (Virginia), sedangkan sumber daya komputasi inferensi model terbatas di Amerika Serikat.

Service

Model

Rate limit (triggered if any value is exceeded)

Task submission RPS limit

Concurrent tasks

Text-to-video

wan2.6-t2v-us

5

5

Image-to-video - first frame

wan2.6-i2v-us

Chinese Mainland

Dalam mode penyebaran Chinese Mainland, titik akhir dan penyimpanan data berlokasi di wilayah Beijing, sedangkan sumber daya komputasi inferensi model terbatas di Tiongkok daratan.

Service

Model

Rate limit (triggered if any value is exceeded)

Task submission RPS limit

Concurrent tasks

Text-to-video

wan2.6-t2v

5

5

wan2.5-t2v-preview

wan2.2-t2v-plus

2

2

wanx2.1-t2v-turbo

wanx2.1-t2v-plus

Image-to-video - first frame

wan2.6-i2v-flash

5

5

wan2.6-i2v

wan2.5-i2v-preview

wan2.2-i2v-plus

2

2

wanx2.1-i2v-turbo

wanx2.1-i2v-plus

Image-to-video - first and last frames

wan2.2-kf2v-flash

wanx2.1-kf2v-plus

General video editing

wanx2.1-vace-plus

Referece-to-video

wan2.6-r2v-flash

5

5

wan2.6-r2v

5

5

Digital human

wan2.2-s2v-detect

5

No limit for sync API

wan2.2-s2v

1

Animate image

wan2.2-animate-move

5

1

Video character swap

wan2.2-animate-mix

5

1

AnimateAnyone

Catatan

Hanya mode penyebaran Chinese Mainland yang didukung. Titik akhir dan penyimpanan data berlokasi di wilayah Beijing, sedangkan sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok daratan.

Model

Task submission RPS limit

Concurrent tasks

animate-anyone-detect-gen2

5

No limit for sync API

animate-anyone-template-gen2

1

Pada satu waktu, hanya satu tugas yang berjalan. Tugas lainnya dalam status pending.

animate-anyone-gen2

EMO

Catatan

Hanya mode penyebaran Chinese Mainland yang didukung. Titik akhir dan penyimpanan data berlokasi di wilayah Beijing, sedangkan sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok daratan.

Model

Task submission RPS limit

Concurrent tasks

emo-detect-v1

5

No limit for sync API

emo-v1

1

Pada satu waktu, hanya satu tugas yang berjalan. Tugas lainnya dalam status pending.

LivePortrait

Catatan

Hanya mode penyebaran Chinese Mainland yang didukung. Titik akhir dan penyimpanan data berlokasi di wilayah Beijing, sedangkan sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok daratan.

Model

Task submission RPS limit

Concurrent tasks

liveportrait-detect

5

No limit for sync API

liveportrait

1

Pada satu waktu, hanya satu tugas yang berjalan. Tugas lainnya dalam status pending.

VideoRetalk

Catatan

Hanya mode penyebaran Chinese Mainland yang didukung. Titik akhir dan penyimpanan data berlokasi di wilayah Beijing, sedangkan sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok daratan.

Model

Task submission RPS limit

Concurrent tasks

videoretalk

1

1

Pada satu waktu, hanya satu tugas yang berjalan. Tugas lainnya dalam status pending.

Emoji

Catatan

Hanya mode penyebaran Chinese Mainland yang didukung. Titik akhir dan penyimpanan data berlokasi di wilayah Beijing, sedangkan sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok daratan.

Model

Task submission RPS limit

Concurrent tasks

emoji-detect-v1

1

No limit for sync API

emoji-v1

1

Pada satu waktu, hanya satu tugas yang berjalan. Tugas lainnya dalam status pending.

Video style transform

Catatan

Hanya mode penyebaran Chinese Mainland yang didukung. Titik akhir dan penyimpanan data berlokasi di wilayah Beijing, sedangkan sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok daratan.

Model

Task submission RPS limit

Concurrent tasks

video-style-transform

20

2

Pada satu waktu, hanya satu tugas yang berjalan. Tugas lainnya dalam status pending.

Speech synthesis (teks-ke-ucapan)

Qwen Speech Synthesis

Internasional

Dalam mode penyebaran internasional, titik akhir dan penyimpanan data keduanya berlokasi di Wilayah Singapura. Sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia, tidak termasuk Tiongkok daratan.

Qwen3-TTS-Instruct-Flash

Model name

Calls per minute (RPM)

qwen3-tts-instruct-flash

180

qwen3-tts-instruct-flash-2026-01-26

180

Qwen3-TTS-VD

Model name

Calls per minute (RPM)

qwen3-tts-vd-2026-01-26

180

Qwen3-TTS-VC

Model name

Calls per minute (RPM)

qwen3-tts-vc-2026-01-22

180

Qwen3-TTS-Flash

Model name

Calls per minute (RPM)

qwen3-tts-flash

180

qwen3-tts-flash-2025-11-27

180

qwen3-tts-flash-2025-09-18

10

Tiongkok daratan

Dalam mode penyebaran Tiongkok daratan, titik akhir dan penyimpanan data keduanya berlokasi di Wilayah Beijing. Sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok daratan.

Qwen3-TTS-Instruct-Flash

Model name

Calls per minute (RPM)

qwen3-tts-instruct-flash

180

qwen3-tts-instruct-flash-2026-01-26

180

Qwen3-TTS-VD

Model name

Calls per minute (RPM)

qwen3-tts-vd-2026-01-26

180

Qwen3-TTS-VC

Model name

Calls per minute (RPM)

qwen3-tts-vc-2026-01-22

180

Qwen3-TTS-Flash

Model name

Calls per minute (RPM)

qwen3-tts-flash

180

qwen3-tts-flash-2025-11-27

180

qwen3-tts-flash-2025-09-18

10

Qwen-TTS

Model name

Rate limiting conditions (rate limiting triggers if any value is exceeded)

Batas berikut berlaku per menit. Layanan dapat menerapkan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

Calls per minute (RPM)

Tokens consumed per minute (TPM)

Termasuk token input dan output.

qwen-tts

10

100.000

qwen-tts-latest

qwen-tts-2025-05-22

qwen-tts-2025-04-10

Qwen Real-Time Speech Synthesis

Internasional

Dalam mode penyebaran internasional, titik akhir dan penyimpanan data keduanya berlokasi di Wilayah Singapura. Sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia, tidak termasuk Tiongkok daratan.

Qwen3-TTS-Instruct-Flash-Realtime

Model name

Calls per minute (RPM)

qwen3-tts-instruct-flash-realtime

180

qwen3-tts-instruct-flash-realtime-2026-01-22

180

Qwen3-TTS-VD-Realtime

Model name

Calls per minute (RPM)

qwen3-tts-vd-realtime-2026-01-15

180

qwen3-tts-vd-realtime-2025-12-16

Qwen3-TTS-VC-Realtime

Model name

Calls per minute (RPM)

qwen3-tts-vc-realtime-2026-01-15

180

qwen3-tts-vc-realtime-2025-11-27

Qwen3-TTS-Flash-Realtime

Model name

Calls per minute (RPM)

qwen3-tts-flash-realtime

180

qwen3-tts-flash-realtime-2025-11-27

180

qwen3-tts-flash-realtime-2025-09-18

10

Tiongkok daratan

Dalam mode penyebaran Tiongkok daratan, titik akhir dan penyimpanan data keduanya berlokasi di Wilayah Beijing. Sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok daratan.

Qwen3-TTS-Instruct-Flash-Realtime

Model name

Calls per minute (RPM)

qwen3-tts-instruct-flash-realtime

180

qwen3-tts-instruct-flash-realtime-2026-01-22

180

Qwen3-TTS-VD-Realtime

Model name

Calls per minute (RPM)

qwen3-tts-vd-realtime-2026-01-15

180

qwen3-tts-vd-realtime-2025-12-16

Qwen3-TTS-VC-Realtime

Model name

Calls per minute (RPM)

qwen3-tts-vc-realtime-2026-01-15

180

qwen3-tts-vc-realtime-2025-11-27

Qwen3-TTS-Flash-Realtime

Model name

Calls per minute (RPM)

qwen3-tts-flash-realtime

180

qwen3-tts-flash-realtime-2025-11-27

180

qwen3-tts-flash-realtime-2025-09-18

10

Qwen-TTS-Realtime

Model name

Rate limiting conditions (rate limiting triggers if any value is exceeded)

Batas berikut berlaku per menit. Layanan dapat menerapkan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

Calls per minute (RPM)

Tokens consumed per minute (TPM)

Termasuk token input dan output.

qwen-tts-realtime

10

100.000

qwen-tts-realtime-latest

qwen-tts-realtime-2025-07-15

Qwen Voice Cloning

Internasional

Dalam mode penyebaran internasional, titik akhir dan penyimpanan data keduanya berlokasi di Wilayah Singapura. Sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia, tidak termasuk Tiongkok daratan.

Model name

Calls per minute (RPM)

qwen-voice-enrollment

180

Tiongkok daratan

Dalam mode penyebaran Tiongkok daratan, titik akhir dan penyimpanan data keduanya berlokasi di Wilayah Beijing. Sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok daratan.

Model name

Calls per minute (RPM)

qwen-voice-enrollment

180

Qwen Voice Design

Internasional

Dalam mode penyebaran internasional, titik akhir dan penyimpanan data keduanya berlokasi di Wilayah Singapura. Sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia, tidak termasuk Tiongkok daratan.

Model name

Calls per minute (RPM)

qwen-voice-design

180

Tiongkok daratan

Dalam mode penyebaran Tiongkok daratan, titik akhir dan penyimpanan data keduanya berlokasi di Wilayah Beijing. Sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok daratan.

Model name

Calls per minute (RPM)

qwen-voice-design

180

CosyVoice Speech Synthesis

Internasional

Dalam mode penyebaran internasional, titik akhir dan penyimpanan data keduanya berlokasi di Wilayah Singapura. Sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia, tidak termasuk Tiongkok daratan.

Model name

RPS limit for the submit job API

cosyvoice-v3-plus

3

cosyvoice-v3-flash

Tiongkok daratan

Dalam mode penyebaran Tiongkok daratan, titik akhir dan penyimpanan data keduanya berlokasi di Wilayah Beijing. Sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok daratan.

Model name

RPS limit for the submit job API

cosyvoice-v3.5-plus

3

cosyvoice-v3.5-flash

cosyvoice-v3-plus

cosyvoice-v3-flash

cosyvoice-v2

CosyVoice Voice Cloning and Voice Design

CosyVoice voice cloning dan voice design berbagi satu model dan satu kuota Pembatasan laju.

Internasional

Dalam mode penyebaran internasional, titik akhir dan penyimpanan data keduanya berlokasi di Wilayah Singapura. Sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia, tidak termasuk Tiongkok daratan.

Model name

RPS limit for the submit job API

voice-enrollment

10

Tiongkok daratan

Dalam mode penyebaran Tiongkok daratan, titik akhir dan penyimpanan data keduanya berlokasi di Wilayah Beijing. Sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok daratan.

Model name

RPS limit for the submit job API

voice-enrollment

10

Speech recognition (speech-to-text) dan translation (speech-to-translation)

Qwen3-LiveTranslate-Flash

Internasional

Dalam mode penyebaran internasional, titik akhir dan penyimpanan data berlokasi di wilayah Singapura. Sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia, kecuali Tiongkok daratan.

Nama model

Kondisi pembatasan laju (dipicu jika nilai apa pun terlampaui)

Berikut adalah batas laju per menit. Layanan juga dapat menerapkan batasan berdasarkan jumlah permintaan per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60).

Permintaan per menit (RPM)

Token per menit (TPM)

Mencakup token input dan output

qwen3-livetranslate-flash

100

100.000

qwen3-livetranslate-flash-2025-12-01

6.000

1.000.000

Tiongkok daratan

Dalam mode penyebaran Tiongkok daratan, titik akhir dan penyimpanan data berlokasi di wilayah Beijing. Sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok daratan.

Nama model

Kondisi pembatasan laju (dipicu jika nilai apa pun terlampaui)

Berikut adalah batas laju per menit. Layanan juga dapat menerapkan batasan berdasarkan jumlah permintaan per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60).

Permintaan per menit (RPM)

Token per menit (TPM)

Mencakup token input dan output

qwen3-livetranslate-flash

100

100.000

qwen3-livetranslate-flash-2025-12-01

Qwen3-LiveTranslate-Flash-Realtime

Internasional

Dalam mode penyebaran internasional, titik akhir dan penyimpanan data berlokasi di wilayah Singapura. Sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia, kecuali Tiongkok daratan.

Nama model

Kondisi pembatasan laju (dipicu jika nilai apa pun terlampaui)

Berikut adalah batas laju per menit. Layanan juga dapat menerapkan batasan berdasarkan jumlah permintaan per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60).

Permintaan per menit (RPM)

Token per menit (TPM)

Mencakup token input dan output

qwen3-livetranslate-flash-realtime

10

100.000

qwen3-livetranslate-flash-realtime-2025-09-22

Tiongkok daratan

Dalam mode penyebaran Tiongkok daratan, titik akhir dan penyimpanan data berlokasi di wilayah Beijing. Sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok daratan.

Nama model

Kondisi pembatasan laju (dipicu jika nilai apa pun terlampaui)

Berikut adalah batas laju per menit. Layanan juga dapat menerapkan batasan berdasarkan jumlah permintaan per detik (RPS = RPM/60) dan token per detik (TPS = TPM/60).

Permintaan per menit (RPM)

Token per menit (TPM)

Mencakup token input dan output

qwen3-livetranslate-flash-realtime

10

100.000

qwen3-livetranslate-flash-realtime-2025-09-22

Qwen audio file recognition

Internasional

Dalam mode penyebaran internasional, titik akhir dan penyimpanan data berlokasi di wilayah Singapura. Sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia, kecuali Tiongkok daratan.

Qwen3-ASR-Flash-Filetrans

Nama model

Permintaan per menit (RPM)

qwen3-asr-flash-filetrans

100

qwen3-asr-flash-filetrans-2025-11-17

Qwen3-ASR-Flash

Nama model

Permintaan per menit (RPM)

qwen3-asr-flash

100

qwen3-asr-flash-2026-02-10

qwen3-asr-flash-2025-09-08

Amerika Serikat

Dalam mode penyebaran AS, titik akhir dan penyimpanan data berlokasi di wilayah AS (Virginia). Sumber daya komputasi inferensi model dibatasi hanya untuk Amerika Serikat.

Nama model

Permintaan per menit (RPM)

qwen3-asr-flash-us

100

qwen3-asr-flash-2025-09-08-us

Tiongkok daratan

Dalam mode penyebaran Tiongkok daratan, titik akhir dan penyimpanan data berlokasi di wilayah Beijing. Sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok daratan.

Qwen3-ASR-Flash-Filetrans

Nama model

Permintaan per menit (RPM)

qwen3-asr-flash-filetrans

100

qwen3-asr-flash-filetrans-2025-11-17

Qwen3-ASR-Flash

Nama model

Permintaan per menit (RPM)

qwen3-asr-flash

100

qwen3-asr-flash-2026-02-10

qwen3-asr-flash-2025-09-08

Qwen Real-time Speech Recognition

Internasional

Dalam mode penyebaran internasional, titik akses dan penyimpanan data keduanya berlokasi di wilayah Singapura. Sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia, kecuali Tiongkok daratan.

Nama Model

Panggilan per detik (RPS)

qwen3-asr-flash-realtime

20

qwen3-asr-flash-realtime-2026-02-10

qwen3-asr-flash-realtime-2025-10-27

Tiongkok Daratan

Dalam mode penyebaran Tiongkok daratan, titik akses dan penyimpanan data keduanya berlokasi di wilayah Beijing. Sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok daratan.

Nama Model

Panggilan per detik (RPS)

qwen3-asr-flash-realtime

20

qwen3-asr-flash-realtime-2026-02-10

qwen3-asr-flash-realtime-2025-10-27

Paraformer speech recognition

Catatan

Hanya mode penyebaran Tiongkok Daratan yang didukung. Titik akhir dan penyimpanan data berlokasi di wilayah Beijing, dan sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok Daratan.

Nama model

Batas RPS untuk API submit job

paraformer-realtime-v2

20

paraformer-realtime-8k-v2

Nama model

Panggilan per menit (RPM)

paraformer-v2

1.200

Nama model

Batas RPS untuk API submit job

Tugas konkuren

paraformer-8k-v2

20

100

Fun-ASR audio file recognition

Internasional

Dalam mode penyebaran internasional, titik akhir dan penyimpanan data berada di wilayah Singapura. Sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia, kecuali Tiongkok daratan.

Nama model

Panggilan per menit (RPM)

fun-asr

600

fun-asr-2025-11-07

fun-asr-2025-08-25

fun-asr-mtl

fun-asr-mtl-2025-08-25

Tiongkok daratan

Dalam mode penyebaran Tiongkok daratan, titik akhir dan penyimpanan data berada di wilayah Beijing. Sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok daratan.

Nama model

Panggilan per menit (RPM)

fun-asr

600

fun-asr-2025-11-07

fun-asr-2025-08-25

fun-asr-mtl

fun-asr-mtl-2025-08-25

Fun-ASR real-time speech recognition

Internasional

Dalam mode penyebaran internasional, baik titik akhir maupun penyimpanan data berada di wilayah Singapura. Sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia, kecuali Tiongkok daratan.

Nama model

Batas catatan per detik (RPS) untuk pengiriman pekerjaan

fun-asr-realtime

20

fun-asr-realtime-2025-11-07

Tiongkok daratan

Dalam mode penyebaran Tiongkok daratan, baik titik akhir maupun penyimpanan data berada di wilayah Beijing. Sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok daratan.

Nama model

Batas RPS untuk pengiriman pekerjaan

fun-asr-realtime

20

fun-asr-realtime-2026-02-28

fun-asr-realtime-2025-11-07

fun-asr-realtime-2025-09-15

fun-asr-flash-8k-realtime

fun-asr-flash-8k-realtime-2026-01-28

Text embedding

Internasional

Dalam mode penyebaran Internasional, titik akhir dan penyimpanan data berlokasi di Wilayah Singapura, sedangkan sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia (tidak termasuk Tiongkok daratan).

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60)

RPM

TPM/Jumlah tugas

Mencakup token input dan output

text-embedding-v4

1.800

1.000.000

text-embedding-v3

6.000

24.000.000

Tiongkok Daratan

Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data berlokasi di Wilayah Beijing, dan sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok Daratan.

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

RPS

TPM/Jumlah tugas

Mencakup token input dan output

text-embedding-v4

30

1.200.000

Tiongkok (Hong Kong)

Dalam mode penyebaran Tiongkok (Hong Kong), titik akhir dan penyimpanan data berlokasi di Tiongkok (Hong Kong), dan sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok (Hong Kong).

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60)

RPM

TPM / Jobs

Mencakup token input dan output

text-embedding-v4

1.800

1.000.000

Multimodal embedding

Internasional

Dalam mode penyebaran Internasional, titik akhir dan penyimpanan data berlokasi di Wilayah Singapura, sedangkan sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia (tidak termasuk Tiongkok daratan).

Model

Batas laju

Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60)

RPM

TPM

Hanya token input

tongyi-embedding-vision-plus

600

200.000

tongyi-embedding-vision-flash

Tiongkok Daratan

Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data berlokasi di Wilayah Beijing, dan sumber daya komputasi inferensi model dibatasi hanya di wilayah Tiongkok daratan.

Model

Batas laju

Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60)

RPM

TPM

Hanya token input

qwen3-vl-embedding

2.400

1.200.000

multimodal-embedding-v1

120

200.000

Text rerank

Internasional

Dalam mode penyebaran Internasional, titik akhir dan penyimpanan data berlokasi di Wilayah Singapura, sedangkan sumber daya komputasi inferensi model dijadwalkan secara dinamis di seluruh dunia (tidak termasuk Tiongkok daratan).

Model

Rate limit

Batas berikut berlaku per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60)

RPM

TPM

Hanya token input

qwen3-rerank

5.400

5.000.000.000

Tiongkok Daratan

Dalam mode penyebaran Tiongkok Daratan, titik akhir dan penyimpanan data berlokasi di Wilayah Beijing, dan sumber daya komputasi inferensi model dibatasi hanya untuk Tiongkok daratan.

Model

Rate limit

Batas berikut berlaku per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60)

RPM

TPM

Hanya token input

qwen3-vl-rerank

5.400

5.000.000.000

gte-rerank-v2

5.040

4.980.000.000

Domain specific

Intent recognition

Catatan

Hanya mode penyebaran Tiongkok daratan yang didukung. Titik akhir dan penyimpanan data berlokasi di Wilayah Beijing, serta sumber daya komputasi untuk inferensi model dibatasi hanya untuk Tiongkok daratan.

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60)

RPM

TPM

Mencakup token input dan output

tongyi-intent-detect-v3

1.200

1.000.000

Role playing

International

Dalam mode penyebaran International, titik akhir dan penyimpanan data berlokasi di Wilayah Singapura, sedangkan sumber daya komputasi untuk inferensi model dijadwalkan secara dinamis di seluruh dunia (tidak termasuk Tiongkok daratan).

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60)

RPM

TPM

Mencakup token input dan output

qwen-plus-character-ja

120

500.000

Chinese Mainland

Dalam mode penyebaran Tiongkok daratan, titik akhir dan penyimpanan data berlokasi di Wilayah Beijing, serta sumber daya komputasi untuk inferensi model dibatasi hanya untuk Tiongkok daratan.

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Berikut ini adalah batas per menit. Layanan juga dapat menerapkan batasan berdasarkan RPS (RPM/60) dan TPS (TPM/60)

RPM

TPM

Mencakup token input dan output

qwen-plus-character

120

500.000

Model yang Telah Dipensiunkan

Lihat Penghentian Dukungan Model.

Dipensiunkan pada 30 Januari 2026

Category

Model

Rate limit (triggered if any value is exceeded)

RPM

TPM

Includes input and output tokens

Qwen-Plus

qwen-plus-2024-11-27

0

0

qwen-plus-2024-11-25

qwen-plus-2024-09-19

qwen-plus-2024-08-06

Qwen-Turbo

qwen-turbo-2024-09-19

Qwen-VL

qwen-vl-max-2024-10-30

qwen-vl-max-2024-08-09

qwen-vl-plus-2024-08-09

Dipensiunkan pada 20 Agustus 2025

Category

Model

Rate limit (triggered if any value is exceeded)

RPM

TPM

Includes input and output tokens

Text generation - Qwen

qwen2-72b-instruct

0

0

qwen2-57b-a14b-instruct

qwen2-7b-instruct

qwen1.5-110b-chat

qwen1.5-72b-chat

qwen1.5-32b-chat

qwen1.5-14b-chat

qwen1.5-7b-chat