全部产品
Search
文档中心

Alibaba Cloud Model Studio:Batas laju

更新时间:Dec 06, 2025

Untuk memastikan penggunaan yang adil, Alibaba Cloud Model Studio menerapkan batas laju dasar. Batas ini bersifat spesifik per model dan terkait dengan Akun Alibaba Cloud Anda. Batas dihitung berdasarkan total panggilan ke suatu model dari semua Pengguna RAM, ruang kerja, dan Kunci API di bawah akun Anda. Jika Anda melebihi batas tersebut, permintaan API akan gagal. Anda harus menunggu hingga batas tersebut direset sebelum melakukan panggilan berikutnya.

Aturan

  • Batas tingkat akun: Batas laju diterapkan pada tingkat Akun Alibaba Cloud dan dihitung berdasarkan total panggilan dari semua Pengguna RAM, ruang kerja, dan Kunci API di bawah akun tersebut.

  • Batas spesifik per model: Setiap model memiliki batas laju independen. Lihat tabel di bawah untuk detailnya.

FAQ

Mengapa pembatasan laju dipicu?

Periksa pesan error:

  • Requests rate limit exceeded atau You exceeded your current requests list: Error ini menunjukkan bahwa batas frekuensi panggilan telah tercapai.

  • Allocated quota exceeded atau You exceeded your current quota: Error ini menunjukkan bahwa batas konsumsi token telah tercapai.

  • Request rate increased too quickly: Error ini menunjukkan bahwa lonjakan mendadak dalam frekuensi panggilan memicu perlindungan stabilitas sistem, meskipun batas Requests Per Minute (RPM) atau Tokens Per Minute (TPM) belum tercapai.

  • Untuk error lainnya, lihat Pesan error untuk mengidentifikasi penyebabnya.

Catatan: Selain RPM dan TPM, batas laju juga dapat diberlakukan pada tingkat per detik, yaitu Requests per Second (RPS), yang dihitung sebagai RPM/60, dan Tokens per Second (TPS), yang dihitung sebagai TPM/60. Lonjakan permintaan dalam periode singkat dapat memicu pembatasan laju, meskipun jumlah total panggilan masih di bawah batas per menit.

Bagaimana cara melihat penggunaan panggilan model?

Satu jam setelah Anda memanggil model, buka halaman Model Observation (Singapura atau Beijing). Atur kondisi kueri, seperti rentang waktu dan ruang kerja. Kemudian, di area Models, temukan model target dan klik Monitor di kolom Actions untuk melihat statistik panggilan model tersebut. Untuk informasi lebih lanjut, lihat dokumen Model Observation.

Data diperbarui setiap jam. Selama periode puncak, mungkin terjadi latensi hingga satu jam.

image

Berapa lama waktu pemulihan setelah pembatasan laju dipicu?

Batas biasanya direset dalam waktu satu menit. Jika terjadi error lain, lihat Pesan error untuk solusinya.

Bagaimana cara menghindari pembatasan laju?

  1. Pilih model dengan batas laju lebih tinggi: Versi stabil atau terbaru memiliki batas laju yang lebih tinggi dibandingkan versi snapshot lama.

  2. Optimalkan strategi pemanggilan Anda

    • Sesuaikan frekuensi panggilan: Jika Anda menerima error "Requests rate limit exceeded" atau "You exceeded your current requests list", kurangi frekuensi panggilan.

    • Kurangi konsumsi token: Jika Anda menerima error "Allocated quota exceeded" atau "You exceeded your current quota", perpendek panjang input atau output.

    • Ratakan laju permintaan: Jika peningkatan mendadak frekuensi panggilan memicu perlindungan stabilitas sistem, Anda mungkin menerima error "Request rate increased too quickly". Dalam kasus ini, optimalkan logika pemanggilan di sisi client dengan menerapkan strategi perataan permintaan, seperti penjadwalan seragam, exponential backoff, atau buffer antrian permintaan. Strategi ini mendistribusikan permintaan secara merata dalam jendela waktu dan menghindari puncak instan.

  3. Tambahkan model cadangan

    Jika Anda mengalami error batas laju, alihkan ke model cadangan untuk melanjutkan generasi. Ini meningkatkan konkurensi dan mengurangi tingkat kegagalan. Kode berikut menunjukkan contoh mencoba ulang permintaan dengan qwen-plus-2025-07-14 setelah batas laju terpicu untuk qwen-plus-2025-07-28.

    Contoh kode

    import os
    import asyncio
    from openai import AsyncOpenAI, APIStatusError
    
    # Konfigurasi
    API_KEY = os.getenv("DASHSCOPE_API_KEY")
    # Model utama
    MODEL = "qwen-plus-2025-07-28"
    # Model cadangan
    BACKUP_MODEL = "qwen-plus-2025-07-14"
    # Pertanyaan uji
    QUESTION = "Who are you?"
    # Pengaturan konkurensi
    NUM_REQUESTS = 10
    
    client = AsyncOpenAI(
        api_key=API_KEY,
        base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1"
    )
    
    async def send_request(model):
        """Kirim permintaan tunggal"""
        try:
            await client.chat.completions.create(
                model=model,
                messages=[{"role": "user", "content": QUESTION}]
            )
            return True
        except APIStatusError as e:
            if e.status_code == 429:
                print(f"[Rate limit triggered] Model {model}")
                return False
            raise
        except Exception as e:
            print(f"[Request failed] Model {model}, Error: {e}")
            return False
    
    async def task(i):
        # Coba model utama
        if await send_request(MODEL):
            return True
        # Jika terkena batas laju, coba model cadangan
        return await send_request(BACKUP_MODEL)
    
    async def main():
        results = await asyncio.gather(*(task(i) for i in range(NUM_REQUESTS)))
        print(f"Permintaan berhasil: {sum(results)}, Permintaan gagal: {len(results) - sum(results)}")
    
    if __name__ == "__main__":
        asyncio.run(main())
  4. Pisahkan tugas: Memproses percakapan panjang atau dokumen besar dapat menghabiskan banyak token dengan cepat. Pisahkan tugas batch besar menjadi batch yang lebih kecil dan kirimkan pada waktu yang berbeda.

  5. Gunakan inferensi batch: Jika Anda tidak memerlukan hasil real-time, gunakan inferensi batch (Batch API). Layanan ini tidak tunduk pada batas laju real-time, tetapi Anda harus mempertimbangkan antrean dan waktu pemrosesan.

Generasi teks - Qwen

Model bahasa Qwen

Internasional (Singapura)

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-max

600

1.000.000

qwen3-max-2025-09-23

60

100.000

qwen3-max-preview

600

1.000.000

qwen-max

600

1.000.000

qwen-max-latest

60

100.000

qwen-max-2025-01-25

(qwen-max-0125)

qwen-plus

600

1.000.000

qwen-plus-latest

60

100.000

qwen-plus-2025-12-01

1.000.000

qwen-plus-2025-09-11

120

qwen-plus-2025-07-28

60

100.000

qwen-plus-2025-07-14

(qwen-plus-0714)

qwen-plus-2025-04-28

(qwen-plus-0428)

qwen-plus-2025-01-25

(qwen-plus-0125)

qwen-flash

600

5.000.000

qwen-flash-2025-07-28

600

5.000.000

qwq-plus

60

100.000

qwen-turbo

600

5.000.000

qwen-turbo-latest

60

qwen-turbo-2025-04-28

(qwen-turbo-0428)

qwen-turbo-2024-11-01

(qwen-turbo-1101)

Daratan Tiongkok (Beijing)

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-max

600

1.000.000

qwen3-max-2025-09-23

60

100.000

qwen3-max-preview

600

1.000.000

qwen-max

1.200

1.000.000

qwen-max-latest

qwen-max-2025-01-25

(qwen-max-0125)

60

100.000

qwen-max-2024-09-19

(qwen-max-0919)

qwen-plus

15.000

5.000.000

qwen-plus-latest

1.200.000

qwen-plus-2025-12-01

60

1.000.000

qwen-plus-2025-09-11

qwen-plus-2025-07-28

(qwen-plus-0728)

qwen-plus-2025-07-14

(qwen-plus-0714)

100.000

qwen-plus-2025-04-28

(qwen-plus-0428)

1.000.000

qwen-plus-2025-01-25

(qwen-plus-0125)

150.000

qwen-plus-2025-01-12

(qwen-plus-0112)

qwen-plus-2024-12-20

(qwen-plus-1220)

qwen-plus-2024-11-27

(qwen-plus-1127)

qwen-plus-2024-11-25

(qwen-plus-1125)

qwen-plus-2024-09-19

(qwen-plus-0919)

qwen-plus-2024-08-06

(qwen-plus-0806)

qwen-flash

15.000

10.000.000

qwen-flash-2025-07-28

60

1.000.000

qwq-plus

600

1.000.000

qwq-plus-latest

qwq-plus-2025-03-05

60

100.000

qwen-turbo

1.200

5.000.000

qwen-turbo-latest

qwen-turbo-2025-04-28

(qwen-turbo-0428)

60

1.000.000

qwen-turbo-2025-02-11

(qwen-turbo-0211)

5.000.000

qwen-turbo-2024-11-01

(qwen-turbo-1101)

qwen-turbo-2024-09-19

(qwen-turbo-0919)

150.000

qwen-long-latest

1.200

60.000

qwen-long-2025-01-25

(qwen-long-0125)

3

7.500

Qwen-Omni (omni-modal)

Internasional (Singapura)

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-omni-flash

60

100.000

qwen3-omni-flash-2025-12-01

qwen3-omni-flash-2025-09-15

qwen-omni-turbo

qwen-omni-turbo-latest

qwen-omni-turbo-2025-03-26

Daratan Tiongkok (Beijing)

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-omni-flash

60

100.000

qwen3-omni-flash-2025-12-01

qwen3-omni-flash-2025-09-15

qwen-omni-turbo

qwen-omni-turbo-latest

qwen-omni-turbo-2025-03-26

(qwen-omni-turbo-0326)

qwen-omni-turbo-2025-01-19

(qwen-omni-turbo-0119)

Qwen-Omni-Realtime (multimodal real-time)

Internasional (Singapura)

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-omni-flash-realtime

60

100.000

qwen3-omni-flash-realtime-2025-12-01

qwen3-omni-flash-realtime-2025-09-15

qwen-omni-turbo-realtime

qwen-omni-turbo-realtime-latest

qwen-omni-turbo-realtime-2025-05-08

Daratan Tiongkok (Beijing)

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-omni-flash-realtime

60

100.000

qwen3-omni-flash-realtime-2025-12-01

qwen3-omni-flash-realtime-2025-09-15

qwen-omni-turbo-realtime

qwen-omni-turbo-realtime-latest

qwen-omni-turbo-realtime-2025-05-08

Qwen-VL (pemahaman visual/gambar-ke-teks)

Internasional (Singapura)

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qvq-max

60

100.000

qvq-max-latest

qvq-max-2025-03-25

(qvq-max-0325)

qwen-vl-max

1.200

1.000.000

qwen-vl-max-latest

qwen-vl-max-2025-08-13

(qwen-vl-max-0813)

60

100.000

qwen-vl-max-2025-04-08

(qwen-vl-max-0408)

1.200

1.000.000

qwen3-vl-plus

qwen-vl-plus

qwen-vl-plus-latest

qwen3-vl-plus-2025-09-23

60

100.000

qwen-vl-plus-2025-08-15

(qwen-vl-plus-0815)

120

1.000.000

qwen-vl-plus-2025-05-07

(qwen-vl-plus-0507)

qwen-vl-plus-2025-01-25

(qwen-vl-plus-0125)

1.200

qwen3-vl-flash

1.200

1.000.000

qwen3-vl-flash-2025-10-15

120

1.000.000

Daratan Tiongkok (Beijing)

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qvq-max

60

100.000

qvq-max-latest

qvq-max-2025-05-15

(qvq-max-0515)

qvq-max-2025-03-25

(qvq-max-0325)

qvq-plus

qvq-plus-latest

qvq-plus-2025-05-15

(qvq-plus-0515)

qwen-vl-max

1.200

1.000.000

qwen-vl-max-latest

qwen-vl-max-2025-08-13

(qwen-vl-max-0813)

60

100.000

qwen-vl-max-2025-04-08

(qwen-vl-max-0408)

qwen-vl-max-2025-04-02

(qwen-vl-max-0402)

qwen-vl-max-2025-01-25

(qwen-vl-max-0125)

qwen-vl-max-2024-12-30

(qwen-vl-max-1230)

qwen-vl-max-2024-11-19

(qwen-vl-max-1119)

qwen-vl-max-2024-10-30

(qwen-vl-max-1030)

qwen-vl-max-2024-08-09

(qwen-vl-max-0809)

15

25.000

qwen3-vl-plus

1.200

1.000.000

qwen-vl-plus

qwen-vl-plus-latest

qwen3-vl-plus-2025-09-23

60

100.000

qwen-vl-plus-2025-08-15

(qwen-vl-plus-0815)

qwen-vl-plus-2025-07-10

(qwen-vl-plus-0710)

qwen-vl-plus-2025-05-07

(qwen-vl-plus-0507)

qwen-vl-plus-2025-01-25

(qwen-vl-plus-0125)

qwen-vl-plus-2025-01-02

(qwen-vl-plus-0102)

qwen-vl-plus-2024-08-09

(qwen-vl-plus-0809)

qwen3-vl-flash

1.200

1.000.000

qwen3-vl-flash-2025-10-15

60

100.000

Qwen-OCR (ekstraksi teks)

Internasional (Singapura)

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen-vl-ocr

600

6.000.000

qwen-vl-ocr-2025-11-20

1.200

Daratan Tiongkok (Beijing)

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen-vl-ocr

600

6.000.000

qwen-vl-ocr-latest

1.200

qwen-vl-ocr-2025-11-20

qwen-vl-ocr-2025-04-13

6,00

qwen-vl-ocr-2024-10-28

Qwen-Math

Catatan

Hanya didukung di wilayah Tiongkok (Beijing).

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen-math-plus

1.200

1.000.000

qwen-math-plus-latest

qwen-math-plus-2024-09-19

(qwen-math-plus-0919)

60

100.000

qwen-math-plus-2024-08-16

(qwen-math-plus-0816)

10

20.000

qwen-math-turbo

1200

1.000.000

qwen-math-turbo-latest

qwen-math-turbo-2024-09-19

(qwen-math-turbo-0919)

60

100.000

Qwen-Coder

Internasional (Singapura)

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-coder-plus

2.400

2.000.000

qwen3-coder-plus-2025-09-23

60

1.000.000

qwen3-coder-plus-2025-07-22

60

1.000.000

qwen3-coder-flash

600

5.000.000

qwen3-coder-flash-2025-07-28

600

5.000.000

Daratan Tiongkok (Beijing)

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-coder-plus

2.400

2.000.000

qwen3-coder-plus-2025-09-23

60

1.000.000

qwen3-coder-plus-2025-07-22

qwen3-coder-flash

1.200

qwen3-coder-flash-2025-07-28

60

qwen-coder-plus

1.200

qwen-coder-plus-latest

qwen-coder-plus-2024-11-06

(qwen-coder-plus-1106)

60

100.000

qwen-coder-turbo

1.200

1.000.000

qwen-coder-turbo-latest

qwen-coder-turbo-2024-09-19

(qwen-coder-turbo-0919)

60

100.000

Qwen-MT

Internasional (Singapura)

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen-mt-plus

60

100.000

qwen-mt-flash

qwen-mt-lite

qwen-mt-turbo

Daratan Tiongkok (Beijing)

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen-mt-plus

60

25.000

qwen-mt-flash

35.000

qwen-mt-lite

100.000

qwen-mt-turbo

35.000

Model penambangan data Qwen

Catatan

Hanya didukung di wilayah Tiongkok (Beijing).

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen-doc-turbo

600

3.000.000

Model riset mendalam Qwen

Catatan

Hanya didukung di wilayah Tiongkok (Beijing).

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen-deep-research

120

1.200.000

Generasi teks - Qwen sumber terbuka

Model bahasa Qwen sumber terbuka

Internasional (Singapura)

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-next-80b-a3b-thinking

600

1.000.000

qwen3-next-80b-a3b-instruct

qwen3-235b-a22b-thinking-2507

qwen3-235b-a22b-instruct-2507

qwen3-30b-a3b-thinking-2507

qwen3-30b-a3b-instruct-2507

qwen3-235b-a22b

qwen3-32b

qwen3-30b-a3b

qwen3-14b

qwen3-8b

qwen3-4b

qwen3-1.7b

qwen3-0.6b

qwen2.5-14b-instruct-1m

60

1.000.000

qwen2.5-7b-instruct-1m

qwen2.5-72b-instruct

100.000

qwen2.5-32b-instruct

qwen2.5-14b-instruct

qwen2.5-7b-instruct

Daratan Tiongkok (Beijing)

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-next-80b-a3b-thinking

600

1.000.000

qwen3-next-80b-a3b-instruct

qwen3-235b-a22b-thinking-2507

qwen3-235b-a22b-instruct-2507

qwen3-30b-a3b-thinking-2507

qwen3-30b-a3b-instruct-2507

qwen3-235b-a22b

qwen3-30b-a3b

qwen3-32b

qwen3-14b

qwen3-8b

qwen3-4b

qwen3-1.7b

qwen3-0.6b

qwq-32b

qwq-32b-preview

1.200

qwen2.5-72b-instruct

qwen2.5-32b-instruct

qwen2.5-14b-instruct

qwen2.5-14b-instruct-1m

qwen2.5-7b-instruct

qwen2.5-7b-instruct-1m

qwen2.5-3b-instruct

2.000.000

qwen2.5-1.5b-instruct

qwen2.5-0.5b-instruct

Qwen3-Omni

Internasional (Singapura)

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen2.5-omni-7b

60

100.000

Daratan Tiongkok (Beijing)

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen2.5-omni-7b

60

100.000

Qwen3-Omni-Captioner

Internasional (Singapura)

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-omni-30b-a3b-captioner

60

100.000

Daratan Tiongkok (Beijing)

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-omni-30b-a3b-captioner

60

100.000

Qwen-VL (pemahaman visual/gambar-ke-teks)

Internasional (Singapura)

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-vl-32b-thinking

60

100.000

qwen3-vl-32b-instruct

qwen3-vl-30b-a3b-thinking

qwen3-vl-30b-a3b-instruct

qwen3-vl-8b-thinking

qwen3-vl-8b-instruct

qwen3-vl-235b-a22b-thinking

qwen3-vl-235b-a22b-instruct

qwen2.5-vl-72b-instruct

qwen2.5-vl-32b-instruct

qwen2.5-vl-7b-instruct

qwen2.5-vl-3b-instruct

Daratan Tiongkok (Beijing)

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-vl-32b-thinking

600

1.000.000

qwen3-vl-32b-instruct

qwen3-vl-30b-a3b-thinking

qwen3-vl-30b-a3b-instruct

qwen3-vl-8b-thinking

qwen3-vl-8b-instruct

qwen3-vl-235b-a22b-thinking

60

100.000

qwen3-vl-235b-a22b-instruct

qwen2.5-vl-72b-instruct

qwen2.5-vl-32b-instruct

qwen2.5-vl-7b-instruct

1.200

1.000.000

qwen2.5-vl-3b-instruct

qwen2-vl-72b-instruct

60

100.000

qwen2-vl-7b-instruct

1.200

1.000.000

qwen2-vl-2b-instruct

qvq-72b-preview

60

100.000

Qwen-Math

Catatan

Hanya didukung di wilayah Tiongkok (Beijing).

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen2.5-math-72b-instruct

1.200

1.000.000

qwen2.5-math-7b-instruct

qwen2.5-math-1.5b-instruct

Qwen-Coder

Internasional (Singapura)

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-coder-480b-a35b-instruct

600

1.000.000

qwen3-coder-30b-a3b-instruct

600

1.000.000

Daratan Tiongkok (Beijing)

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-coder-480b-a35b-instruct

600

1.000.000

qwen3-coder-30b-a3b-instruct

600

qwen2.5-coder-32b-instruct

1.200

qwen2.5-coder-14b-instruct

qwen2.5-coder-7b-instruct

qwen2.5-coder-3b-instruct

2.000.000

qwen2.5-coder-1.5b-instruct

qwen2.5-coder-0.5b-instruct

Generasi teks - Model pihak ketiga

DeepSeek

Catatan

Hanya didukung di wilayah Tiongkok (Beijing).

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

deepseek-v3.2

15.000

1.200.000

deepseek-v3.2-exp

15.000

1.200.000

deepseek-v3.1

15.000

1.200.000

deepseek-r1-0528

60

100.000

deepseek-r1

15.000

1.200.000

deepseek-v3

deepseek-r1-distill-qwen-7b

deepseek-r1-distill-qwen-14b

deepseek-r1-distill-qwen-32b

deepseek-r1-distill-qwen-1.5b

60

100.000

deepseek-r1-distill-llama-8b

deepseek-r1-distill-llama-70b

Kimi

Catatan

Hanya didukung di wilayah Tiongkok (Beijing).

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

kimi-k2-thinking

60

100.000

Moonshot-Kimi-K2-Instruct

60

100.000

Generasi citra

Qwen (Qwen-Image)

Internasional (Singapura)

Layanan

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Batas RPS pengiriman tugas

Tugas konkuren

Text-to-image

qwen-image-plus

2

2

qwen-image

2

2

Pengeditan citra

qwen-image-edit-plus

2

No limit for sync APIs

qwen-image-edit-plus-2025-10-30

2

No limit for sync APIs

qwen-image-edit

2

No limit for sync APIs

Daratan Tiongkok (Beijing)

Layanan

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Batas RPS pengiriman tugas

Tugas konkuren

Text-to-image

qwen-image-plus

2

2

qwen-image

2

2

Pengeditan citra

qwen-image-edit-plus

2

No limit for sync APIs

qwen-image-edit-plus-2025-10-30

2

No limit for sync APIs

qwen-image-edit

2

No limit for sync APIs

Terjemahan citra

qwen-mt-image

1

2

Wan

Internasional (Singapura)

Layanan

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Batas RPS pengiriman tugas

Tugas konkuren

Text-to-image

wan2.5-t2i-preview

5

5

wan2.2-t2i-flash

2

2

wan2.2-t2i-plus

wan2.1-t2i-turbo

wan2.1-t2i-plus

Pengeditan citra

wan2.5-i2i-preview

5

5

Daratan Tiongkok (Beijing)

Layanan

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Batas RPS pengiriman tugas

Tugas konkuren

Text-to-image

wan2.5-t2i-preview

5

5

wanx2.0-t2i-turbo

2

2

wanx2.1-t2i-turbo

wanx2.1-t2i-plus

wan2.2-t2i-flash

wan2.2-t2i-plus

Pengeditan citra umum

wan2.5-i2i-preview

5

5

wanx2.1-imageedit

2

2

OutfitAnyone

Catatan

Hanya didukung di wilayah Tiongkok (Beijing).

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Batas RPS pengiriman tugas

Tugas konkuren

aitryon-plus

10

5

aitryon-parsing-v1

10

No limit for sync APIs

Generasi video

Seri Wan

Internasional (Singapura)

Layanan

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Batas RPS pengiriman tugas

Tugas konkuren

Text-to-image

wan2.5-t2v-preview

5

5

wan2.2-t2v-plus

2

2

wan2.1-t2v-turbo

wan2.1-t2v-plus

Citra-ke-video - frame pertama

wan2.5-i2v-preview

5

5

wan2.2-i2v-flash

2

2

wan2.1-i2v-plus

wan2.1-i2v-turbo

wan2.2-i2v-plus

Citra-ke-video - frame pertama dan terakhir

wan2.1-kf2v-plus

Pengeditan video umum

wan2.1-vace-plus

Animasi citra

wan2.2-animate-move

5

1

Pertukaran karakter video

wan2.2-animate-mix

5

1

Daratan Tiongkok (Beijing)

Layanan

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Batas RPS pengiriman tugas

Tugas konkuren

Text-to-video

wan2.5-t2v-preview

5

5

wan2.2-t2v-plus

2

2

wanx2.1-t2v-turbo

wanx2.1-t2v-plus

Citra-ke-video - frame pertama

wan2.5-i2v-preview

5

5

wan2.2-i2v-plus

2

2

wanx2.1-i2v-turbo

wanx2.1-i2v-plus

Citra-ke-video - frame pertama dan terakhir

wanx2.1-kf2v-plus

Pengeditan video umum

wanx2.1-vace-plus

Manusia digital

wan2.2-s2v-detect

5

No limit for sync APIs

wan2.2-s2v

1

Animasi citra

wan2.2-animate-move

5

1

Pertukaran karakter video

wan2.2-animate-mix

5

1

AnimateAnyone

Catatan

Hanya didukung di wilayah Tiongkok (Beijing).

Model

Batas RPS pengiriman tugas

Tugas konkuren

animate-anyone-detect-gen2

5

No limit for sync APIs

animate-anyone-template-gen2

1

At any given time, only one task is running. Other tasks in the queue are in a pending state.

animate-anyone-gen2

EMO

Catatan

Hanya didukung di wilayah Tiongkok (Beijing).

Model

Batas RPS pengiriman tugas

Tugas konkuren

emo-detect-v1

5

No limit for sync APIs

emo-v1

1

At any given time, only one task is running. Other tasks in the queue are in a pending state.

LivePortrait

Catatan

Hanya didukung di wilayah Tiongkok (Beijing).

Model

Batas RPS pengiriman tugas

Tugas konkuren

liveportrait-detect

5

No limit for sync APIs

liveportrait

1

At any given time, only one task is running. Other tasks in the queue are in a pending state.

VideoRetalk

Catatan

Hanya didukung di wilayah Tiongkok (Beijing).

Model

Batas RPS pengiriman tugas

Tugas konkuren

videoretalk

1

1

At any given time, only one task is running. Other tasks in the queue are in a pending state.

Emoji

Catatan

Hanya didukung di wilayah Tiongkok (Beijing).

Model

Batas RPS pengiriman tugas

Tugas konkuren

emoji-detect-v1

1

No limit for sync APIs

emoji-v1

1

At any given time, only one task is running. Other tasks in the queue are in a pending state.

Transformasi gaya video

Catatan

Hanya didukung di wilayah Tiongkok (Beijing).

Model

Batas RPS pengiriman tugas

Tugas konkuren

video-style-transform

2

1

At any given time, only one task is running. Other tasks in the queue are in a pending state.

Sintesis suara (teks-ke-ucapan)

Sintesis suara Qwen

Internasional (Singapura)

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Berikut adalah kondisi Pembatasan kecepatan per menit. Layanan dapat memberlakukan batas berdasarkan RPS, dihitung sebagai RPM/60.

RPM

qwen3-tts-flash

10

qwen3-tts-flash-2025-11-27

180

qwen3-tts-flash-2025-09-18

10

Daratan Tiongkok (Beijing)

Qwen3-TTS-Flash

Model

RPM

qwen3-tts-flash

10

qwen3-tts-flash-2025-11-27

180

qwen3-tts-flash-2025-09-18

10

Qwen-TTS

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Berikut adalah kondisi Pembatasan kecepatan per menit. Layanan dapat memberlakukan batas berdasarkan RPS, dihitung sebagai RPM/60, dan TPS, dihitung sebagai TPM/60.

RPM

TPM

Mencakup token input dan output

qwen-tts

10

100.000

qwen-tts-latest

qwen-tts-2025-05-22

qwen-tts-2025-04-10

Sintesis suara Qwen real-time

Internasional (Singapura)

Qwen3-TTS-VC-Realtime

Model

RPM

qwen3-tts-vc-realtime-2025-11-27

180

Qwen3-TTS-Flash-Realtime

Model

RPM

qwen3-tts-flash-realtime

10

qwen3-tts-flash-realtime-2025-11-27

180

qwen3-tts-flash-realtime-2025-09-18

10

Daratan Tiongkok (Beijing)

Qwen3-TTS-VC-Realtime

Model

RPM

qwen3-tts-vc-realtime-2025-11-27

180

Qwen3-TTS-Flash-Realtime

Model

RPM

qwen3-tts-flash-realtime

10

qwen3-tts-flash-realtime-2025-11-27

180

qwen3-tts-flash-realtime-2025-09-18

10

Qwen-TTS-Realtime

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Berikut adalah kondisi Pembatasan kecepatan per menit. Layanan dapat memberlakukan batas berdasarkan RPS, dihitung sebagai RPM/60, dan TPS, dihitung sebagai TPM/60.

RPM

TPM

Mencakup token input dan output

qwen-tts-realtime

10

100.000

qwen-tts-realtime-latest

qwen-tts-realtime-2025-07-15

Kloning suara Qwen

Internasional (Singapura)

Model

Batas RPS pengiriman tugas

qwen-voice-enrollment

3

Daratan Tiongkok (Beijing)

Model

Batas RPS pengiriman tugas

qwen-voice-enrollment

3

Sintesis suara CosyVoice

Catatan

Hanya didukung di wilayah Tiongkok (Beijing).

Sintesis suara

Model

Batas RPS pengiriman tugas

cosyvoice-v3-plus

3

cosyvoice-v3-flash

cosyvoice-v2

Kloning suara

Model

Batas RPS pengiriman tugas

cosyvoice-v3-plus

10

Batas total permintaan konkuren untuk fitur kloning suara adalah 10 RPS. Batas ini berlaku baik saat Anda memanggil satu versi model maupun beberapa versi model secara bersamaan. Artinya:

  • Jika Anda hanya memanggil v2, laju permintaan konkuren maksimumnya adalah 10 RPS.

  • Jika Anda memanggil v2 dan v3 secara bersamaan, laju permintaan gabungan keduanya tidak boleh melebihi 10 RPS. Misalnya, jika v2 menggunakan 7 RPS, maka v3 dapat menggunakan maksimal 3 RPS.

cosyvoice-v3-flash

cosyvoice-v2

Pengenalan ucapan (ucapan-ke-teks) dan terjemahan (ucapan-ke-terjemahan)

Qwen3-LiveTranslate-Flash-Realtime

Internasional (Singapura)

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Berikut adalah kondisi Pembatasan kecepatan per menit. Layanan dapat memberlakukan batas berdasarkan RPS, dihitung sebagai RPM/60, dan TPS, dihitung sebagai TPM/60.

RPM

TPM

Mencakup token input dan output

qwen3-livetranslate-flash-realtime

10

100.000

qwen3-livetranslate-flash-realtime-2025-09-22

Daratan Tiongkok (Beijing)

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Berikut adalah kondisi Pembatasan kecepatan per menit. Layanan dapat memberlakukan batas berdasarkan RPS, dihitung sebagai RPM/60, dan TPS, dihitung sebagai TPM/60.

RPM

TPM

Mencakup token input dan output

qwen3-livetranslate-flash-realtime

10

100.000

qwen3-livetranslate-flash-realtime-2025-09-22

Pengenalan file audio Qwen

Internasional (Singapura)

Qwen3-ASR-Flash-Filetrans

Model

RPM

qwen3-asr-flash-filetrans

100

qwen3-asr-flash-filetrans-2025-11-17

Qwen3-ASR-Flash

Model

RPM

qwen3-asr-flash

100

qwen3-asr-flash-2025-09-08

Daratan Tiongkok (Beijing)

Qwen3-ASR-Flash-Filetrans

Model

RPM

qwen3-asr-flash-filetrans

100

qwen3-asr-flash-filetrans-2025-11-17

Qwen3-ASR-Flash

Model

RPM

qwen3-asr-flash

100

qwen3-asr-flash-2025-09-08

Pengenalan ucapan real-time Qwen

Internasional (Singapura)

Model

RPS

qwen3-asr-flash-realtime

20

qwen3-asr-flash-realtime-2025-10-27

Daratan Tiongkok (Beijing)

Model

RPS

qwen3-asr-flash-realtime

20

qwen3-asr-flash-realtime-2025-10-27

Pengenalan ucapan Paraformer

Catatan

Hanya didukung di wilayah Tiongkok (Beijing).

Model

Batas RPS pengiriman tugas

paraformer-realtime-v2

20

paraformer-realtime-8k-v2

Model

Batas RPS pengiriman tugas

Batas RPS kueri tugas

paraformer-v2

20

20

paraformer-8k-v2

20

Pengenalan file audio Fun-ASR

Internasional (Singapura)

Model

Batas RPS pengiriman tugas

Batas RPS kueri tugas

fun-asr

10

20

fun-asr-2025-11-07

fun-asr-2025-08-25

Daratan Tiongkok (Beijing)

Model

Batas RPS pengiriman tugas

Batas RPS kueri tugas

fun-asr

10

20

fun-asr-2025-11-07

fun-asr-2025-08-25

fun-asr-mtl

fun-asr-mtl-2025-08-25

Pengenalan ucapan real-time Fun-ASR

Catatan

Hanya didukung di wilayah Tiongkok (Beijing).

Model

Batas RPS pengiriman tugas

fun-asr-realtime

20

fun-asr-realtime-2025-11-07

fun-asr-realtime-2025-09-15

Penyematan teks

Internasional (Singapura)

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM/Tasks

Mencakup token input dan output

text-embedding-v4

1.800

1.000.000

text-embedding-v3

6.000

24.000.000

Daratan Tiongkok (Beijing)

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

RPS

TPM/Tasks

Mencakup token input dan output

text-embedding-v4

30

1.200.000

Penyematan multimodal

Catatan

Hanya didukung di wilayah Tiongkok (Beijing).

Model

Rate limit

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Hanya token input

multimodal-embedding-v1

120

200.000

Rerank teks

Catatan

Hanya didukung di wilayah Tiongkok (Beijing).

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

gte-rerank-v2

5.040

4.980.000.000

Spesifik domain

Pengenalan niat

Catatan

Hanya didukung di wilayah Tiongkok (Beijing).

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

tongyi-intent-detect-v3

1.200

1.000.000

Permainan peran

Internasional (Singapura)

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen-plus-character-ja

60

100.000

Daratan Tiongkok (Beijing)

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen-plus-character

120

20.000

Model yang telah dipensiunkan

Untuk informasi lebih lanjut, lihat Depresiasi model.

Dipensiunkan pada 20 Agustus 2025

Kategori

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

RPM

TPM

Mencakup token input dan output

Generasi teks - Qwen

qwen2-72b-instruct

0

0

qwen2-57b-a14b-instruct

qwen2-7b-instruct

qwen1.5-110b-chat

qwen1.5-72b-chat

qwen1.5-32b-chat

qwen1.5-14b-chat

qwen1.5-7b-chat