全部产品
Search
文档中心

Alibaba Cloud Model Studio:Batas laju

更新时间:Dec 24, 2025

Untuk memastikan penggunaan yang adil, Alibaba Cloud Model Studio menerapkan batas laju dasar. Batas ini bersifat spesifik per model dan terkait dengan Akun Alibaba Cloud Anda. Batas dihitung berdasarkan total panggilan ke suatu model dari semua Pengguna RAM, ruang kerja, dan Kunci API di bawah akun Anda. Jika Anda melebihi batas tersebut, permintaan API akan gagal. Anda harus menunggu hingga batas tersebut diatur ulang sebelum melakukan panggilan lainnya.

Aturan

  • Batas tingkat akun: Batas laju diterapkan pada tingkat Akun Alibaba Cloud dan dihitung berdasarkan total panggilan dari semua Pengguna RAM, ruang kerja, dan Kunci API di bawah akun tersebut.

  • Batas spesifik per model: Setiap model memiliki batas laju independen. Lihat tabel di bawah untuk detailnya.

FAQ

Mengapa pembatasan laju dipicu?

Periksa pesan error:

  • Requests rate limit exceeded atau You exceeded your current requests list: Error ini menunjukkan bahwa batas frekuensi panggilan telah dipicu.

  • Allocated quota exceeded atau You exceeded your current quota: Error ini menunjukkan bahwa batas konsumsi token telah dipicu.

  • Request rate increased too quickly: Error ini menunjukkan bahwa lonjakan mendadak dalam frekuensi panggilan memicu perlindungan stabilitas sistem, meskipun batas Requests Per Minute (RPM) atau Tokens Per Minute (TPM) belum tercapai.

  • Untuk error lainnya, lihat Pesan error untuk mengidentifikasi penyebabnya.

Catatan: Selain RPM dan TPM, batas laju juga dapat diberlakukan pada tingkat per detik, yaitu Requests per Second (RPS), yang dihitung sebagai RPM/60, dan Tokens per Second (TPS), yang dihitung sebagai TPM/60. Lonjakan permintaan dalam periode singkat dapat memicu pembatasan laju, meskipun jumlah total panggilan masih di bawah batas per menit.

Bagaimana cara melihat penggunaan panggilan model?

Satu jam setelah Anda memanggil suatu model, buka halaman Model Observation (Singapura atau Beijing). Atur kondisi kueri, seperti rentang waktu dan ruang kerja. Kemudian, di area Models, temukan model target dan klik Monitor di kolom Actions untuk melihat statistik panggilan model tersebut. Untuk informasi lebih lanjut, lihat dokumen Model Observation.

Data diperbarui setiap jam. Selama periode puncak, mungkin terjadi latensi hingga satu jam.

image

Berapa lama waktu pemulihan setelah batas laju dipicu?

Batas biasanya diatur ulang dalam waktu satu menit. Jika terjadi error lain, lihat Pesan error untuk solusinya.

Bagaimana cara menghindari pembatasan laju?

  1. Pilih model dengan batas laju lebih tinggi: Versi stabil atau terbaru memiliki batas laju yang lebih tinggi dibandingkan versi snapshot lama.

  2. Optimalkan strategi pemanggilan Anda

    • Sesuaikan frekuensi panggilan: Jika Anda menerima error "Requests rate limit exceeded" atau "You exceeded your current requests list", kurangi frekuensi panggilan.

    • Kurangi konsumsi token: Jika Anda menerima error "Allocated quota exceeded" atau "You exceeded your current quota", perpendek panjang input atau output.

    • Ratakan laju permintaan: Jika peningkatan mendadak dalam frekuensi panggilan memicu perlindungan stabilitas sistem, Anda mungkin menerima error "Request rate increased too quickly". Dalam kasus ini, optimalkan logika pemanggilan di sisi client dengan menerapkan strategi perataan permintaan, seperti penjadwalan seragam, eksponensial backoff, atau buffer antrian permintaan. Strategi ini mendistribusikan permintaan secara merata dalam jendela waktu dan menghindari puncak instan.

  3. Tambahkan model cadangan

    Jika Anda mengalami error batas laju, alihkan ke model cadangan untuk melanjutkan generasi. Hal ini meningkatkan konkurensi dan mengurangi tingkat kegagalan. Kode berikut menunjukkan contoh mencoba ulang permintaan dengan qwen-plus-2025-07-14 setelah batas laju dipicu untuk qwen-plus-2025-07-28.

    Contoh kode

    import os
    import asyncio
    from openai import AsyncOpenAI, APIStatusError
    
    # Konfigurasi
    API_KEY = os.getenv("DASHSCOPE_API_KEY")
    # Model utama
    MODEL = "qwen-plus-2025-07-28"
    # Model cadangan
    BACKUP_MODEL = "qwen-plus-2025-07-14"
    # Pertanyaan uji
    QUESTION = "Who are you?"
    # Pengaturan konkurensi
    NUM_REQUESTS = 10
    
    client = AsyncOpenAI(
        api_key=API_KEY,
        base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1"
    )
    
    async def send_request(model):
        """Kirim permintaan tunggal"""
        try:
            await client.chat.completions.create(
                model=model,
                messages=[{"role": "user", "content": QUESTION}]
            )
            return True
        except APIStatusError as e:
            if e.status_code == 429:
                print(f"[Rate limit triggered] Model {model}")
                return False
            raise
        except Exception as e:
            print(f"[Request failed] Model {model}, Error: {e}")
            return False
    
    async def task(i):
        # Coba model utama
        if await send_request(MODEL):
            return True
        # Jika terkena batas laju, coba model cadangan
        return await send_request(BACKUP_MODEL)
    
    async def main():
        results = await asyncio.gather(*(task(i) for i in range(NUM_REQUESTS)))
        print(f"Successful requests: {sum(results)}, Failed requests: {len(results) - sum(results)}")
    
    if __name__ == "__main__":
        asyncio.run(main())
  4. Pisahkan tugas: Memproses percakapan panjang atau dokumen besar dapat mengonsumsi banyak token dengan cepat. Pisahkan tugas batch besar menjadi batch yang lebih kecil dan kirimkan pada waktu yang berbeda.

  5. Gunakan inferensi batch: Jika Anda tidak memerlukan hasil real-time, gunakan batch inference (Batch API). API ini tidak tunduk pada batas laju real-time, tetapi Anda harus mempertimbangkan antrian dan waktu pemrosesan.

Generasi teks - Qwen

Model bahasa Qwen

Internasional (Singapura)

Model

Batas laju (dipicu jika salah satu nilai dilampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-max

600

1.000.000

qwen3-max-2025-09-23

60

100.000

qwen3-max-preview

600

1.000.000

qwen-max

600

1.000.000

qwen-max-latest

60

100.000

qwen-max-2025-01-25

(qwen-max-0125)

qwen-plus

600

1.000.000

qwen-plus-latest

60

100.000

qwen-plus-2025-12-01

1.000.000

qwen-plus-2025-09-11

120

qwen-plus-2025-07-28

60

100.000

qwen-plus-2025-07-14

(qwen-plus-0714)

qwen-plus-2025-04-28

(qwen-plus-0428)

qwen-plus-2025-01-25

(qwen-plus-0125)

qwen-flash

600

5.000.000

qwen-flash-2025-07-28

600

5.000.000

qwq-plus

60

100.000

qwen-turbo

600

5.000.000

qwen-turbo-latest

60

qwen-turbo-2025-04-28

(qwen-turbo-0428)

qwen-turbo-2024-11-01

(qwen-turbo-1101)

Tiongkok (Beijing)

Model

Batas laju (dipicu jika salah satu nilai dilampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-max

600

1.000.000

qwen3-max-2025-09-23

60

100.000

qwen3-max-preview

600

1.000.000

qwen-max

1.200

1.000.000

qwen-max-latest

qwen-max-2025-01-25

(qwen-max-0125)

60

100.000

qwen-max-2024-09-19

(qwen-max-0919)

qwen-plus

15.000

5.000.000

qwen-plus-latest

1.200.000

qwen-plus-2025-12-01

60

1.000.000

qwen-plus-2025-09-11

qwen-plus-2025-07-28

(qwen-plus-0728)

qwen-plus-2025-07-14

(qwen-plus-0714)

100.000

qwen-plus-2025-04-28

(qwen-plus-0428)

1.000.000

qwen-plus-2025-01-25

(qwen-plus-0125)

150.000

qwen-plus-2025-01-12

(qwen-plus-0112)

qwen-plus-2024-12-20

(qwen-plus-1220)

qwen-plus-2024-11-27

(qwen-plus-1127)

qwen-plus-2024-11-25

(qwen-plus-1125)

qwen-plus-2024-09-19

(qwen-plus-0919)

qwen-plus-2024-08-06

(qwen-plus-0806)

qwen-flash

15.000

10.000.000

qwen-flash-2025-07-28

60

1.000.000

qwq-plus

600

1.000.000

qwq-plus-latest

qwq-plus-2025-03-05

60

100.000

qwen-turbo

1.200

5.000.000

qwen-turbo-latest

qwen-turbo-2025-04-28

(qwen-turbo-0428)

60

1.000.000

qwen-turbo-2025-02-11

(qwen-turbo-0211)

5.000.000

qwen-turbo-2024-11-01

(qwen-turbo-1101)

qwen-turbo-2024-09-19

(qwen-turbo-0919)

150.000

qwen-long-latest

1.200

60.000

qwen-long-2025-01-25

(qwen-long-0125)

3

7.500

Qwen-VL (pemahaman visual/gambar-ke-teks)

Internasional (Singapura)

Model

Batas laju (dipicu jika salah satu nilai dilampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-vl-plus

1.200

1.000.000

qwen3-vl-plus-2025-12-19

60

100.000

qwen3-vl-plus-2025-09-23

qwen3-vl-flash

1.200

1.000.000

qwen3-vl-flash-2025-10-15

120

1.000.000

qwen-vl-max

1.200

1.000.000

qwen-vl-max-latest

qwen-vl-max-2025-08-13

(qwen-vl-max-0813)

60

100.000

qwen-vl-max-2025-04-08

(qwen-vl-max-0408)

1.200

1.000.000

qwen-vl-plus

qwen-vl-plus-latest

qwen-vl-plus-2025-08-15

(qwen-vl-plus-0815)

120

1.000.000

qwen-vl-plus-2025-05-07

(qwen-vl-plus-0507)

qwen-vl-plus-2025-01-25

(qwen-vl-plus-0125)

1.200

qvq-max

60

100.000

qvq-max-latest

qvq-max-2025-03-25

(qvq-max-0325)

Tiongkok (Beijing)

Model

Batas laju (dipicu jika salah satu nilai dilampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-vl-plus

1.200

1.000.000

qwen3-vl-plus-2025-12-19

60

100.000

qwen3-vl-plus-2025-09-23

qwen3-vl-flash

1.200

1.000.000

qwen3-vl-flash-2025-10-15

60

100.000

qwen-vl-max

1.200

1.000.000

qwen-vl-max-latest

qwen-vl-max-2025-08-13

(qwen-vl-max-0813)

60

100.000

qwen-vl-max-2025-04-08

(qwen-vl-max-0408)

qwen-vl-max-2025-04-02

(qwen-vl-max-0402)

qwen-vl-max-2025-01-25

(qwen-vl-max-0125)

qwen-vl-max-2024-12-30

(qwen-vl-max-1230)

qwen-vl-max-2024-11-19

(qwen-vl-max-1119)

qwen-vl-max-2024-10-30

(qwen-vl-max-1030)

qwen-vl-max-2024-08-09

(qwen-vl-max-0809)

15

25.000

qwen-vl-plus

1.200

1.000.000

qwen-vl-plus-latest

qwen-vl-plus-2025-08-15

(qwen-vl-plus-0815)

60

100.000

qwen-vl-plus-2025-07-10

(qwen-vl-plus-0710)

qwen-vl-plus-2025-05-07

(qwen-vl-plus-0507)

qwen-vl-plus-2025-01-25

(qwen-vl-plus-0125)

qwen-vl-plus-2025-01-02

(qwen-vl-plus-0102)

qwen-vl-plus-2024-08-09

(qwen-vl-plus-0809)

qvq-max

qvq-max-latest

qvq-max-2025-05-15

(qvq-max-0515)

qvq-max-2025-03-25

(qvq-max-0325)

qvq-plus

qvq-plus-latest

qvq-plus-2025-05-15

(qvq-plus-0515)

Qwen-Omni (omni-modal)

Internasional (Singapura)

Model

Batas laju (dipicu jika salah satu nilai dilampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-omni-flash

60

100.000

qwen3-omni-flash-2025-12-01

qwen3-omni-flash-2025-09-15

qwen-omni-turbo

qwen-omni-turbo-latest

qwen-omni-turbo-2025-03-26

Tiongkok (Beijing)

Model

Batas laju (dipicu jika salah satu nilai dilampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-omni-flash

60

100.000

qwen3-omni-flash-2025-12-01

qwen3-omni-flash-2025-09-15

qwen-omni-turbo

qwen-omni-turbo-latest

qwen-omni-turbo-2025-03-26

(qwen-omni-turbo-0326)

qwen-omni-turbo-2025-01-19

(qwen-omni-turbo-0119)

Qwen-Omni-Realtime (multimodal real-time)

Internasional (Singapura)

Model

Batas laju (dipicu jika salah satu nilai dilampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-omni-flash-realtime

60

100.000

qwen3-omni-flash-realtime-2025-12-01

qwen3-omni-flash-realtime-2025-09-15

qwen-omni-turbo-realtime

qwen-omni-turbo-realtime-latest

qwen-omni-turbo-realtime-2025-05-08

Tiongkok (Beijing)

Model

Batas laju (dipicu jika salah satu nilai dilampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-omni-flash-realtime

60

100.000

qwen3-omni-flash-realtime-2025-12-01

qwen3-omni-flash-realtime-2025-09-15

qwen-omni-turbo-realtime

qwen-omni-turbo-realtime-latest

qwen-omni-turbo-realtime-2025-05-08

Qwen-OCR (ekstraksi teks)

Internasional (Singapura)

Model

Batas laju (dipicu jika salah satu nilai dilampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen-vl-ocr

600

6.000.000

qwen-vl-ocr-2025-11-20

1.200

Tiongkok (Beijing)

Model

Batas laju (dipicu jika salah satu nilai dilampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen-vl-ocr

600

6.000.000

qwen-vl-ocr-latest

1.200

qwen-vl-ocr-2025-11-20

qwen-vl-ocr-2025-04-13

6.00

qwen-vl-ocr-2024-10-28

Qwen-Math

Catatan

Hanya didukung di wilayah Tiongkok (Beijing).

Model

Batas laju (dipicu jika salah satu nilai dilampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen-math-plus

1.200

1.000.000

qwen-math-plus-latest

qwen-math-plus-2024-09-19

(qwen-math-plus-0919)

60

100.000

qwen-math-plus-2024-08-16

(qwen-math-plus-0816)

10

20.000

qwen-math-turbo

1200

1.000.000

qwen-math-turbo-latest

qwen-math-turbo-2024-09-19

(qwen-math-turbo-0919)

60

100.000

Qwen-Coder

Internasional (Singapura)

Model

Batas laju (dipicu jika salah satu nilai dilampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-coder-plus

2.400

2.000.000

qwen3-coder-plus-2025-09-23

60

1.000.000

qwen3-coder-plus-2025-07-22

60

1.000.000

qwen3-coder-flash

600

5.000.000

qwen3-coder-flash-2025-07-28

600

5.000.000

Tiongkok (Beijing)

Model

Batas laju (dipicu jika salah satu nilai dilampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-coder-plus

2.400

2.000.000

qwen3-coder-plus-2025-09-23

60

1.000.000

qwen3-coder-plus-2025-07-22

qwen3-coder-flash

1.200

qwen3-coder-flash-2025-07-28

60

qwen-coder-plus

1.200

qwen-coder-plus-latest

qwen-coder-plus-2024-11-06

(qwen-coder-plus-1106)

60

100.000

qwen-coder-turbo

1.200

1.000.000

qwen-coder-turbo-latest

qwen-coder-turbo-2024-09-19

(qwen-coder-turbo-0919)

60

100.000

Qwen-MT

Internasional (Singapura)

Model

Batas laju (dipicu jika salah satu nilai dilampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen-mt-plus

60

100.000

qwen-mt-flash

qwen-mt-lite

qwen-mt-turbo

Tiongkok (Beijing)

Model

Batas laju (dipicu jika salah satu nilai dilampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen-mt-plus

60

25.000

qwen-mt-flash

35.000

qwen-mt-lite

100.000

qwen-mt-turbo

35.000

Model penambangan data Qwen

Catatan

Hanya didukung di wilayah Tiongkok (Beijing).

Model

Batas laju (dipicu jika salah satu nilai dilampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen-doc-turbo

600

3.000.000

Model riset mendalam Qwen

Catatan

Hanya didukung di wilayah Tiongkok (Beijing).

Model

Batas laju (dipicu jika salah satu nilai dilampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen-deep-research

120

1.200.000

Generasi teks - Qwen sumber terbuka

Model bahasa Qwen sumber terbuka

Internasional (Singapura)

Model

Batas laju (dipicu jika salah satu nilai dilampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-next-80b-a3b-thinking

600

1.000.000

qwen3-next-80b-a3b-instruct

qwen3-235b-a22b-thinking-2507

qwen3-235b-a22b-instruct-2507

qwen3-30b-a3b-thinking-2507

qwen3-30b-a3b-instruct-2507

qwen3-235b-a22b

qwen3-32b

qwen3-30b-a3b

qwen3-14b

qwen3-8b

qwen3-4b

qwen3-1.7b

qwen3-0.6b

qwen2.5-14b-instruct-1m

60

1.000.000

qwen2.5-7b-instruct-1m

qwen2.5-72b-instruct

100.000

qwen2.5-32b-instruct

qwen2.5-14b-instruct

qwen2.5-7b-instruct

Tiongkok (Beijing)

Model

Batas laju (dipicu jika salah satu nilai dilampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-next-80b-a3b-thinking

600

1.000.000

qwen3-next-80b-a3b-instruct

qwen3-235b-a22b-thinking-2507

qwen3-235b-a22b-instruct-2507

qwen3-30b-a3b-thinking-2507

qwen3-30b-a3b-instruct-2507

qwen3-235b-a22b

qwen3-30b-a3b

qwen3-32b

qwen3-14b

qwen3-8b

qwen3-4b

qwen3-1.7b

qwen3-0.6b

qwq-32b

qwq-32b-preview

1.200

qwen2.5-72b-instruct

qwen2.5-32b-instruct

qwen2.5-14b-instruct

qwen2.5-14b-instruct-1m

qwen2.5-7b-instruct

qwen2.5-7b-instruct-1m

qwen2.5-3b-instruct

2.000.000

qwen2.5-1.5b-instruct

qwen2.5-0.5b-instruct

Qwen-VL (pemahaman visual/gambar-ke-teks)

Internasional (Singapura)

Model

Batas laju (dipicu jika salah satu nilai dilampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-vl-32b-thinking

60

100.000

qwen3-vl-32b-instruct

qwen3-vl-30b-a3b-thinking

qwen3-vl-30b-a3b-instruct

qwen3-vl-8b-thinking

qwen3-vl-8b-instruct

qwen3-vl-235b-a22b-thinking

qwen3-vl-235b-a22b-instruct

qwen2.5-vl-72b-instruct

qwen2.5-vl-32b-instruct

qwen2.5-vl-7b-instruct

qwen2.5-vl-3b-instruct

Tiongkok (Beijing)

Model

Batas laju (dipicu jika salah satu nilai dilampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-vl-32b-thinking

600

1.000.000

qwen3-vl-32b-instruct

qwen3-vl-30b-a3b-thinking

qwen3-vl-30b-a3b-instruct

qwen3-vl-8b-thinking

qwen3-vl-8b-instruct

qwen3-vl-235b-a22b-thinking

60

100.000

qwen3-vl-235b-a22b-instruct

qwen2.5-vl-72b-instruct

qwen2.5-vl-32b-instruct

qwen2.5-vl-7b-instruct

1.200

1.000.000

qwen2.5-vl-3b-instruct

qwen2-vl-72b-instruct

60

100.000

qwen2-vl-7b-instruct

1.200

1.000.000

qwen2-vl-2b-instruct

qvq-72b-preview

60

100.000

Qwen3-Omni

Internasional (Singapura)

Model

Batas laju (dipicu jika salah satu nilai dilampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen2.5-omni-7b

60

100.000

Tiongkok (Beijing)

Model

Batas laju (dipicu jika salah satu nilai dilampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen2.5-omni-7b

60

100.000

Qwen3-Omni-Captioner

Internasional (Singapura)

Model

Batas laju (dipicu jika salah satu nilai dilampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-omni-30b-a3b-captioner

60

100.000

Tiongkok (Beijing)

Model

Batas laju (dipicu jika salah satu nilai dilampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-omni-30b-a3b-captioner

60

100.000

Qwen-Math

Catatan

Hanya didukung di wilayah Tiongkok (Beijing).

Model

Batas laju (dipicu jika salah satu nilai dilampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen2.5-math-72b-instruct

1.200

1.000.000

qwen2.5-math-7b-instruct

qwen2.5-math-1.5b-instruct

Qwen-Coder

Internasional (Singapura)

Model

Batas laju (dipicu jika salah satu nilai dilampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-coder-480b-a35b-instruct

600

1.000.000

qwen3-coder-30b-a3b-instruct

600

1.000.000

Tiongkok (Beijing)

Model

Batas laju (dipicu jika salah satu nilai dilampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-coder-480b-a35b-instruct

600

1.000.000

qwen3-coder-30b-a3b-instruct

600

qwen2.5-coder-32b-instruct

1.200

qwen2.5-coder-14b-instruct

qwen2.5-coder-7b-instruct

qwen2.5-coder-3b-instruct

2.000.000

qwen2.5-coder-1.5b-instruct

qwen2.5-coder-0.5b-instruct

Generasi teks - Model pihak ketiga

DeepSeek

Catatan

Hanya didukung di wilayah Tiongkok (Beijing).

Model

Batas laju (dipicu jika salah satu nilai dilampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

deepseek-v3.2

15.000

1.200.000

deepseek-v3.2-exp

15.000

1.200.000

deepseek-v3.1

15.000

1.200.000

deepseek-r1-0528

60

100.000

deepseek-r1

15.000

1.200.000

deepseek-v3

deepseek-r1-distill-qwen-7b

deepseek-r1-distill-qwen-14b

deepseek-r1-distill-qwen-32b

deepseek-r1-distill-qwen-1.5b

60

100.000

deepseek-r1-distill-llama-8b

deepseek-r1-distill-llama-70b

Kimi

Catatan

Hanya didukung di wilayah Tiongkok (Beijing).

Model

Batas laju (dipicu jika salah satu nilai dilampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

kimi-k2-thinking

60

100.000

Moonshot-Kimi-K2-Instruct

60

100.000

Generasi citra

Qwen (Qwen-Image)

Internasional (Singapura)

Layanan

Model

Batas laju (dipicu jika salah satu nilai dilampaui)

Batas RPS pengiriman tugas

Tugas konkuren

Teks-ke-citra

qwen-image-plus

2

2

qwen-image

2

2

Pengeditan citra

qwen-image-edit-plus

2

No limit for sync APIs

qwen-image-edit-plus-2025-12-15

2

No limit for sync APIs

qwen-image-edit-plus-2025-10-30

2

No limit for sync APIs

qwen-image-edit

2

No limit for sync APIs

Tiongkok (Beijing)

Layanan

Model

Batas laju (dipicu jika salah satu nilai dilampaui)

Batas RPS pengiriman tugas

Tugas konkuren

Teks-ke-citra

qwen-image-plus

2

2

qwen-image

2

2

Pengeditan citra

qwen-image-edit-plus

2

No limit for sync APIs

qwen-image-edit-plus-2025-12-15

3

No limit for sync APIs

qwen-image-edit-plus-2025-10-30

2

No limit for sync APIs

qwen-image-edit

2

No limit for sync APIs

Terjemahan citra

qwen-mt-image

1

2

Tongyi - teks-ke-citra - Z-Image

Internasional (Singapura)

Model

Batas laju (dipicu jika nilai apa pun terlampaui)

Batas RPS pengiriman task

Task konkuren

z-image-turbo

2

2

Tiongkok (Beijing)

Model

Batas laju (dipicu jika salah satu nilai dilampaui)

Batas RPS pengiriman tugas

Tugas konkuren

z-image-turbo

2

2

Wan

Internasional (Singapura)

Layanan

Model

Batas laju (dipicu jika salah satu nilai dilampaui)

Batas RPS pengiriman tugas

Tugas konkuren

Teks-ke-citra

wan2.6-t2i

5

5

wan2.5-t2i-preview

wan2.2-t2i-flash

2

2

wan2.2-t2i-plus

wan2.1-t2i-turbo

wan2.1-t2i-plus

Pengeditan citra

wan2.5-i2i-preview

5

5

Generasi citra

wan2.6-image

5

5

Tiongkok (Beijing)

Layanan

Model

Batas laju (dipicu jika salah satu nilai dilampaui)

Batas RPS pengiriman tugas

Tugas konkuren

Teks-ke-citra

wan2.6

5

5

wan2.5-t2i-preview

5

5

wanx2.0-t2i-turbo

2

2

wanx2.1-t2i-turbo

wanx2.1-t2i-plus

wan2.2-t2i-flash

wan2.2-t2i-plus

Pengeditan citra umum

wan2.5-i2i-preview

5

5

wanx2.1-imageedit

2

2

Generasi citra

wan2.6-image

5

5

OutfitAnyone

Catatan

Hanya didukung di wilayah Tiongkok (Beijing).

Model

Batas laju (dipicu jika salah satu nilai dilampaui)

Batas RPS pengiriman tugas

Tugas konkuren

aitryon-plus

10

5

aitryon-parsing-v1

10

No limit for sync APIs

Generasi video

Wan

Internasional (Singapura)

Layanan

Model

Batas laju (dipicu jika salah satu nilai dilampaui)

Batas RPS pengiriman tugas

Tugas konkuren

Teks-ke-citra

wan2.6-t2v

5

5

wan2.5-t2v-preview

wan2.2-t2v-plus

2

2

wan2.1-t2v-turbo

wan2.1-t2v-plus

Citra-ke-video - frame pertama

wan2.6-i2v

5

5

wan2.5-i2v-preview

wan2.2-i2v-flash

2

2

wan2.1-i2v-plus

wan2.1-i2v-turbo

wan2.2-i2v-plus

Citra-ke-video - frame pertama dan terakhir

wan2.1-kf2v-plus

Pengeditan video umum

wan2.1-vace-plus

Referensi-ke-video

wan2.6-r2v

5

5

Animasikan citra

wan2.2-animate-move

5

1

Pertukaran karakter video

wan2.2-animate-mix

5

1

Tiongkok (Beijing)

Layanan

Model

Batas laju (dipicu jika salah satu nilai dilampaui)

Batas RPS pengiriman tugas

Tugas konkuren

Teks-ke-video

wan2.6-t2v

5

5

wan2.5-t2v-preview

wan2.2-t2v-plus

2

2

wanx2.1-t2v-turbo

wanx2.1-t2v-plus

Citra-ke-video - frame pertama

wan2.6-i2v

5

5

wan2.5-i2v-preview

wan2.2-i2v-plus

2

2

wanx2.1-i2v-turbo

wanx2.1-i2v-plus

Citra-ke-video - frame pertama dan terakhir

wanx2.1-kf2v-plus

Pengeditan video umum

wanx2.1-vace-plus

Referensi-ke-video

wan2.6-r2v

5

5

Manusia digital

wan2.2-s2v-detect

5

No limit for sync APIs

wan2.2-s2v

1

Animasikan citra

wan2.2-animate-move

5

1

Pertukaran karakter video

wan2.2-animate-mix

5

1

AnimateAnyone

Catatan

Hanya didukung di wilayah Tiongkok (Beijing).

Model

Batas RPS pengiriman tugas

Tugas konkuren

animate-anyone-detect-gen2

5

No limit for sync APIs

animate-anyone-template-gen2

1

At any given time, only one task is running. Other tasks in the queue are in a pending state.

animate-anyone-gen2

EMO

Catatan

Hanya didukung di wilayah Tiongkok (Beijing).

Model

Batas RPS pengiriman tugas

Tugas konkuren

emo-detect-v1

5

No limit for sync APIs

emo-v1

1

At any given time, only one task is running. Other tasks in the queue are in a pending state.

LivePortrait

Catatan

Hanya didukung di wilayah Tiongkok (Beijing).

Model

Batas RPS pengiriman tugas

Tugas konkuren

liveportrait-detect

5

No limit for sync APIs

liveportrait

1

At any given time, only one task is running. Other tasks in the queue are in a pending state.

VideoRetalk

Catatan

Hanya didukung di wilayah Tiongkok (Beijing).

Model

Batas RPS pengiriman tugas

Tugas Konkuren

videoretalk

1

1

At any given time, only one task is running. Other tasks in the queue are in a pending state.

Emoji

Catatan

Hanya didukung di wilayah Tiongkok (Beijing).

Model

Batas RPS pengiriman tugas

Tugas konkuren

emoji-detect-v1

1

No limit for sync APIs

emoji-v1

1

At any given time, only one task is running. Other tasks in the queue are in a pending state.

Transformasi gaya video

Catatan

Hanya didukung di wilayah Tiongkok (Beijing).

Model

Batas RPS pengiriman tugas

Tugas konkuren

video-style-transform

2

1

At any given time, only one task is running. Other tasks in the queue are in a pending state.

Sintesis suara (teks-ke-ucapan)

Sintesis suara Qwen

Internasional (Singapura)

Model

Batas laju (dipicu jika salah satu nilai dilampaui)

Berikut adalah kondisi pembatasan per menit. Layanan dapat memberlakukan batas berdasarkan RPS, dihitung sebagai RPM/60.

RPM

qwen3-tts-flash

10

qwen3-tts-flash-2025-11-27

180

qwen3-tts-flash-2025-09-18

10

Tiongkok (Beijing)

Qwen3-TTS-Flash

Model

RPM

qwen3-tts-flash

10

qwen3-tts-flash-2025-11-27

180

qwen3-tts-flash-2025-09-18

10

Qwen-TTS

Model

Batas laju (dipicu jika salah satu nilai dilampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen-tts

10

100.000

qwen-tts-latest

qwen-tts-2025-05-22

qwen-tts-2025-04-10

Sintesis suara real-time Qwen

Internasional (Singapura)

Qwen3-TTS-VD-Realtime

Model

RPM

qwen3-tts-vd-realtime-2025-12-16

180

Qwen3-TTS-VC-Realtime

Model

RPM

qwen3-tts-vc-realtime-2025-11-27

180

Qwen3-TTS-Flash-Realtime

Model

RPM

qwen3-tts-flash-realtime

10

qwen3-tts-flash-realtime-2025-11-27

180

qwen3-tts-flash-realtime-2025-09-18

10

Tiongkok (Beijing)

Qwen3-TTS-VD-Realtime

Model

RPM

qwen3-tts-vd-realtime-2025-12-16

180

Qwen3-TTS-VC-Realtime

Model

RPM

qwen3-tts-vc-realtime-2025-11-27

180

Qwen3-TTS-Flash-Realtime

Model

RPM

qwen3-tts-flash-realtime

10

qwen3-tts-flash-realtime-2025-11-27

180

qwen3-tts-flash-realtime-2025-09-18

10

Qwen-TTS-Realtime

Model

Batas laju (dipicu jika salah satu nilai dilampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen-tts-realtime

10

100.000

qwen-tts-realtime-latest

qwen-tts-realtime-2025-07-15

Kloning suara Qwen

Internasional (Singapura)

Model

RPM

qwen-voice-enrollment

180

Tiongkok (Beijing)

Model

RPM

qwen-voice-enrollment

180

Desain suara Qwen

Internasional (Singapura)

Model

RPM

qwen-voice-design

180

Tiongkok (Beijing)

Model

RPM

qwen-voice-design

180

Sintesis suara CosyVoice

Catatan

Hanya didukung di wilayah Tiongkok (Beijing).

Sintesis suara

Model

Batas RPS pengiriman tugas

cosyvoice-v3-plus

3

cosyvoice-v3-flash

cosyvoice-v2

Kloning suara

Model

Batas RPS pengiriman tugas

cosyvoice-v3-plus

10

Total batas permintaan konkuren untuk fitur kloning suara adalah 10 RPS. Batas ini berlaku baik saat Anda memanggil satu versi model maupun beberapa versi model secara bersamaan. Artinya:

  • Jika Anda hanya memanggil v2, laju permintaan konkuren maksimumnya adalah 10 RPS.

  • Jika Anda memanggil v2 dan v3 secara bersamaan, laju permintaan gabungan keduanya tidak boleh melebihi 10 RPS. Misalnya, jika v2 menggunakan 7 RPS, maka v3 dapat menggunakan maksimal 3 RPS.

cosyvoice-v3-flash

cosyvoice-v2

Pengenalan ucapan (ucapan-ke-teks) dan terjemahan (ucapan-ke-terjemahan)

Qwen3-LiveTranslate-Flash

Internasional (Singapura)

Model

Batas laju (dipicu jika salah satu nilai dilampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-livetranslate-flash

100

100.000

qwen3-livetranslate-flash-2025-12-01

Tiongkok (Beijing)

Nama model

Batas laju (dipicu jika salah satu nilai dilampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-livetranslate-flash

100

100.000

qwen3-livetranslate-flash-2025-12-01

Qwen3-LiveTranslate-Flash-Realtime

Internasional (Singapura)

Model

Batas laju (dipicu jika salah satu nilai dilampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-livetranslate-flash-realtime

10

100.000

qwen3-livetranslate-flash-realtime-2025-09-22

Tiongkok (Beijing)

Model

Batas laju (dipicu jika salah satu nilai dilampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen3-livetranslate-flash-realtime

10

100.000

qwen3-livetranslate-flash-realtime-2025-09-22

Pengenalan file audio Qwen

Internasional (Singapura)

Qwen3-ASR-Flash-Filetrans

Model

RPM

qwen3-asr-flash-filetrans

100

qwen3-asr-flash-filetrans-2025-11-17

Qwen3-ASR-Flash

Model

RPM

qwen3-asr-flash

100

qwen3-asr-flash-2025-09-08

Tiongkok (Beijing)

Qwen3-ASR-Flash-Filetrans

Model

RPM

qwen3-asr-flash-filetrans

100

qwen3-asr-flash-filetrans-2025-11-17

Qwen3-ASR-Flash

Model

RPM

qwen3-asr-flash

100

qwen3-asr-flash-2025-09-08

Pengenalan ucapan real-time Qwen

Internasional (Singapura)

Model

RPS

qwen3-asr-flash-realtime

20

qwen3-asr-flash-realtime-2025-10-27

Tiongkok (Beijing)

Model

RPS

qwen3-asr-flash-realtime

20

qwen3-asr-flash-realtime-2025-10-27

Pengenalan ucapan Paraformer

Catatan

Hanya didukung di wilayah Tiongkok (Beijing).

Model

Batas RPS pengiriman tugas

paraformer-realtime-v2

20

paraformer-realtime-8k-v2

Nama model

Batas RPS pengiriman tugas

Batas RPS kueri tugas

paraformer-v2

20

20

paraformer-8k-v2

20

Pengenalan file audio Fun-ASR

Internasional (Singapura)

Model

Task submission RPS limit

Task query RPS limit

fun-asr

10

20

fun-asr-2025-11-07

fun-asr-2025-08-25

Model

Task submission RPM limit

Task query RPS limit

fun-asr-mtl

100

20

fun-asr-mtl-2025-08-25

Tiongkok (Beijing)

Model

Batas RPS pengiriman tugas

Batas RPS kueri tugas

fun-asr

10

20

fun-asr-2025-11-07

fun-asr-2025-08-25

fun-asr-mtl

fun-asr-mtl-2025-08-25

Pengenalan ucapan real-time Fun-ASR

Internasional (Singapura)

Model

Task submission RPS limit

fun-asr-realtime

20

fun-asr-realtime-2025-11-07

Tiongkok (Beijing)

Model

Batas RPS pengiriman tugas

fun-asr-realtime

20

fun-asr-realtime-2025-11-07

fun-asr-realtime-2025-09-15

Penyematan teks

Internasional (Singapura)

Model

Batas laju (dipicu jika salah satu nilai dilampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM/Tasks

Mencakup token input dan output

text-embedding-v4

1.800

1.000.000

text-embedding-v3

6.000

24.000.000

Tiongkok (Beijing)

Model

Batas laju (dipicu jika salah satu nilai dilampaui)

RPS

TPM/Tasks

Mencakup token input dan output

text-embedding-v4

30

1.200.000

Penyematan multimodal

Catatan

Hanya didukung di wilayah Tiongkok (Beijing).

Model

Batas laju

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Hanya token input

multimodal-embedding-v1

120

200.000

Peringkat ulang teks

Catatan

Hanya didukung di wilayah Tiongkok (Beijing).

Model

Batas laju (dipicu jika salah satu nilai dilampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

gte-rerank-v2

5.040

4.980.000.000

Khusus domain

Pengenalan niat

Catatan

Hanya didukung di wilayah Tiongkok (Beijing).

Model

Batas laju (dipicu jika salah satu nilai dilampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

tongyi-intent-detect-v3

1.200

1.000.000

Permainan peran

Internasional (Singapura)

Model

Batas laju (dipicu jika salah satu nilai dilampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen-plus-character-ja

60

100.000

Tiongkok (Beijing)

Model

Batas laju (dipicu jika salah satu nilai dilampaui)

Berikut adalah batas per menit. Layanan juga dapat memberlakukan batas berdasarkan RPS (RPM/60) dan TPS (TPM/60).

RPM

TPM

Mencakup token input dan output

qwen-plus-character

120

20.000

Model yang telah dipensiun

Untuk informasi lebih lanjut, lihat Depresiasi model.

Dipensiun pada 20 Agustus 2025

Kategori

Model

Batas laju (dipicu jika salah satu nilai dilampaui)

RPM

TPM

Mencakup token input dan output

Generasi teks - Qwen

qwen2-72b-instruct

0

0

qwen2-57b-a14b-instruct

qwen2-7b-instruct

qwen1.5-110b-chat

qwen1.5-72b-chat

qwen1.5-32b-chat

qwen1.5-14b-chat

qwen1.5-7b-chat