全部產品
Search
文件中心

Alibaba Cloud Model Studio:限流

更新時間:Dec 05, 2025

為了保證使用者調用模型的公平性,阿里雲百鍊設定了基礎限流。限流基於模型維度且與使用者的阿里雲主帳號相關聯,按照該帳號下所有API-KEY調用該模型的總和計算限流。若超出限制,API請求將會失敗,需等到解除限流條件時再次調用。

限流規則

  • 主帳號維度:按主帳號下,所有RAM子帳號、所有業務空間、所有API-KEY的調用總和計算。

  • 不同模型獨立限流:具體參見下方表格。

限流FAQ

為什麼觸發限流?

根據錯誤資訊判斷:

  • Requests rate limit exceeded或You exceeded your current requests list:表示調用頻率觸發限流。

  • Allocated quota exceeded或You exceeded your current quota:表示Token消耗觸發限流。

  • Request rate increased too quickly:表示在未達到RPM或TPM限流條件時,因調用頻率在短時間內激增,觸發了系統穩定性保護機制。

  • 其他報錯請參考錯誤資訊確認原因。

注意:除了RPM(Requests Per Minute,每分鐘請求數)和TPM,限流策略可能按秒級 RPS(RPM/60)與 TPS(TPM/60)限制,即使總調用量未達到每分鐘上限,短時間內的請求爆發也可能觸發限流。

如何查看模型調用量?

模型調用完一小時後,在模型觀測(新加坡北京版面設定查詢條件(例如,選擇時間範圍、業務空間等),再在模型列表地區找到目標模型並單擊操作列的監控,即可查看該模型的調用統計結果。具體請參見用量與效能觀測文檔。

資料按小時更新,高峰期可能有小時級延遲,請您耐心等待。

image

遇到限流後多久恢複?

通常在一分鐘內恢複。若出現其他報錯,請根據錯誤資訊進行解決。

如何避免限流?

  1. 選用高限流模型:穩定版或最新版比帶日期的快照版本限流更寬鬆。

  2. 最佳化調用策略

    • 調整調用頻率:觸發Requests rate limit exceeded或You exceeded your current requests list時,降低調用頻率。

    • 減少Token消耗:觸發Allocated quota exceeded或You exceeded your current quota時,縮短輸入或輸出長度。

    • 平滑請求速率:當調用頻率驟增並觸發系統穩定性保護(收到 Request rate increased too quickly 報錯)時,建議最佳化用戶端調用邏輯,採用平滑請求策略(如勻速調度、指數退避或請求隊列緩衝),將請求均勻分散在時間視窗內,避免瞬時高峰。

  3. 添加備選模型

    建議您在遇到限流報錯後切換到備用模型繼續產生,提升並發並降低失敗機率。以下代碼展示了調用 qwen-plus-2025-07-28 觸發限流,改用 qwen-plus-2025-07-14 重發請求的樣本。

    範例程式碼

    import os
    import asyncio
    from openai import AsyncOpenAI, APIStatusError
    
    # 配置
    API_KEY = os.getenv("DASHSCOPE_API_KEY")
    # 主用模型
    MODEL = "qwen-plus-2025-07-28"
    # 備選模型
    BACKUP_MODEL = "qwen-plus-2025-07-14"
    # 測試問題
    QUESTION = "你是誰?"
    # 並發設定
    NUM_REQUESTS = 10
    
    client = AsyncOpenAI(
        api_key=API_KEY,
        base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1"
    )
    
    async def send_request(model):
        """發送單個請求"""
        try:
            await client.chat.completions.create(
                model=model,
                messages=[{"role": "user", "content": QUESTION}]
            )
            return True
        except APIStatusError as e:
            if e.status_code == 429:
                print(f"[限流觸發] 模型 {model}")
                return False
            raise
        except Exception as e:
            print(f"[請求失敗] 模型 {model},錯誤:{e}")
            return False
    
    async def task(i):
        # 嘗試主模型
        if await send_request(MODEL):
            return True
        # 限流時嘗試備用模型
        return await send_request(BACKUP_MODEL)
    
    async def main():
        results = await asyncio.gather(*(task(i) for i in range(NUM_REQUESTS)))
        print(f"成功請求: {sum(results)}, 失敗請求: {len(results) - sum(results)}")
    
    if __name__ == "__main__":
        asyncio.run(main())
  4. 任務拆分:處理長對話或大型文檔會快速消耗大量Token。可以將大批量任務拆分為小批次,在不同時間段提交。

  5. 批量推理:如果無需即時返回結果,可使用批量推理(Batch API),不受即時限流約束,但需考慮排隊和處理時間。

文本產生-通義千問

通義千問語言模型

國際(新加坡)

模型名稱

限流條件(超出任一數值時觸發限流)

以下為每分鐘限流條件,服務可能按 RPS(RPM/60)與 TPS(TPM/60)限制

每分鐘調用次數(RPM)

每分鐘消耗Token數(TPM)

含輸入與輸出Token

qwen3-max

600

1,000,000

qwen3-max-2025-09-23

60

100,000

qwen3-max-preview

600

1,000,000

qwen-max

600

1,000,000

qwen-max-latest

60

100,000

qwen-max-2025-01-25

(qwen-max-0125)

qwen-plus

600

1,000,000

qwen-plus-latest

60

100,000

qwen-plus-2025-12-01

1,000,000

qwen-plus-2025-09-11

120

qwen-plus-2025-07-28

60

100,000

qwen-plus-2025-07-14

(qwen-plus-0714)

qwen-plus-2025-04-28

(qwen-plus-0428)

qwen-plus-2025-01-25

(qwen-plus-0125)

qwen-flash

600

5,000,000

qwen-flash-2025-07-28

600

5,000,000

qwq-plus

60

100,000

qwen-turbo

600

5,000,000

qwen-turbo-latest

60

qwen-turbo-2025-04-28

(qwen-turbo-0428)

qwen-turbo-2024-11-01

(qwen-turbo-1101)

中國大陸(北京)

模型名稱

限流條件(超出任一數值時觸發限流)

以下為每分鐘限流條件,服務可能按 RPS(RPM/60)與 TPS(TPM/60)限制

每分鐘調用次數(RPM)

每分鐘消耗Token數(TPM)

含輸入與輸出Token

qwen3-max

600

1,000,000

qwen3-max-2025-09-23

60

100,000

qwen3-max-preview

600

1,000,000

qwen-max

1,200

1,000,000

qwen-max-latest

qwen-max-2025-01-25

(qwen-max-0125)

60

100,000

qwen-max-2024-09-19

(qwen-max-0919)

qwen-plus

15,000

5,000,000

qwen-plus-latest

1,200,000

qwen-plus-2025-12-01

60

1,000,000

qwen-plus-2025-09-11

qwen-plus-2025-07-28

(qwen-plus-0728)

qwen-plus-2025-07-14

(qwen-plus-0714)

100,000

qwen-plus-2025-04-28

(qwen-plus-0428)

1,000,000

qwen-plus-2025-01-25

(qwen-plus-0125)

150,000

qwen-plus-2025-01-12

(qwen-plus-0112)

qwen-plus-2024-12-20

(qwen-plus-1220)

qwen-plus-2024-11-27

(qwen-plus-1127)

qwen-plus-2024-11-25

(qwen-plus-1125)

qwen-plus-2024-09-19

(qwen-plus-0919)

qwen-plus-2024-08-06

(qwen-plus-0806)

qwen-flash

15,000

10,000,000

qwen-flash-2025-07-28

60

1,000,000

qwq-plus

600

1,000,000

qwq-plus-latest

qwq-plus-2025-03-05

60

100,000

qwen-turbo

1,200

5,000,000

qwen-turbo-latest

qwen-turbo-2025-04-28

(qwen-turbo-0428)

60

1,000,000

qwen-turbo-2025-02-11

(qwen-turbo-0211)

5,000,000

qwen-turbo-2024-11-01

(qwen-turbo-1101)

qwen-turbo-2024-09-19

(qwen-turbo-0919)

150,000

qwen-long-latest

1,200

60,000

qwen-long-2025-01-25

(qwen-long-0125)

3

7,500

通義千問Omni(全模態)

國際(新加坡)

模型名稱

限流條件(超出任一數值時觸發限流)

以下為每分鐘限流條件,服務可能按 RPS(RPM/60)與 TPS(TPM/60)限制

每分鐘調用次數(RPM)

每分鐘消耗Token數(TPM)

含輸入與輸出Token

qwen3-omni-flash

60

100,000

qwen3-omni-flash-2025-12-01

qwen3-omni-flash-2025-09-15

qwen-omni-turbo

qwen-omni-turbo-latest

qwen-omni-turbo-2025-03-26

中國大陸(北京)

模型名稱

限流條件(超出任一數值時觸發限流)

以下為每分鐘限流條件,服務可能按 RPS(RPM/60)與 TPS(TPM/60)限制

每分鐘調用次數(RPM)

每分鐘消耗Token數(TPM)

含輸入與輸出Token

qwen3-omni-flash

60

100,000

qwen3-omni-flash-2025-12-01

qwen3-omni-flash-2025-09-15

qwen-omni-turbo

qwen-omni-turbo-latest

qwen-omni-turbo-2025-03-26

(qwen-omni-turbo-0326)

qwen-omni-turbo-2025-01-19

(qwen-omni-turbo-0119)

通義千問Omni-Realtime(即時多模態)

國際(新加坡)

模型名稱

限流條件(超出任一數值時觸發限流)

以下為每分鐘限流條件,服務可能按 RPS(RPM/60)與 TPS(TPM/60)限制

每分鐘調用次數(RPM)

每分鐘消耗Token數(TPM)

含輸入與輸出Token

qwen3-omni-flash-realtime

60

100,000

qwen3-omni-flash-realtime-2025-12-01

qwen3-omni-flash-realtime-2025-09-15

qwen-omni-turbo-realtime

qwen-omni-turbo-realtime-latest

qwen-omni-turbo-realtime-2025-05-08

中國大陸(北京)

模型名稱

限流條件(超出任一數值時觸發限流)

以下為每分鐘限流條件,服務可能按 RPS(RPM/60)與 TPS(TPM/60)限制

每分鐘調用次數(RPM)

每分鐘消耗Token數(TPM)

含輸入與輸出Token

qwen3-omni-flash-realtime

60

100,000

qwen3-omni-flash-realtime-2025-12-01

qwen3-omni-flash-realtime-2025-09-15

qwen-omni-turbo-realtime

qwen-omni-turbo-realtime-latest

qwen-omni-turbo-realtime-2025-05-08

通義千問VL(視覺理解/圖生文)

國際(新加坡)

模型名稱

限流條件(超出任一數值時觸發限流)

以下為每分鐘限流條件,服務可能按 RPS(RPM/60)與 TPS(TPM/60)限制

每分鐘調用次數(RPM)

每分鐘消耗Token數(TPM)

含輸入與輸出Token

qvq-max

60

100,000

qvq-max-latest

qvq-max-2025-03-25

(qvq-max-0325)

qwen-vl-max

1,200

1,000,000

qwen-vl-max-latest

qwen-vl-max-2025-08-13

(qwen-vl-max-0813)

60

100,000

qwen-vl-max-2025-04-08

(qwen-vl-max-0408)

1,200

1,000,000

qwen3-vl-plus

qwen-vl-plus

qwen-vl-plus-latest

qwen3-vl-plus-2025-09-23

60

100,000

qwen-vl-plus-2025-08-15

(qwen-vl-plus-0815)

120

1,000,000

qwen-vl-plus-2025-05-07

(qwen-vl-plus-0507)

qwen-vl-plus-2025-01-25

(qwen-vl-plus-0125)

1,200

qwen3-vl-flash

1,200

1,000,000

qwen3-vl-flash-2025-10-15

120

1,000,000

中國大陸(北京)

模型名稱

限流條件(超出任一數值時觸發限流)

以下為每分鐘限流條件,服務可能按 RPS(RPM/60)與 TPS(TPM/60)限制

每分鐘調用次數(RPM)

每分鐘消耗Token數(TPM)

含輸入與輸出Token

qvq-max

60

100,000

qvq-max-latest

qvq-max-2025-05-15

(qvq-max-0515)

qvq-max-2025-03-25

(qvq-max-0325)

qvq-plus

qvq-plus-latest

qvq-plus-2025-05-15

(qvq-plus-0515)

qwen-vl-max

1,200

1,000,000

qwen-vl-max-latest

qwen-vl-max-2025-08-13

(qwen-vl-max-0813)

60

100,000

qwen-vl-max-2025-04-08

(qwen-vl-max-0408)

qwen-vl-max-2025-04-02

(qwen-vl-max-0402)

qwen-vl-max-2025-01-25

(qwen-vl-max-0125)

qwen-vl-max-2024-12-30

(qwen-vl-max-1230)

qwen-vl-max-2024-11-19

(qwen-vl-max-1119)

qwen-vl-max-2024-10-30

(qwen-vl-max-1030)

qwen-vl-max-2024-08-09

(qwen-vl-max-0809)

15

25,000

qwen3-vl-plus

1,200

1,000,000

qwen-vl-plus

qwen-vl-plus-latest

qwen3-vl-plus-2025-09-23

60

100,000

qwen-vl-plus-2025-08-15

(qwen-vl-plus-0815)

qwen-vl-plus-2025-07-10

(qwen-vl-plus-0710)

qwen-vl-plus-2025-05-07

(qwen-vl-plus-0507)

qwen-vl-plus-2025-01-25

(qwen-vl-plus-0125)

qwen-vl-plus-2025-01-02

(qwen-vl-plus-0102)

qwen-vl-plus-2024-08-09

(qwen-vl-plus-0809)

qwen3-vl-flash

1,200

1,000,000

qwen3-vl-flash-2025-10-15

60

100,000

通義千問OCR(文字提取)

國際(新加坡)

模型名稱

限流條件(超出任一數值時觸發限流)

以下為每分鐘限流條件,服務可能按 RPS(RPM/60)與 TPS(TPM/60)限制

每分鐘調用次數(RPM)

每分鐘消耗Token數(TPM)

含輸入與輸出Token

qwen-vl-ocr

600

6,000,000

qwen-vl-ocr-2025-11-20

1,200

中國大陸(北京)

模型名稱

限流條件(超出任一數值時觸發限流)

以下為每分鐘限流條件,服務可能按 RPS(RPM/60)與 TPS(TPM/60)限制

每分鐘調用次數(RPM)

每分鐘消耗Token數(TPM)

含輸入與輸出Token

qwen-vl-ocr

600

6,000,000

qwen-vl-ocr-latest

1,200

qwen-vl-ocr-2025-11-20

qwen-vl-ocr-2025-04-13

600

qwen-vl-ocr-2024-10-28

通義千問數學模型

說明

僅支援中國大陸(北京)地區。

模型名稱

限流條件(超出任一數值時觸發限流)

以下為每分鐘限流條件,服務可能按 RPS(RPM/60)與 TPS(TPM/60)限制

每分鐘調用次數(RPM)

每分鐘消耗Token數(TPM)

含輸入與輸出Token

qwen-math-plus

1,200

1,000,000

qwen-math-plus-latest

qwen-math-plus-2024-09-19

(qwen-math-plus-0919)

60

100,000

qwen-math-plus-2024-08-16

(qwen-math-plus-0816)

10

20,000

qwen-math-turbo

1200

1,000,000

qwen-math-turbo-latest

qwen-math-turbo-2024-09-19

(qwen-math-turbo-0919)

60

100,000

通義千問Coder

國際(新加坡)

模型名稱

限流條件(超出任一數值時觸發限流)

以下為每分鐘限流條件,服務可能按 RPS(RPM/60)與 TPS(TPM/60)限制

每分鐘調用次數(RPM)

每分鐘消耗Token數(TPM)

含輸入與輸出Token

qwen3-coder-plus

2,400

2,000,000

qwen3-coder-plus-2025-09-23

60

1,000,000

qwen3-coder-plus-2025-07-22

60

1,000,000

qwen3-coder-flash

600

5,000,000

qwen3-coder-flash-2025-07-28

600

5,000,000

中國大陸(北京)

模型名稱

限流條件(超出任一數值時觸發限流)

以下為每分鐘限流條件,服務可能按 RPS(RPM/60)與 TPS(TPM/60)限制

每分鐘調用次數(RPM)

每分鐘消耗Token數(TPM)

含輸入與輸出Token

qwen3-coder-plus

2,400

2,000,000

qwen3-coder-plus-2025-09-23

60

1,000,000

qwen3-coder-plus-2025-07-22

qwen3-coder-flash

1,200

qwen3-coder-flash-2025-07-28

60

qwen-coder-plus

1,200

qwen-coder-plus-latest

qwen-coder-plus-2024-11-06

(qwen-coder-plus-1106)

60

100,000

qwen-coder-turbo

1,200

1,000,000

qwen-coder-turbo-latest

qwen-coder-turbo-2024-09-19

(qwen-coder-turbo-0919)

60

100,000

通義千問翻譯模型

國際(新加坡)

模型名稱

限流條件(超出任一數值時觸發限流)

以下為每分鐘限流條件,服務可能按 RPS(RPM/60)與 TPS(TPM/60)限制

每分鐘調用次數(RPM)

每分鐘消耗Token數(TPM)

含輸入與輸出Token

qwen-mt-plus

60

100,000

qwen-mt-flash

qwen-mt-lite

qwen-mt-turbo

中國大陸(北京)

模型名稱

限流條件(超出任一數值時觸發限流)

以下為每分鐘限流條件,服務可能按 RPS(RPM/60)與 TPS(TPM/60)限制

每分鐘調用次數(RPM)

每分鐘消耗Token數(TPM)

含輸入與輸出Token

qwen-mt-plus

60

25,000

qwen-mt-flash

35,000

qwen-mt-lite

100,000

qwen-mt-turbo

35,000

通義千問資料採礦模型

說明

僅支援中國大陸(北京)地區。

模型名稱

限流條件(超出任一數值時觸發限流)

以下為每分鐘限流條件,服務可能按 RPS(RPM/60)與 TPS(TPM/60)限制

每分鐘調用次數(RPM)

每分鐘消耗Token數(TPM)

含輸入與輸出Token

qwen-doc-turbo

600

3,000,000

通義千問深入研究模型

說明

僅支援中國大陸(北京)地區。

模型名稱

限流條件(超出任一數值時觸發限流)

以下為每分鐘限流條件,服務可能按 RPS(RPM/60)與 TPS(TPM/60)限制

每分鐘調用次數(RPM)

每分鐘消耗Token數(TPM)

含輸入與輸出Token

qwen-deep-research

120

1,200,000

文本產生-通義千問-開源版

通義千問語言模型開源版

國際(新加坡)

模型名稱

限流條件(超出任一數值時觸發限流)

以下為每分鐘限流條件,服務可能按 RPS(RPM/60)與 TPS(TPM/60)限制

每分鐘調用次數(RPM)

每分鐘消耗Token數(TPM)

含輸入與輸出Token

qwen3-next-80b-a3b-thinking

600

1,000,000

qwen3-next-80b-a3b-instruct

qwen3-235b-a22b-thinking-2507

qwen3-235b-a22b-instruct-2507

qwen3-30b-a3b-thinking-2507

qwen3-30b-a3b-instruct-2507

qwen3-235b-a22b

qwen3-32b

qwen3-30b-a3b

qwen3-14b

qwen3-8b

qwen3-4b

qwen3-1.7b

qwen3-0.6b

qwen2.5-14b-instruct-1m

60

1,000,000

qwen2.5-7b-instruct-1m

qwen2.5-72b-instruct

100,000

qwen2.5-32b-instruct

qwen2.5-14b-instruct

qwen2.5-7b-instruct

中國大陸(北京)

模型名稱

限流條件(超出任一數值時觸發限流)

以下為每分鐘限流條件,服務可能按 RPS(RPM/60)與 TPS(TPM/60)限制

每分鐘調用次數(RPM)

每分鐘消耗Token數(TPM)

含輸入與輸出Token

qwen3-next-80b-a3b-thinking

600

1,000,000

qwen3-next-80b-a3b-instruct

qwen3-235b-a22b-thinking-2507

qwen3-235b-a22b-instruct-2507

qwen3-30b-a3b-thinking-2507

qwen3-30b-a3b-instruct-2507

qwen3-235b-a22b

qwen3-30b-a3b

qwen3-32b

qwen3-14b

qwen3-8b

qwen3-4b

qwen3-1.7b

qwen3-0.6b

qwq-32b

qwq-32b-preview

1,200

qwen2.5-72b-instruct

qwen2.5-32b-instruct

qwen2.5-14b-instruct

qwen2.5-14b-instruct-1m

qwen2.5-7b-instruct

qwen2.5-7b-instruct-1m

qwen2.5-3b-instruct

2,000,000

qwen2.5-1.5b-instruct

qwen2.5-0.5b-instruct

Qwen3-Omni

國際(新加坡)

模型名稱

限流條件(超出任一數值時觸發限流)

以下為每分鐘限流條件,服務可能按 RPS(RPM/60)與 TPS(TPM/60)限制

每分鐘調用次數(RPM)

每分鐘消耗Token數(TPM)

含輸入與輸出Token

qwen2.5-omni-7b

60

100,000

中國大陸(北京)

模型名稱

限流條件(超出任一數值時觸發限流)

以下為每分鐘限流條件,服務可能按 RPS(RPM/60)與 TPS(TPM/60)限制

每分鐘調用次數(RPM)

每分鐘消耗Token數(TPM)

含輸入與輸出Token

qwen2.5-omni-7b

60

100,000

Qwen3-Omni-Captioner

國際(新加坡)

模型名稱

限流條件(超出任一數值時觸發限流)

以下為每分鐘限流條件,服務可能按 RPS(RPM/60)與 TPS(TPM/60)限制

每分鐘調用次數(RPM)

每分鐘消耗Token數(TPM)

含輸入與輸出Token

qwen3-omni-30b-a3b-captioner

60

100,000

中國大陸(北京)

模型名稱

限流條件(超出任一數值時觸發限流)

以下為每分鐘限流條件,服務可能按 RPS(RPM/60)與 TPS(TPM/60)限制

每分鐘調用次數(RPM)

每分鐘消耗Token數(TPM)

含輸入與輸出Token

qwen3-omni-30b-a3b-captioner

60

100,000

Qwen-VL(視覺理解/圖生文)

國際(新加坡)

模型名稱

限流條件(超出任一數值時觸發限流)

以下為每分鐘限流條件,服務可能按 RPS(RPM/60)與 TPS(TPM/60)限制

每分鐘調用次數(RPM)

每分鐘消耗Token數(TPM)

含輸入與輸出Token

qwen3-vl-32b-thinking

60

100,000

qwen3-vl-32b-instruct

qwen3-vl-30b-a3b-thinking

qwen3-vl-30b-a3b-instruct

qwen3-vl-8b-thinking

qwen3-vl-8b-instruct

qwen3-vl-235b-a22b-thinking

qwen3-vl-235b-a22b-instruct

qwen2.5-vl-72b-instruct

qwen2.5-vl-32b-instruct

qwen2.5-vl-7b-instruct

qwen2.5-vl-3b-instruct

中國大陸(北京)

模型名稱

限流條件(超出任一數值時觸發限流)

以下為每分鐘限流條件,服務可能按 RPS(RPM/60)與 TPS(TPM/60)限制

每分鐘調用次數(RPM)

每分鐘消耗Token數(TPM)

含輸入與輸出Token

qwen3-vl-32b-thinking

600

1,000,000

qwen3-vl-32b-instruct

qwen3-vl-30b-a3b-thinking

qwen3-vl-30b-a3b-instruct

qwen3-vl-8b-thinking

qwen3-vl-8b-instruct

qwen3-vl-235b-a22b-thinking

60

100,000

qwen3-vl-235b-a22b-instruct

qwen2.5-vl-72b-instruct

qwen2.5-vl-32b-instruct

qwen2.5-vl-7b-instruct

1,200

1,000,000

qwen2.5-vl-3b-instruct

qwen2-vl-72b-instruct

60

100,000

qwen2-vl-7b-instruct

1,200

1,000,000

qwen2-vl-2b-instruct

qvq-72b-preview

60

100,000

Qwen-Math

說明

僅支援中國大陸(北京)地區。

模型名稱

限流條件(超出任一數值時觸發限流)

以下為每分鐘限流條件,服務可能按 RPS(RPM/60)與 TPS(TPM/60)限制

每分鐘調用次數(RPM)

每分鐘消耗Token數(TPM)

含輸入與輸出Token

qwen2.5-math-72b-instruct

1,200

1,000,000

qwen2.5-math-7b-instruct

qwen2.5-math-1.5b-instruct

Qwen-Coder

國際(新加坡)

模型名稱

限流條件(超出任一數值時觸發限流)

以下為每分鐘限流條件,服務可能按 RPS(RPM/60)與 TPS(TPM/60)限制

每分鐘調用次數(RPM)

每分鐘消耗Token數(TPM)

含輸入與輸出Token

qwen3-coder-480b-a35b-instruct

600

1,000,000

qwen3-coder-30b-a3b-instruct

600

1,000,000

中國大陸(北京)

模型名稱

限流條件(超出任一數值時觸發限流)

以下為每分鐘限流條件,服務可能按 RPS(RPM/60)與 TPS(TPM/60)限制

每分鐘調用次數(RPM)

每分鐘消耗Token數(TPM)

含輸入與輸出Token

qwen3-coder-480b-a35b-instruct

600

1,000,000

qwen3-coder-30b-a3b-instruct

600

qwen2.5-coder-32b-instruct

1,200

qwen2.5-coder-14b-instruct

qwen2.5-coder-7b-instruct

qwen2.5-coder-3b-instruct

2,000,000

qwen2.5-coder-1.5b-instruct

qwen2.5-coder-0.5b-instruct

文本產生-第三方模型

DeepSeek

說明

僅支援中國大陸(北京)地區。

模型名稱

限流條件(超出任一數值時觸發限流)

以下為每分鐘限流條件,服務可能按 RPS(RPM/60)與 TPS(TPM/60)限制

每分鐘調用次數(RPM)

每分鐘消耗Token數(TPM)

含輸入與輸出Token

deepseek-v3.2

15,000

1,200,000

deepseek-v3.2-exp

15,000

1,200,000

deepseek-v3.1

15,000

1,200,000

deepseek-r1-0528

60

100,000

deepseek-r1

15,000

1,200,000

deepseek-v3

deepseek-r1-distill-qwen-7b

deepseek-r1-distill-qwen-14b

deepseek-r1-distill-qwen-32b

deepseek-r1-distill-qwen-1.5b

60

100,000

deepseek-r1-distill-llama-8b

deepseek-r1-distill-llama-70b

Kimi

說明

僅支援中國大陸(北京)地區。

模型名稱

限流條件(超出任一數值時觸發限流)

以下為每分鐘限流條件,服務可能按 RPS(RPM/60)與 TPS(TPM/60)限制

每分鐘調用次數(RPM)

每分鐘消耗Token數(TPM)

含輸入與輸出Token

kimi-k2-thinking

60

100,000

Moonshot-Kimi-K2-Instruct

60

100,000

映像產生

通義千問(Qwen-Image)

國際(新加坡)

模型服務

模型名稱

限流條件(超出任一數值時觸發限流)

每秒鐘任務下發介面RPS限制

同時處理中任務數量(並發數)

文生圖

qwen-image-plus

2

2

qwen-image

2

2

影像編輯

qwen-image-edit-plus

2

同步介面無限制

qwen-image-edit-plus-2025-10-30

2

同步介面無限制

qwen-image-edit

2

同步介面無限制

中國大陸(北京)

模型服務

模型名稱

限流條件(超出任一數值時觸發限流)

每秒鐘任務下發介面RPS限制

同時處理中任務數量(並發數)

文生圖

qwen-image-plus

2

2

qwen-image

2

2

影像編輯

qwen-image-edit-plus

2

同步介面無限制

qwen-image-edit-plus-2025-10-30

2

同步介面無限制

qwen-image-edit

2

同步介面無限制

映像翻譯

qwen-mt-image

1

2

通義萬相

國際(新加坡)

模型服務

模型名稱

限流條件(超出任一數值時觸發限流)

每秒鐘任務下發介面RPS限制

同時處理中任務數量(並發數)

文生圖

wan2.5-t2i-preview

5

5

wan2.2-t2i-flash

2

2

wan2.2-t2i-plus

wan2.1-t2i-turbo

wan2.1-t2i-plus

影像編輯

wan2.5-i2i-preview

5

5

中國大陸(北京)

模型服務

模型名稱

限流條件(超出任一數值時觸發限流)

每秒鐘任務下發介面RPS限制

同時處理中任務數量(並發數)

文生圖

wan2.5-t2i-preview

5

5

wanx2.0-t2i-turbo

2

2

wanx2.1-t2i-turbo

wanx2.1-t2i-plus

wan2.2-t2i-flash

wan2.2-t2i-plus

通用影像編輯

wan2.5-i2i-preview

5

5

wanx2.1-imageedit

2

2

AI試衣OutfitAnyone

說明

僅支援中國大陸(北京)地區。

模型名稱

限流條件(超出任一數值時觸發限流)

作業提交介面RPS限制

同時處理中任務數量

aitryon-plus

10

5

aitryon-parsing-v1

10

同步介面無限制

視頻產生

通義萬相系列

國際(新加坡)

模型服務

模型名稱

限流條件(超出任一數值時觸發限流)

每秒鐘任務下發介面RPS限制

同時處理中任務數量(並發數)

文生圖

wan2.5-t2v-preview

5

5

wan2.2-t2v-plus

2

2

wan2.1-t2v-turbo

wan2.1-t2v-plus

圖生視頻-基於首幀

wan2.5-i2v-preview

5

5

wan2.2-i2v-flash

2

2

wan2.1-i2v-plus

wan2.1-i2v-turbo

wan2.2-i2v-plus

圖生視頻-基於首尾幀

wan2.1-kf2v-plus

通用視頻編輯

wan2.1-vace-plus

圖生動作

wan2.2-animate-move

5

1

視頻換人

wan2.2-animate-mix

5

1

中國大陸(北京)

模型服務

模型名稱

限流條件(超出任一數值時觸發限流)

每秒鐘任務下發介面RPS限制

同時處理中任務數量(並發數)

文生視頻

wan2.5-t2v-preview

5

5

wan2.2-t2v-plus

2

2

wanx2.1-t2v-turbo

wanx2.1-t2v-plus

圖生視頻-基於首幀

wan2.5-i2v-preview

5

5

wan2.2-i2v-plus

2

2

wanx2.1-i2v-turbo

wanx2.1-i2v-plus

圖生視頻-基於首尾幀

wanx2.1-kf2v-plus

通用視頻編輯

wanx2.1-vace-plus

數字人s2v

wan2.2-s2v-detect

5

同步介面無限制

wan2.2-s2v

1

圖生動作

wan2.2-animate-move

5

1

視頻換人

wan2.2-animate-mix

5

1

舞動人像AnimateAnyone

說明

僅支援中國大陸(北京)地區。

模型名稱

任務下發介面RPS限制

同時處理中任務數量

animate-anyone-detect-gen2

5

同步介面無限制

animate-anyone-template-gen2

1

在同一時刻,只有1個作業實際處於運行狀態,其他隊列中的作業處於排隊狀態。

animate-anyone-gen2

悅動人像EMO

說明

僅支援中國大陸(北京)地區。

模型名稱

任務下發介面RPS限制

同時處理中任務數量

emo-detect-v1

5

同步介面無限制

emo-v1

1

在同一時刻,只有1個作業實際處於運行狀態,其他隊列中的作業處於排隊狀態。

靈動人像LivePortrait

說明

僅支援中國大陸(北京)地區。

模型名稱

任務下發介面RPS限制

同時處理中任務數量

liveportrait-detect

5

同步介面無限制

liveportrait

1

在同一時刻,只有1個作業實際處於運行狀態,其他隊列中的作業處於排隊狀態。

聲動人像VideoRetalk

說明

僅支援中國大陸(北京)地區。

模型名稱

任務下發介面RPS限制

同時處理中任務數量

videoretalk

1

1

在同一時刻,只有1個作業實際處於運行狀態,其他隊列中的作業處於排隊狀態。

表情包Emoji

說明

僅支援中國大陸(北京)地區。

模型名稱

任務下發介面RPS限制

同時處理中任務數量

emoji-detect-v1

1

同步介面無限制

emoji-v1

1

在同一時刻,只有1個作業實際處於運行狀態,其他隊列中的作業處於排隊狀態。

視頻風格重繪

說明

僅支援中國大陸(北京)地區。

模型名稱

任務下發介面RPS限制

同時處理中任務數量

video-style-transform

2

1

在同一時刻,只有1個作業實際處於運行狀態,其他隊列中的作業處於排隊狀態。

語音合成(文本轉語音)

通義千問語音合成

國際(新加坡)

模型名稱

限流條件(超出任一數值時觸發限流)

以下為每分鐘限流條件,服務可能按 RPS(RPM/60)限制

每分鐘調用次數(RPM)

qwen3-tts-flash

10

qwen3-tts-flash-2025-11-27

180

qwen3-tts-flash-2025-09-18

10

中國大陸(北京)

通義千問3-TTS-Flash

模型名稱

每分鐘調用次數(RPM)

qwen3-tts-flash

10

qwen3-tts-flash-2025-11-27

180

qwen3-tts-flash-2025-09-18

10

通義千問-TTS

模型名稱

限流條件(超出任一數值時觸發限流)

以下為每分鐘限流條件,服務可能按 RPS(RPM/60)與 TPS(TPM/60)限制

每分鐘調用次數(RPM)

每分鐘消耗Token數(TPM)

含輸入與輸出Token

qwen-tts

10

100,000

qwen-tts-latest

qwen-tts-2025-05-22

qwen-tts-2025-04-10

通義千問即時語音合成

國際(新加坡)

通義千問3-TTS-VC-Realtime

模型名稱

每分鐘調用次數(RPM)

qwen3-tts-vc-realtime-2025-11-27

180

通義千問3-TTS-Flash-Realtime

模型名稱

每分鐘調用次數(RPM)

qwen3-tts-flash-realtime

10

qwen3-tts-flash-realtime-2025-11-27

180

qwen3-tts-flash-realtime-2025-09-18

10

中國大陸(北京)

通義千問3-TTS-VC-Realtime

模型名稱

每分鐘調用次數(RPM)

qwen3-tts-vc-realtime-2025-11-27

180

通義千問3-TTS-Flash-Realtime

模型名稱

每分鐘調用次數(RPM)

qwen3-tts-flash-realtime

10

qwen3-tts-flash-realtime-2025-11-27

180

qwen3-tts-flash-realtime-2025-09-18

10

通義千問-TTS-Realtime

模型名稱

限流條件(超出任一數值時觸發限流)

以下為每分鐘限流條件,服務可能按 RPS(RPM/60)與 TPS(TPM/60)限制

每分鐘調用次數(RPM)

每分鐘消耗Token數(TPM)

含輸入與輸出Token

qwen-tts-realtime

10

100,000

qwen-tts-realtime-latest

qwen-tts-realtime-2025-07-15

通義千問聲音複刻

國際(新加坡)

模型名稱

提交作業介面RPS限制

qwen-voice-enrollment

3

中國大陸(北京)

模型名稱

提交作業介面RPS限制

qwen-voice-enrollment

3

CosyVoice語音合成

說明

僅支援中國大陸(北京)地區。

語音合成

模型名稱

提交作業介面RPS限制

cosyvoice-v3-plus

3

cosyvoice-v3-flash

cosyvoice-v2

聲音複刻

模型名稱

提交作業介面RPS限制

cosyvoice-v3-plus

10

無論聲音複刻功能是單獨調用某一模型版本,還是同時調用多個模型版本,其總並發請求數均限制為 10 RPS。這意味著:

  • 如果您僅調用 v2,則其最大並發請求為 10 RPS。

  • 如果您同時調用 v2 和 v3,兩者的請求總和不能超過 10 RPS(例如,v2 使用 7 RPS,則 v3 最多隻能使用 3 RPS)。

cosyvoice-v3-flash

cosyvoice-v2

語音辨識(語音轉文本)與翻譯(語音轉成指定語種的文本)

通義千問3-LiveTranslate-Flash

國際(新加坡)

模型名稱

限流條件(超出任一數值時觸發限流)

以下為每分鐘限流條件,服務可能按 RPS(RPM/60)與 TPS(TPM/60)限制

每分鐘調用次數(RPM)

每分鐘消耗Token數(TPM)

含輸入與輸出Token

qwen3-livetranslate-flash

100

100,000

qwen3-livetranslate-flash-2025-12-01

中國大陸(北京)

模型名稱

限流條件(超出任一數值時觸發限流)

以下為每分鐘限流條件,服務可能按 RPS(RPM/60)與 TPS(TPM/60)限制

每分鐘調用次數(RPM)

每分鐘消耗Token數(TPM)

含輸入與輸出Token

qwen3-livetranslate-flash

100

100,000

qwen3-livetranslate-flash-2025-12-01

通義千問3-LiveTranslate-Flash-Realtime

國際(新加坡)

模型名稱

限流條件(超出任一數值時觸發限流)

以下為每分鐘限流條件,服務可能按 RPS(RPM/60)與 TPS(TPM/60)限制

每分鐘調用次數(RPM)

每分鐘消耗Token數(TPM)

含輸入與輸出Token

qwen3-livetranslate-flash-realtime

10

100,000

qwen3-livetranslate-flash-realtime-2025-09-22

中國大陸(北京)

模型名稱

限流條件(超出任一數值時觸發限流)

以下為每分鐘限流條件,服務可能按 RPS(RPM/60)與 TPS(TPM/60)限制

每分鐘調用次數(RPM)

每分鐘消耗Token數(TPM)

含輸入與輸出Token

qwen3-livetranslate-flash-realtime

10

100,000

qwen3-livetranslate-flash-realtime-2025-09-22

通義千問錄音檔案識別

國際(新加坡)

通義千問3-ASR-Flash-Filetrans

模型名稱

每分鐘調用次數(RPM)

qwen3-asr-flash-filetrans

100

qwen3-asr-flash-filetrans-2025-11-17

通義千問3-ASR-Flash

模型名稱

每分鐘調用次數(RPM)

qwen3-asr-flash

100

qwen3-asr-flash-2025-09-08

中國大陸(北京)

通義千問3-ASR-Flash-Filetrans

模型名稱

每分鐘調用次數(RPM)

qwen3-asr-flash-filetrans

100

qwen3-asr-flash-filetrans-2025-11-17

通義千問3-ASR-Flash

模型名稱

每分鐘調用次數(RPM)

qwen3-asr-flash

100

qwen3-asr-flash-2025-09-08

通義千問即時語音辨識

國際(新加坡)

模型名稱

每秒鐘調用次數(RPS)

qwen3-asr-flash-realtime

20

qwen3-asr-flash-realtime-2025-10-27

中國大陸(北京)

模型名稱

每秒鐘調用次數(RPS)

qwen3-asr-flash-realtime

20

qwen3-asr-flash-realtime-2025-10-27

Paraformer語音辨識

說明

僅支援中國大陸(北京)地區。

模型名稱

提交作業介面RPS限制

paraformer-realtime-v2

20

paraformer-realtime-8k-v2

模型名稱

提交作業介面RPS限制

任務查詢介面RPS限制

paraformer-v2

20

20

paraformer-8k-v2

20

Fun-ASR 錄音檔案識別

國際(新加坡)

模型名稱

提交作業介面RPS限制

任務查詢介面RPS限制

fun-asr

10

20

fun-asr-2025-11-07

fun-asr-2025-08-25

模型名稱

提交作業介面RPM限制

任務查詢介面RPS限制

fun-asr-mtl

100

20

fun-asr-mtl-2025-08-25

中國大陸(北京)

模型名稱

提交作業介面RPS限制

任務查詢介面RPS限制

fun-asr

10

20

fun-asr-2025-11-07

fun-asr-2025-08-25

fun-asr-mtl

fun-asr-mtl-2025-08-25

Fun-ASR 即時語音辨識

國際(新加坡)

模型名稱

提交作業介面RPS限制

fun-asr-realtime

20

fun-asr-realtime-2025-11-07

中國大陸(北京)

模型名稱

提交作業介面RPS限制

fun-asr-realtime

20

fun-asr-realtime-2025-11-07

fun-asr-realtime-2025-09-15

文本向量

國際(新加坡)

模型名稱

限流條件(超出任一數值時觸發限流)

以下為每分鐘限流條件,服務可能按 RPS(RPM/60)與 TPS(TPM/60)限制

每分鐘調用次數(RPM)

每分鐘消耗Token數(TPM)/作業數

含輸入與輸出Token

text-embedding-v4

1,800

1,000,000

text-embedding-v3

6,000

24,000,000

中國大陸(北京)

模型名稱

限流條件(超出任一數值時觸發限流)

每秒鐘調用次數(RPS)

每分鐘消耗Token數(TPM)/作業數

含輸入與輸出Token

text-embedding-v4

30

1,200,000

多模態向量

說明

僅支援中國大陸(北京)地區。

模型名稱

限流條件

以下為每分鐘限流條件,服務可能按 RPS(RPM/60)與 TPS(TPM/60)限制

每分鐘調用次數(RPM)

每分鐘消耗Token數(TPM)

僅輸入Token

multimodal-embedding-v1

120

200,000

文本排序

說明

僅支援中國大陸(北京)地區。

模型名稱

限流條件(超出任一數值時觸發限流)

以下為每分鐘限流條件,服務可能按 RPS(RPM/60)與 TPS(TPM/60)限制

每分鐘調用次數(RPM)

每分鐘消耗Token數(TPM)

含輸入與輸出Token

gte-rerank-v2

5,040

4,980,000,000

行業

意圖理解

說明

僅支援中國大陸(北京)地區。

模型名稱

限流條件(超出任一數值時觸發限流)

以下為每分鐘限流條件,服務可能按 RPS(RPM/60)與 TPS(TPM/60)限制

每分鐘調用次數(RPM)

每分鐘消耗Token數(TPM)

含輸入與輸出Token

tongyi-intent-detect-v3

1,200

1,000,000

角色扮演

國際(新加坡)

模型名稱

限流條件(超出任一數值時觸發限流)

以下為每分鐘限流條件,服務可能按 RPS(RPM/60)與 TPS(TPM/60)限制

每分鐘調用次數(RPM)

每分鐘消耗Token數(TPM)

含輸入與輸出Token

qwen-plus-character-ja

60

100,000

中國大陸(北京)

模型名稱

限流條件(超出任一數值時觸發限流)

以下為每分鐘限流條件,服務可能按 RPS(RPM/60)與 TPS(TPM/60)限制

每分鐘調用次數(RPM)

每分鐘消耗Token數(TPM)

含輸入與輸出Token

qwen-plus-character

120

20,000

下線模型

詳細資料,請參見模型下線機制說明

2025年8月20日下線

類別

模型名稱

限流條件(超出任一數值時觸發限流)

每分鐘調用次數(RPM)

每分鐘消耗Token數(TPM)

含輸入與輸出Token

文本產生-通義千問

qwen2-72b-instruct

0

0

qwen2-57b-a14b-instruct

qwen2-7b-instruct

qwen1.5-110b-chat

qwen1.5-72b-chat

qwen1.5-32b-chat

qwen1.5-14b-chat

qwen1.5-7b-chat