すべてのプロダクト
Search
ドキュメントセンター

Alibaba Cloud Model Studio:レート制限

最終更新日:Nov 13, 2025

公正な使用を確保するため、Alibaba Cloud Model Studio は基本的なレート制限を適用します。これらの制限はモデル固有であり、Alibaba Cloud アカウントにリンクされています。制限は、アカウント配下のすべての RAM ユーザー、ワークスペース、および API キーからのモデルへの総呼び出し数に基づいて計算されます。制限を超えると、API リクエストは失敗します。再度呼び出しを行う前に、制限がリセットされるのを待つ必要があります。

ルール

  • アカウントレベルの制限: レート制限は Alibaba Cloud アカウントレベルで適用されます。アカウント配下のすべての RAM ユーザー、ワークスペース、および API キーからの総呼び出し数に基づいて計算されます。

  • モデル固有の制限: 各モデルには独立したレート制限があります。詳細については、以下の表をご参照ください。

よくある質問

レート制限がトリガーされる理由

エラーメッセージを確認してください:

  • Requests rate limit exceeded または You exceeded your current requests list: このエラーは、呼び出し周波数の制限がトリガーされたことを示します。

  • Allocated quota exceeded または You exceeded your current quota: このエラーは、トークン消費量の制限がトリガーされたことを示します。

  • Request rate increased too quickly: このエラーは、1 分あたりのリクエスト数 (RPM) または 1 分あたりのトークン数 (TPM) の制限に達していなくても、呼び出し周波数の急激な増加によってシステムの安定性保護がトリガーされたことを示します。

  • その他のエラーについては、「エラーメッセージ」を参照して原因を特定してください。

: RPM および TPM に加えて、レート制限は秒単位でも適用される場合があります。これらの制限は、1 秒あたりのリクエスト数 (RPS、RPM/60 として計算) および 1 秒あたりのトークン数 (TPS、TPM/60 として計算) です。短期間にリクエストが集中すると、1 分あたりの呼び出し回数が制限を下回っていても、レート制限がトリガーされる可能性があります。

モデルの呼び出し使用状況の確認方法

モデルを呼び出してから 1 時間後に、モデル観察 (シンガポール または 北京) ページに移動します。時間範囲やワークスペースなどのクエリ条件を設定します。次に、[モデル] エリアで、対象のモデルを見つけ、[操作] 列の [モニター] をクリックして、モデルの呼び出し統計を表示します。詳細については、「モデル観察」ドキュメントをご参照ください。

データは 1 時間ごとに更新されます。ピーク時には、1 時間レベルの遅延が発生する場合があります。

image

レート制限がトリガーされた後、回復するまでどのくらいかかりますか?

通常、制限は 1 分以内にリセットされます。その他のエラーが発生した場合は、「エラーメッセージ」で解決策をご参照ください。

レート制限を回避する方法

  1. より高いレート制限を持つモデルを選択する: 安定版または最新版は、古いスナップショット版よりも高いレート制限を持ちます。

  2. 呼び出し戦略を最適化する

    • 呼び出し周波数を調整する: "Requests rate limit exceeded" または "You exceeded your current requests list" エラーを受け取った場合は、呼び出し周波数を減らしてください。

    • トークン消費量を削減する: "Allocated quota exceeded" または "You exceeded your current quota" エラーを受け取った場合は、入力または出力の長さを短くしてください。

    • リクエストレートを平滑化する: 呼び出し周波数の急激な増加によってシステムの安定性保護がトリガーされると、"Request rate increased too quickly" エラーを受け取ることがあります。この場合、クライアント側の呼び出しロジックを最適化します。均一なスケジューリング、エクスポネンシャルバックオフ、またはリクエストキューバッファーなどのリクエスト平滑化戦略を採用できます。この戦略は、リクエストをタイムウィンドウ全体に均等に分散させ、瞬間的なピークを回避します。

  3. バックアップモデルを追加する

    レート制限エラーが発生した場合は、バックアップモデルに切り替えて生成を続行します。これにより、同時実行性が向上し、失敗率が低下します。qwen-plus-2025-07-28 でレート制限がトリガーされた後、qwen-plus-2025-07-14 でリクエストをリトライする例を次のコードに示します。

    サンプルコード

    import os
    import asyncio
    from openai import AsyncOpenAI, APIStatusError
    
    # 設定
    API_KEY = os.getenv("DASHSCOPE_API_KEY")
    # プライマリモデル
    MODEL = "qwen-plus-2025-07-28"
    # バックアップモデル
    BACKUP_MODEL = "qwen-plus-2025-07-14"
    # テスト用の質問
    QUESTION = "Who are you?"
    # 同時実行数の設定
    NUM_REQUESTS = 10
    
    client = AsyncOpenAI(
        api_key=API_KEY,
        base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1"
    )
    
    async def send_request(model):
        """単一のリクエストを送信"""
        try:
            await client.chat.completions.create(
                model=model,
                messages=[{"role": "user", "content": QUESTION}]
            )
            return True
        except APIStatusError as e:
            if e.status_code == 429:
                print(f"[Rate limit triggered] Model {model}")
                return False
            raise
        except Exception as e:
            print(f"[Request failed] Model {model}, Error: {e}")
            return False
    
    async def task(i):
        # プライマリモデルを試行
        if await send_request(MODEL):
            return True
        # レート制限された場合は、バックアップモデルを試行
        return await send_request(BACKUP_MODEL)
    
    async def main():
        results = await asyncio.gather(*(task(i) for i in range(NUM_REQUESTS)))
        print(f"Successful requests: {sum(results)}, Failed requests: {len(results) - sum(results)}")
    
    if __name__ == "__main__":
        asyncio.run(main())
  4. タスクを分割する: 長い会話や大きなドキュメントを処理すると、多くのトークンを急速に消費する可能性があります。大きなバッチタスクをより小さなバッチに分割し、異なる時間に送信します。

  5. バッチ推論を使用する: リアルタイムの結果が必要ない場合は、バッチ推論 (Batch API) を使用します。リアルタイムのレート制限は適用されませんが、キューイングと処理時間を考慮する必要があります。

テキスト生成 - Qwen

Qwen 言語モデル

国際 (シンガポール)

モデル

レート制限 (いずれかの値を超えるとトリガーされます)

以下は 1 分あたりの制限です。サービスは RPS (RPM/60) および TPS (TPM/60) に基づく制限も適用する場合があります。

RPM

TPM

入力トークンと出力トークンを含みます

qwen3-max

600

1,000,000

qwen3-max-2025-09-23

60

100,000

qwen3-max-preview

600

1,000,000

qwen-max

600

1,000,000

qwen-max-latest

60

100,000

qwen-max-2025-01-25

(qwen-max-0125)

qwen-plus

600

1,000,000

qwen-plus-latest

60

100,000

qwen-plus-2025-09-11

120

1,000,000

qwen-plus-2025-07-28

60

100,000

qwen-plus-2025-07-14

(qwen-plus-0714)

qwen-plus-2025-04-28

(qwen-plus-0428)

qwen-plus-2025-01-25

(qwen-plus-0125)

qwen-flash

600

5,000,000

qwen-flash-2025-07-28

600

5,000,000

qwq-plus

60

100,000

qwen-turbo

600

5,000,000

qwen-turbo-latest

60

qwen-turbo-2025-04-28

(qwen-turbo-0428)

qwen-turbo-2024-11-01

(qwen-turbo-1101)

中国本土 (北京)

モデル

レート制限 (いずれかの値を超えるとトリガーされます)

以下は 1 分あたりの制限です。サービスは RPS (RPM/60) および TPS (TPM/60) に基づく制限も適用する場合があります。

RPM

TPM

入力トークンと出力トークンを含みます

qwen3-max

600

1,000,000

qwen3-max-2025-09-23

60

100,000

qwen3-max-preview

600

1,000,000

qwen-max

1,200

1,000,000

qwen-max-latest

qwen-max-2025-01-25

(qwen-max-0125)

60

100,000

qwen-max-2024-09-19

(qwen-max-0919)

qwen-plus

15,000

5,000,000

qwen-plus-latest

1,200,000

qwen-plus-2025-09-11

60

1,000,000

qwen-plus-2025-07-28

(qwen-plus-0728)

qwen-plus-2025-07-14

(qwen-plus-0714)

100,000

qwen-plus-2025-04-28

(qwen-plus-0428)

1,000,000

qwen-plus-2025-01-25

(qwen-plus-0125)

150,000

qwen-plus-2025-01-12

(qwen-plus-0112)

qwen-plus-2024-12-20

(qwen-plus-1220)

qwen-plus-2024-11-27

(qwen-plus-1127)

qwen-plus-2024-11-25

(qwen-plus-1125)

qwen-plus-2024-09-19

(qwen-plus-0919)

qwen-plus-2024-08-06

(qwen-plus-0806)

qwen-flash

15,000

10,000,000

qwen-flash-2025-07-28

60

1,000,000

qwq-plus

600

1,000,000

qwq-plus-latest

qwq-plus-2025-03-05

60

100,000

qwen-turbo

1,200

5,000,000

qwen-turbo-latest

qwen-turbo-2025-04-28

(qwen-turbo-0428)

60

1,000,000

qwen-turbo-2025-02-11

(qwen-turbo-0211)

5,000,000

qwen-turbo-2024-11-01

(qwen-turbo-1101)

qwen-turbo-2024-09-19

(qwen-turbo-0919)

150,000

qwen-long-latest

1,200

60,000

qwen-long-2025-01-25

(qwen-long-0125)

3

7,500

Qwen-Omni (オムニモーダル)

国際 (シンガポール)

モデル

レート制限 (いずれかの値を超えるとトリガーされます)

以下は 1 分あたりの制限です。サービスは RPS (RPM/60) および TPS (TPM/60) に基づく制限も適用する場合があります。

RPM

TPM

入力トークンと出力トークンを含みます

qwen3-omni-flash

60

100,000

qwen3-omni-flash-2025-09-15

qwen-omni-turbo

qwen-omni-turbo-latest

qwen-omni-turbo-2025-03-26

中国本土 (北京)

モデル

レート制限 (いずれかの値を超えるとトリガーされます)

以下は 1 分あたりの制限です。サービスは RPS (RPM/60) および TPS (TPM/60) に基づく制限も適用する場合があります。

RPM

TPM

入力トークンと出力トークンを含みます

qwen3-omni-flash

60

100,000

qwen3-omni-flash-2025-09-15

qwen-omni-turbo

qwen-omni-turbo-latest

qwen-omni-turbo-2025-03-26

(qwen-omni-turbo-0326)

qwen-omni-turbo-2025-01-19

(qwen-omni-turbo-0119)

Qwen-Omni-Realtime (リアルタイムマルチモーダル)

国際 (シンガポール)

モデル

レート制限 (いずれかの値を超えるとトリガーされます)

以下は 1 分あたりの制限です。サービスは RPS (RPM/60) および TPS (TPM/60) に基づく制限も適用する場合があります。

RPM

TPM

入力トークンと出力トークンを含みます

qwen3-omni-flash-realtime

60

100,000

qwen3-omni-flash-realtime-2025-09-15

qwen-omni-turbo-realtime

qwen-omni-turbo-realtime-latest

qwen-omni-turbo-realtime-2025-05-08

中国本土 (北京)

モデル

レート制限 (いずれかの値を超えるとトリガーされます)

以下は 1 分あたりの制限です。サービスは RPS (RPM/60) および TPS (TPM/60) に基づく制限も適用する場合があります。

RPM

TPM

入力トークンと出力トークンを含みます

qwen3-omni-flash-realtime

60

100,000

qwen3-omni-flash-realtime-2025-09-15

qwen-omni-turbo-realtime

qwen-omni-turbo-realtime-latest

qwen-omni-turbo-realtime-2025-05-08

Qwen-VL (視覚理解/画像からテキストへ)

国際 (シンガポール)

モデル

レート制限 (いずれかの値を超えるとトリガーされます)

以下は 1 分あたりの制限です。サービスは RPS (RPM/60) および TPS (TPM/60) に基づく制限も適用する場合があります。

RPM

TPM

入力トークンと出力トークンを含みます

qvq-max

60

100,000

qvq-max-latest

qvq-max-2025-03-25

(qvq-max-0325)

qwen-vl-max

1,200

1,000,000

qwen-vl-max-latest

qwen-vl-max-2025-08-13

(qwen-vl-max-0813)

60

100,000

qwen-vl-max-2025-04-08

(qwen-vl-max-0408)

1,200

1,000,000

qwen3-vl-plus

qwen-vl-plus

qwen-vl-plus-latest

qwen3-vl-plus-2025-09-23

60

100,000

qwen-vl-plus-2025-08-15

(qwen-vl-plus-0815)

120

1,000,000

qwen-vl-plus-2025-05-07

(qwen-vl-plus-0507)

qwen-vl-plus-2025-01-25

(qwen-vl-plus-0125)

1,200

qwen3-vl-flash

1,200

1,000,000

qwen3-vl-flash-2025-10-15

120

1,000,000

中国本土 (北京)

モデル

レート制限 (いずれかの値を超えるとトリガーされます)

以下は 1 分あたりの制限です。サービスは RPS (RPM/60) および TPS (TPM/60) に基づく制限も適用する場合があります。

RPM

TPM

入力トークンと出力トークンを含みます

qvq-max

60

100,000

qvq-max-latest

qvq-max-2025-05-15

(qvq-max-0515)

qvq-max-2025-03-25

(qvq-max-0325)

qvq-plus

qvq-plus-latest

qvq-plus-2025-05-15

(qvq-plus-0515)

qwen-vl-max

1,200

1,000,000

qwen-vl-max-latest

qwen-vl-max-2025-08-13

(qwen-vl-max-0813)

60

100,000

qwen-vl-max-2025-04-08

(qwen-vl-max-0408)

qwen-vl-max-2025-04-02

(qwen-vl-max-0402)

qwen-vl-max-2025-01-25

(qwen-vl-max-0125)

qwen-vl-max-2024-12-30

(qwen-vl-max-1230)

qwen-vl-max-2024-11-19

(qwen-vl-max-1119)

qwen-vl-max-2024-10-30

(qwen-vl-max-1030)

qwen-vl-max-2024-08-09

(qwen-vl-max-0809)

15

25,000

qwen3-vl-plus

1,200

1,000,000

qwen-vl-plus

qwen-vl-plus-latest

qwen3-vl-plus-2025-09-23

60

100,000

qwen-vl-plus-2025-08-15

(qwen-vl-plus-0815)

qwen-vl-plus-2025-07-10

(qwen-vl-plus-0710)

qwen-vl-plus-2025-05-07

(qwen-vl-plus-0507)

qwen-vl-plus-2025-01-25

(qwen-vl-plus-0125)

qwen-vl-plus-2025-01-02

(qwen-vl-plus-0102)

qwen-vl-plus-2024-08-09

(qwen-vl-plus-0809)

qwen3-vl-flash

1,200

1,000,000

qwen3-vl-flash-2025-10-15

60

100,000

Qwen-OCR (テキスト抽出)

国際 (シンガポール)

モデル

レート制限 (いずれかの値を超えるとトリガーされます)

以下は 1 分あたりの制限です。サービスは RPS (RPM/60) および TPS (TPM/60) に基づく制限も適用する場合があります。

RPM

TPM

入力トークンと出力トークンを含みます

qwen-vl-ocr

600

6,000,000

中国本土 (北京)

モデル

レート制限 (いずれかの値を超えるとトリガーされます)

以下は 1 分あたりの制限です。サービスは RPS (RPM/60) および TPS (TPM/60) に基づく制限も適用する場合があります。

RPM

TPM

入力トークンと出力トークンを含みます

qwen-vl-ocr

600

6,000,000

qwen-vl-ocr-latest

qwen-vl-ocr-2025-04-13

qwen-vl-ocr-2024-10-28

Qwen-ASR (音声認識)

国際 (シンガポール)

モデル

RPM

qwen3-asr-flash

60

qwen3-asr-flash-2025-09-08

中国本土 (北京)

モデル

RPM

qwen3-asr-flash

60

qwen3-asr-flash-2025-09-08

Qwen-ASR-Realtime (音声認識)

国際 (シンガポール)

モデル

RPS

qwen3-asr-flash-realtime

20

qwen3-asr-flash-realtime-2025-10-27

中国本土 (北京)

モデル

RPS

qwen3-asr-flash-realtime

20

qwen3-asr-flash-realtime-2025-10-27

Qwen-Math

説明

中国 (北京) リージョンでのみサポートされています。

モデル

レート制限 (いずれかの値を超えるとトリガーされます)

以下は 1 分あたりの制限です。サービスは RPS (RPM/60) および TPS (TPM/60) に基づく制限も適用する場合があります。

RPM

TPM

入力トークンと出力トークンを含みます

qwen-math-plus

1,200

1,000,000

qwen-math-plus-latest

qwen-math-plus-2024-09-19

(qwen-math-plus-0919)

60

100,000

qwen-math-plus-2024-08-16

(qwen-math-plus-0816)

10

20,000

qwen-math-turbo

1200

1,000,000

qwen-math-turbo-latest

qwen-math-turbo-2024-09-19

(qwen-math-turbo-0919)

60

100,000

Qwen-Coder

国際 (シンガポール)

モデル

レート制限 (いずれかの値を超えるとトリガーされます)

以下は 1 分あたりの制限です。サービスは RPS (RPM/60) および TPS (TPM/60) に基づく制限も適用する場合があります。

RPM

TPM

入力トークンと出力トークンを含みます

qwen3-coder-plus

2,400

2,000,000

qwen3-coder-plus-2025-09-23

60

1,000,000

qwen3-coder-plus-2025-07-22

60

1,000,000

qwen3-coder-flash

600

5,000,000

qwen3-coder-flash-2025-07-28

600

5,000,000

中国本土 (北京)

モデル

レート制限 (いずれかの値を超えるとトリガーされます)

以下は 1 分あたりの制限です。サービスは RPS (RPM/60) および TPS (TPM/60) に基づく制限も適用する場合があります。

RPM

TPM

入力トークンと出力トークンを含みます

qwen3-coder-plus

2,400

2,000,000

qwen3-coder-plus-2025-09-23

60

1,000,000

qwen3-coder-plus-2025-07-22

qwen3-coder-flash

1,200

qwen3-coder-flash-2025-07-28

60

qwen-coder-plus

1,200

qwen-coder-plus-latest

qwen-coder-plus-2024-11-06

(qwen-coder-plus-1106)

60

100,000

qwen-coder-turbo

1,200

1,000,000

qwen-coder-turbo-latest

qwen-coder-turbo-2024-09-19

(qwen-coder-turbo-0919)

60

100,000

Qwen-MT

国際 (シンガポール)

モデル

レート制限 (いずれかの値を超えるとトリガーされます)

以下は 1 分あたりの制限です。サービスは RPS (RPM/60) および TPS (TPM/60) に基づく制限も適用する場合があります。

RPM

TPM

入力トークンと出力トークンを含みます

qwen-mt-plus

60

100,000

qwen-mt-flash

qwen-mt-turbo

中国本土 (北京)

モデル

レート制限 (いずれかの値を超えるとトリガーされます)

以下は 1 分あたりの制限です。サービスは RPS (RPM/60) および TPS (TPM/60) に基づく制限も適用する場合があります。

RPM

TPM

入力トークンと出力トークンを含みます

qwen-mt-plus

60

25,000

qwen-mt-flash

35,000

qwen-mt-turbo

35,000

Qwen データマイニングモデル

説明

中国 (北京) リージョンでのみサポートされています。

モデル

レート制限 (いずれかの値を超えるとトリガーされます)

以下は 1 分あたりの制限です。サービスは RPS (RPM/60) および TPS (TPM/60) に基づく制限も適用する場合があります。

RPM

TPM

入力トークンと出力トークンを含みます

qwen-doc-turbo

600

3,000,000

Qwen ディープリサーチモデル

説明

中国 (北京) リージョンでのみサポートされています。

モデル

レート制限 (いずれかの値を超えるとトリガーされます)

以下は 1 分あたりの制限です。サービスは RPS (RPM/60) および TPS (TPM/60) に基づく制限も適用する場合があります。

RPM

TPM

入力トークンと出力トークンを含みます

qwen-deep-research

120

1,200,000

テキスト生成 - オープンソース Qwen

オープンソース Qwen 言語モデル

国際 (シンガポール)

モデル

レート制限 (いずれかの値を超えるとトリガーされます)

以下は 1 分あたりの制限です。サービスは RPS (RPM/60) および TPS (TPM/60) に基づく制限も適用する場合があります。

RPM

TPM

入力トークンと出力トークンを含みます

qwen3-next-80b-a3b-thinking

600

1,000,000

qwen3-next-80b-a3b-instruct

qwen3-235b-a22b-thinking-2507

qwen3-235b-a22b-instruct-2507

qwen3-30b-a3b-thinking-2507

qwen3-30b-a3b-instruct-2507

qwen3-235b-a22b

qwen3-32b

qwen3-30b-a3b

qwen3-14b

qwen3-8b

qwen3-4b

qwen3-1.7b

qwen3-0.6b

qwen2.5-14b-instruct-1m

60

1,000,000

qwen2.5-7b-instruct-1m

qwen2.5-72b-instruct

100,000

qwen2.5-32b-instruct

qwen2.5-14b-instruct

qwen2.5-7b-instruct

中国本土 (北京)

モデル

レート制限 (いずれかの値を超えるとトリガーされます)

以下は 1 分あたりの制限です。サービスは RPS (RPM/60) および TPS (TPM/60) に基づく制限も適用する場合があります。

RPM

TPM

入力トークンと出力トークンを含みます

qwen3-next-80b-a3b-thinking

600

1,000,000

qwen3-next-80b-a3b-instruct

qwen3-235b-a22b-thinking-2507

qwen3-235b-a22b-instruct-2507

qwen3-30b-a3b-thinking-2507

qwen3-30b-a3b-instruct-2507

qwen3-235b-a22b

qwen3-30b-a3b

qwen3-32b

qwen3-14b

qwen3-8b

qwen3-4b

qwen3-1.7b

qwen3-0.6b

qwq-32b

qwq-32b-preview

1,200

qwen2.5-72b-instruct

qwen2.5-32b-instruct

qwen2.5-14b-instruct

qwen2.5-14b-instruct-1m

qwen2.5-7b-instruct

qwen2.5-7b-instruct-1m

qwen2.5-3b-instruct

2,000,000

qwen2.5-1.5b-instruct

qwen2.5-0.5b-instruct

Qwen3-Omni

国際 (シンガポール)

モデル

レート制限 (いずれかの値を超えるとトリガーされます)

以下は 1 分あたりの制限です。サービスは RPS (RPM/60) および TPS (TPM/60) に基づく制限も適用する場合があります。

RPM

TPM

入力トークンと出力トークンを含みます

qwen2.5-omni-7b

60

100,000

中国本土 (北京)

モデル

レート制限 (いずれかの値を超えるとトリガーされます)

以下は 1 分あたりの制限です。サービスは RPS (RPM/60) および TPS (TPM/60) に基づく制限も適用する場合があります。

RPM

TPM

入力トークンと出力トークンを含みます

qwen2.5-omni-7b

60

100,000

Qwen3-Omni-Captioner

国際 (シンガポール)

モデル

レート制限 (いずれかの値を超えるとトリガーされます)

以下は 1 分あたりの制限です。サービスは RPS (RPM/60) および TPS (TPM/60) に基づく制限も適用する場合があります。

RPM

TPM

入力トークンと出力トークンを含みます

qwen3-omni-30b-a3b-captioner

60

100,000

中国本土 (北京)

モデル

レート制限 (いずれかの値を超えるとトリガーされます)

以下は 1 分あたりの制限です。サービスは RPS (RPM/60) および TPS (TPM/60) に基づく制限も適用する場合があります。

RPM

TPM

入力トークンと出力トークンを含みます

qwen3-omni-30b-a3b-captioner

60

100,000

Qwen-VL (視覚理解/画像からテキストへ)

国際 (シンガポール)

モデル

レート制限 (いずれかの値を超えるとトリガーされます)

以下は 1 分あたりの制限です。サービスは RPS (RPM/60) および TPS (TPM/60) に基づく制限も適用する場合があります。

RPM

TPM

入力トークンと出力トークンを含みます

qwen3-vl-32b-thinking

60

100,000

qwen3-vl-32b-instruct

qwen3-vl-30b-a3b-thinking

qwen3-vl-30b-a3b-instruct

qwen3-vl-8b-thinking

qwen3-vl-8b-instruct

qwen3-vl-235b-a22b-thinking

qwen3-vl-235b-a22b-instruct

qwen2.5-vl-72b-instruct

qwen2.5-vl-32b-instruct

qwen2.5-vl-7b-instruct

qwen2.5-vl-3b-instruct

中国本土 (北京)

モデル

レート制限 (いずれかの値を超えるとトリガーされます)

以下は 1 分あたりの制限です。サービスは RPS (RPM/60) および TPS (TPM/60) に基づく制限も適用する場合があります。

RPM

TPM

入力トークンと出力トークンを含みます

qwen3-vl-32b-thinking

600

1,000,000

qwen3-vl-32b-instruct

qwen3-vl-30b-a3b-thinking

qwen3-vl-30b-a3b-instruct

qwen3-vl-8b-thinking

qwen3-vl-8b-instruct

qwen3-vl-235b-a22b-thinking

60

100,000

qwen3-vl-235b-a22b-instruct

qwen2.5-vl-72b-instruct

qwen2.5-vl-32b-instruct

qwen2.5-vl-7b-instruct

1,200

1,000,000

qwen2.5-vl-3b-instruct

qwen2-vl-72b-instruct

60

100,000

qwen2-vl-7b-instruct

1,200

1,000,000

qwen2-vl-2b-instruct

qvq-72b-preview

60

100,000

Qwen-Math

説明

中国 (北京) リージョンでのみサポートされています。

モデル

レート制限 (いずれかの値を超えるとトリガーされます)

以下は 1 分あたりの制限です。サービスは RPS (RPM/60) および TPS (TPM/60) に基づく制限も適用する場合があります。

RPM

TPM

入力トークンと出力トークンを含みます

qwen2.5-math-72b-instruct

1,200

1,000,000

qwen2.5-math-7b-instruct

qwen2.5-math-1.5b-instruct

Qwen-Coder

国際 (シンガポール)

モデル

レート制限 (いずれかの値を超えるとトリガーされます)

以下は 1 分あたりの制限です。サービスは RPS (RPM/60) および TPS (TPM/60) に基づく制限も適用する場合があります。

RPM

TPM

入力トークンと出力トークンを含みます

qwen3-coder-480b-a35b-instruct

600

1,000,000

qwen3-coder-30b-a3b-instruct

600

1,000,000

中国本土 (北京)

モデル

レート制限 (いずれかの値を超えるとトリガーされます)

以下は 1 分あたりの制限です。サービスは RPS (RPM/60) および TPS (TPM/60) に基づく制限も適用する場合があります。

RPM

TPM

入力トークンと出力トークンを含みます

qwen3-coder-480b-a35b-instruct

600

1,000,000

qwen3-coder-30b-a3b-instruct

600

qwen2.5-coder-32b-instruct

1,200

qwen2.5-coder-14b-instruct

qwen2.5-coder-7b-instruct

qwen2.5-coder-3b-instruct

2,000,000

qwen2.5-coder-1.5b-instruct

qwen2.5-coder-0.5b-instruct

テキスト生成 - サードパーティモデル

DeepSeek

説明

中国 (北京) リージョンでのみサポートされています。

モデル

レート制限 (いずれかの値を超えるとトリガーされます)

以下は 1 分あたりの制限です。サービスは RPS (RPM/60) および TPS (TPM/60) に基づく制限も適用する場合があります。

RPM

TPM

入力トークンと出力トークンを含みます

deepseek-v3.2-exp

15,000

1,200,000

deepseek-v3.1

15,000

1,200,000

deepseek-r1-0528

60

100,000

deepseek-r1

15,000

1,200,000

deepseek-v3

deepseek-r1-distill-qwen-7b

deepseek-r1-distill-qwen-14b

deepseek-r1-distill-qwen-32b

deepseek-r1-distill-qwen-1.5b

60

100,000

deepseek-r1-distill-llama-8b

deepseek-r1-distill-llama-70b

Kimi

説明

中国 (北京) リージョンでのみサポートされています。

モデル

レート制限 (いずれかの値を超えるとトリガーされます)

以下は 1 分あたりの制限です。サービスは RPS (RPM/60) および TPS (TPM/60) に基づく制限も適用する場合があります。

RPM

TPM

入力トークンと出力トークンを含みます

kimi-k2-thinking

60

100,000

Moonshot-Kimi-K2-Instruct

60

100,000

画像生成

Qwen (Qwen-Image)

国際 (シンガポール)

サービス

モデル

レート制限 (いずれかの値を超えるとトリガーされます)

タスク送信 RPS 制限

同時実行タスク

テキストから画像へ

qwen-image-plus

2

2

qwen-image

2

2

画像編集

qwen-image-edit-plus

2

同期 API には制限なし

qwen-image-edit-plus-2025-10-30

2

同期 API には制限なし

qwen-image-edit

2

同期 API には制限なし

中国本土 (北京)

サービス

モデル

レート制限 (いずれかの値を超えるとトリガーされます)

タスク送信 RPS 制限

同時実行タスク

テキストから画像へ

qwen-image-plus

2

2

qwen-image

2

2

画像編集

qwen-image-edit-plus

2

同期 API には制限なし

qwen-image-edit-plus-2025-10-30

2

同期 API には制限なし

qwen-image-edit

2

同期 API には制限なし

画像翻訳

qwen-mt-image

1

2

Wan

国際 (シンガポール)

サービス

モデル

レート制限 (いずれかの値を超えるとトリガーされます)

タスク送信 RPS 制限

同時実行タスク

テキストから画像へ

wan2.5-t2i-preview

5

5

wan2.2-t2i-flash

2

2

wan2.2-t2i-plus

wan2.1-t2i-turbo

wan2.1-t2i-plus

画像編集

wan2.5-i2i-preview

5

5

中国本土 (北京)

サービス

モデル

レート制限 (いずれかの値を超えるとトリガーされます)

タスク送信 RPS 制限

同時実行タスク

テキストから画像へ

wan2.5-t2i-preview

5

5

wanx2.0-t2i-turbo

2

2

wanx2.1-t2i-turbo

wanx2.1-t2i-plus

wan2.2-t2i-flash

wan2.2-t2i-plus

一般画像編集

wan2.5-i2i-preview

5

5

wanx2.1-imageedit

2

2

OutfitAnyone

説明

中国 (北京) リージョンでのみサポートされています。

モデル

レート制限 (いずれかの値を超えるとトリガーされます)

タスク送信 RPS 制限

同時実行タスク

aitryon-plus

10

5

aitryon-parsing-v1

10

同期 API には制限なし

ビデオ生成

Wan シリーズ

国際 (シンガポール)

サービス

モデル

レート制限 (いずれかの値を超えるとトリガーされます)

タスク送信 RPS 制限

同時実行タスク

テキストから画像

wan2.5-t2v-preview

5

5

wan2.2-t2v-plus

2

2

wan2.1-t2v-turbo

wan2.1-t2v-plus

画像からビデオへ - 最初のフレーム

wan2.5-i2v-preview

5

5

wan2.2-i2v-flash

2

2

wan2.1-i2v-plus

wan2.1-i2v-turbo

wan2.2-i2v-plus

画像からビデオへ - 最初と最後のフレーム

wan2.1-kf2v-plus

一般ビデオ編集

wan2.1-vace-plus

画像のアニメーション化

wan2.2-animate-move

5

1

ビデオ顔交換

wan2.2-animate-mix

5

1

中国本土 (北京)

サービス

モデル

レート制限 (いずれかの値を超えるとトリガーされます)

タスク送信 RPS 制限

同時実行タスク

テキストからビデオへ

wan2.5-t2v-preview

5

5

wan2.2-t2v-plus

2

2

wanx2.1-t2v-turbo

wanx2.1-t2v-plus

画像からビデオへ - 最初のフレーム

wan2.5-i2v-preview

5

5

wan2.2-i2v-plus

2

2

wanx2.1-i2v-turbo

wanx2.1-i2v-plus

画像からビデオへ - 最初と最後のフレーム

wanx2.1-kf2v-plus

一般ビデオ編集

wanx2.1-vace-plus

デジタルヒューマン

wan2.2-s2v-detect

5

同期 API には制限なし

wan2.2-s2v

1

画像のアニメーション化

wan2.2-animate-move

5

1

ビデオ顔交換

wan2.2-animate-mix

5

1

AnimateAnyone

説明

中国 (北京) リージョンでのみサポートされています。

モデル

タスク送信 RPS 制限

同時実行タスク

animate-anyone-detect-gen2

5

同期 API には制限なし

animate-anyone-template-gen2

1

常に 1 つのタスクのみが実行されます。キュー内の他のタスクは保留状態になります。

animate-anyone-gen2

EMO

説明

中国 (北京) リージョンでのみサポートされています。

モデル

タスク送信 RPS 制限

同時実行タスク

emo-detect-v1

5

同期 API には制限なし

emo-v1

1

常に 1 つのタスクのみが実行されます。キュー内の他のタスクは保留状態になります。

LivePortrait

説明

中国 (北京) リージョンでのみサポートされています。

モデル

タスク送信 RPS 制限

同時実行タスク

liveportrait-detect

5

同期 API には制限なし

liveportrait

1

常に 1 つのタスクのみが実行されます。キュー内の他のタスクは保留状態になります。

VideoRetalk

説明

中国 (北京) リージョンでのみサポートされています。

モデル

タスク送信 RPS 制限

同時実行タスク

videoretalk

1

1

常に 1 つのタスクのみが実行されます。キュー内の他のタスクは保留状態になります。

Emoji

説明

中国 (北京) リージョンでのみサポートされています。

モデル

タスク送信 RPS 制限

同時実行タスク

emoji-detect-v1

1

同期 API には制限なし

emoji-v1

1

常に 1 つのタスクのみが実行されます。キュー内の他のタスクは保留状態になります。

ビデオスタイル変換

説明

中国 (北京) リージョンでのみサポートされています。

モデル

タスク送信 RPS 制限

同時実行タスク

video-style-transform

2

1

常に 1 つのタスクのみが実行されます。キュー内の他のタスクは保留状態になります。

音声合成 (テキスト読み上げ)

Qwen-TTS

国際 (シンガポール)

モデル

レート制限 (いずれかの値を超えるとトリガーされます)

以下は 1 分あたりの制限です。サービスは RPS (RPM/60) に基づく制限も適用する場合があります。

RPM

qwen3-tts-flash

10

qwen3-tts-flash-2025-09-18

中国本土 (北京)

モデル

レート制限 (いずれかの値を超えるとトリガーされます)

以下は 1 分あたりの制限です。サービスは RPS (RPM/60) および TPS (TPM/60) に基づく制限も適用する場合があります。

RPM

TPM

入力トークンと出力トークンを含みます

qwen3-tts-flash

10

TPM 制限なし

qwen3-tts-flash-2025-09-18

qwen-tts

100,000

qwen-tts-latest

qwen-tts-2025-05-22

qwen-tts-2025-04-10

Qwen-TTS-Realtime

国際 (シンガポール)

モデル

レート制限 (いずれかの値を超えるとトリガーされます)

以下は 1 分あたりの制限です。サービスは RPS (RPM/60) に基づく制限も適用する場合があります。

RPM

qwen3-tts-flash-realtime

10

qwen3-tts-flash-realtime-2025-09-18

中国本土 (北京)

モデル

レート制限 (いずれかの値を超えるとトリガーされます)

以下は 1 分あたりの制限です。サービスは RPS (RPM/60) および TPS (TPM/60) に基づく制限も適用する場合があります。

RPM

TPM

入力トークンと出力トークンを含みます

qwen3-tts-flash-realtime

10

TPM 制限なし

qwen3-tts-flash-realtime-2025-09-18

qwen-tts-realtime

100,000

qwen-tts-realtime-latest

qwen-tts-realtime-2025-07-15

CosyVoice

説明

中国 (北京) リージョンでのみサポートされています。

音声合成

モデル

タスク送信 RPS 制限

cosyvoice-v2

3

音声クローニング

モデル

タスク送信 RPS 制限

cosyvoice-v2

10

音声認識 (音声テキスト変換) と翻訳 (音声翻訳)

Qwen3-LiveTranslate-Flash-Realtime

国際 (シンガポール)

モデル

レート制限 (いずれかの値を超えるとトリガーされます)

以下は 1 分あたりの制限です。サービスは、RPS (RPM/60) および TPS (TPM/60) に基づいて制限を適用する場合もあります。

RPM

TPM

入力トークンと出力トークンを含みます

qwen3-livetranslate-flash-realtime

10

100,000

qwen3-livetranslate-flash-realtime-2025-09-22

中国本土 (北京)

モデル

レート制限 (いずれかの値を超えるとトリガーされます)

以下は 1 分あたりの制限です。サービスは、RPS (RPM/60) および TPS (TPM/60) に基づいて制限を適用する場合もあります。

RPM

TPM

入力トークンと出力トークンを含みます

qwen3-livetranslate-flash-realtime

10

100,000

qwen3-livetranslate-flash-realtime-2025-09-22

Paraformer

説明

中国 (北京) リージョンでのみサポートされています。

モデル

タスク送信 RPS 制限

paraformer-realtime-v2

20

paraformer-realtime-8k-v2

モデル

タスク送信 RPS 制限

タスククエリ RPS 制限

paraformer-v2

20

20

paraformer-8k-v2

20

Fun-ASR

国際 (シンガポール)

モデル

タスク送信 RPS 制限

タスククエリ RPS 制限

fun-asr

10

20

fun-asr-2025-08-25

中国本土 (北京)

モデル

タスク送信 RPS 制限

タスククエリ RPS 制限

fun-asr

10

20

fun-asr-2025-08-25

fun-asr-mtl

fun-asr-mtl-2025-08-25

Fun-ASR-Realtime

説明

中国 (北京) リージョンでのみサポートされています。

モデル

タスク送信 RPS 制限

fun-asr-realtime

20

fun-asr-realtime-2025-09-15

テキストの埋め込み

国際 (シンガポール)

モデル

レート制限 (いずれかの値を超えた場合に適用)

以下は 1 分あたりの制限です。サービスは、RPS (RPM/60) および TPS (TPM/60) に基づいて制限を適用する場合もあります。

RPM

TPM/タスク

入力トークンと出力トークンを含みます

text-embedding-v4

1,800

1,000,000

text-embedding-v3

6,000

24,000,000

中国本土 (北京)

モデル

レート制限 (いずれかの値を超えた場合に適用)

RPS

TPM/タスク

入力トークンと出力トークンを含みます

text-embedding-v4

30

1,200,000

マルチモーダル埋め込み

説明

中国 (北京) リージョンでのみサポートされています。

モデル

レート制限

以下は 1 分あたりの制限です。サービスは、RPS (RPM/60) および TPS (TPM/60) に基づいて制限を適用する場合もあります。

RPM

TPM

入力トークンのみ

multimodal-embedding-v1

120

200,000

テキストリランク

説明

中国 (北京) リージョンでのみサポートされています。

モデル

レート制限 (いずれかの値を超えるとトリガーされます)

以下は 1 分あたりの制限です。サービスは、RPS (RPM/60) および TPS (TPM/60) に基づいて制限を適用する場合もあります。

RPM

TPM

入力トークンと出力トークンを含みます

gte-rerank-v2

5,040

4,980,000,000

業界

意図認識

説明

中国 (北京) リージョンでのみサポートされています。

モデル

レート制限 (いずれかの値を超えるとトリガーされます)

以下は 1 分あたりの制限です。サービスは RPS (RPM/60) および TPS (TPM/60) に基づく制限を適用する場合もあります。

RPM

TPM

入力トークンと出力トークンを含みます

tongyi-intent-detect-v3

1,200

1,000,000

ロールプレイング

国際 (シンガポール)

モデル

レート制限 (いずれかの値を超えるとトリガーされます)

以下は 1 分あたりの制限です。サービスは RPS (RPM/60) および TPS (TPM/60) に基づく制限を適用する場合もあります。

RPM

TPM

入力トークンと出力トークンを含みます

qwen-plus-character-ja

60

100,000

中国本土 (北京)

モデル

レート制限 (いずれかの値を超えるとトリガーされます)

以下は 1 分あたりの制限です。サービスは RPS (RPM/60) および TPS (TPM/60) に基づく制限を適用する場合もあります。

RPM

TPM

入力トークンと出力トークンを含みます

qwen-plus-character

120

20,000

廃止されたモデル

詳細については、「モデルの非推奨」をご参照ください。

2025 年 8 月 20 日に廃止

カテゴリ

モデル

レート制限 (いずれかの値を超えるとトリガーされます)

RPM

TPM

入力トークンと出力トークンを含みます

テキスト生成 - Qwen

qwen2-72b-instruct

0

0

qwen2-57b-a14b-instruct

qwen2-7b-instruct

qwen1.5-110b-chat

qwen1.5-72b-chat

qwen1.5-32b-chat

qwen1.5-14b-chat

qwen1.5-7b-chat