すべてのプロダクト
Search
ドキュメントセンター

Alibaba Cloud Model Studio:レート制限

最終更新日:Feb 14, 2026

公平な利用を確保するため、Alibaba Cloud Model Studio では基本的なレート制限が適用されます。これらの制限はモデルごとに設定され、お客様の Alibaba Cloud アカウントに紐付けられます。制限値は、お客様のアカウント配下にあるすべての RAM ユーザー、ワークスペース、および API キーからそのモデルに対して発行された合計呼び出し数に基づいて算出されます。制限値を超えると、API リクエストは失敗します。再度リクエストを送信するには、制限がリセットされるまで待つ必要があります。

ルール

  • アカウントレベルの制限:レート制限は Alibaba Cloud アカウント単位で適用されます。制限値は、アカウント配下のすべての RAM ユーザー、ワークスペース、および API キーからの合計呼び出し数に基づいて算出されます。

  • モデル固有の制限:各モデルには独立したレート制限が設定されています。詳細については、以下の表をご参照ください。

よくある質問

なぜレート制限がトリガーされるのですか?

エラーメッセージを確認してください:

  • 「Requests rate limit exceeded」または「You exceeded your current requests list」:このエラーは、呼び出し頻度の上限に達したことを示しています。

  • 「Allocated quota exceeded」または「You exceeded your current quota」:このエラーは、トークン消費量の上限に達したことを示しています。

  • 「Request rate increased too quickly」:このエラーは、1 分あたりのリクエスト数(RPM)または 1 分あたりのトークン数(TPM)の上限には達していないにもかかわらず、呼び出し頻度が急激に増加し、システムの安定性保護機能が作動したことを示しています。

  • その他のエラーの場合、「エラーメッセージ」をご参照ください。

: RPM および TPM に加えて、レート制限は 1 秒あたりのレベルでも適用される場合があります。これらの制限は、RPM/60 で算出される 1 秒あたりのリクエスト数 (RPS)、および TPM/60 で算出される 1 秒あたりのリクエスト数 (RPS) です。短時間におけるリクエストのバーストにより、合計呼び出し数が 1 分あたりの制限を下回っていたとしても、レート制限がトリガーされることがあります。

モデルの呼び出し使用状況を確認する方法

モデルを呼び出してから1時間後、 モニタリング(シンガポール または 北京 ページに移動します。期間やワークスペースなどのクエリ条件を設定します。次に、[モデル] エリアで対象のモデルを見つけ、[モニタリング][操作] 列でクリックして、モデルの呼び出し統計を表示します。詳細については、「モニタリング」ドキュメントをご参照ください。

データは 1 時間ごとに更新されます。ピーク時において、最大で 1 時間程度の遅延が発生する場合があります。

image

レート制限がトリガーされた後の回復までの所要時間

制限は通常 1 分以内にリセットされます。他のエラーが発生した場合は、「エラーメッセージ」でソリューションをご参照ください。

レート制限を回避する方法

  1. レート制限がより高いモデルを選択する:安定版または最新版のモデルは、古いスナップショットバージョンよりもレート制限が高くなります。

  2. 呼び出し戦略を最適化する

    • 呼び出し頻度を調整する:「Requests rate limit exceeded」または「You exceeded your current requests list」のエラーが発生した場合は、呼び出し頻度を減らしてください。

    • トークン消費量を削減する:「Allocated quota exceeded」または「You exceeded your current quota」のエラーが発生した場合は、入力または出力の長さを短くしてください。

    • リクエスト頻度を平滑化する:呼び出し頻度の急激な増加によりシステムの安定性保護機能が作動し、「Request rate increased too quickly」のエラーが発生した場合、クライアント側の呼び出しロジックを最適化してください。均一なスケジューリング、指数バックオフ、またはリクエストキューによるバッファリングなどのリクエスト平滑化戦略を採用することで、リクエストをタイムウィンドウ全体に均等に分散させ、瞬間的なピークを回避できます。

  3. バックアップモデルを追加する

    レート制限エラーが発生した場合、バックアップモデルに切り替えて生成処理を継続することで、同時実行数を向上させ、失敗率を低減できます。以下のコードは、qwen-plus-2025-07-28 でレート制限が発生した際に、qwen-plus-2025-07-14 を使用してリクエストを再試行する例です。

    サンプルコード

    import os
    import asyncio
    from openai import AsyncOpenAI, APIStatusError
    
    # 設定
    API_KEY = os.getenv("DASHSCOPE_API_KEY")
    # 主要モデル
    MODEL = "qwen-plus-2025-07-28"
    # バックアップモデル
    BACKUP_MODEL = "qwen-plus-2025-07-14"
    # テスト質問
    QUESTION = "あなたは誰ですか?"
    # 同時実行数
    NUM_REQUESTS = 10
    
    client = AsyncOpenAI(
        api_key=API_KEY,
        base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1"
    )
    
    async def send_request(model):
        """単一リクエストを送信"""
        try:
            await client.chat.completions.create(
                model=model,
                messages=[{"role": "user", "content": QUESTION}]
            )
            return True
        except APIStatusError as e:
            if e.status_code == 429:
                print(f"[レート制限がトリガーされました] モデル {model}")
                return False
            raise
        except Exception as e:
            print(f"[リクエスト失敗] モデル {model}、エラー: {e}")
            return False
    
    async def task(i):
        # 主要モデルを試行
        if await send_request(MODEL):
            return True
        # レート制限が発生した場合は、バックアップモデルを試行
        return await send_request(BACKUP_MODEL)
    
    async def main():
        results = await asyncio.gather(*(task(i) for i in range(NUM_REQUESTS)))
        print(f"成功したリクエスト数: {sum(results)}, 失敗したリクエスト数: {len(results) - sum(results)}")
    
    if __name__ == "__main__":
        asyncio.run(main())
  4. タスクを分割する:長文の会話や大規模なドキュメントを処理すると、多くのトークンを短時間で消費してしまう可能性があります。大規模なバッチタスクは、小さなバッチに分割し、異なるタイミングで送信してください。

  5. バッチ推論の使用: リアルタイムの結果が不要な場合は、バッチ推論 (Batch API) を使用します。リアルタイムのレート制限の対象にはなりませんが、キューイングと処理時間を考慮する必要があります。

テキスト生成 - Qwen

Qwen 言語モデル

グローバル

グローバルデプロイメントモード」では、エンドポイントおよびデータストレージは 米国(バージニア州)リージョン に配置されます。推論コンピューティングリソースは世界中で動的にスケジュールされます。

モデル

レート制限(いずれかの値を超えた場合にトリガー)

以下は 1 分あたりの制限値です。サービスでは、RPS(RPM ÷ 60)および TPS(TPM ÷ 60)に基づく制限も適用される場合があります。

RPM

TPM

入力および出力トークンを含む

qwen3-max

600

1,000,000

qwen3-max-2025-09-23

60

100,000

qwen3-max-preview

600

1,000,000

qwen-plus

15,000

5,000,000

qwen-plus-2025-12-01

60

1,000,000

qwen-plus-2025-09-11

qwen-plus-2025-07-28

qwen-flash

15,000

10,000,000

qwen-flash-2025-07-28

60

1,000,000

国際版

国際デプロイメントモードでは、エンドポイントとデータストレージはシンガポールリージョンに配置されます。推論コンピューティングリソースは、中国本土を除く世界中で動的にスケジュールされます。

モデル

レート制限(いずれかの値を超えた場合にトリガー)

以下は 1 分あたりの制限値です。サービスでは、RPS(RPM ÷ 60)および TPS(TPM ÷ 60)に基づく制限も適用される場合があります。

RPM

TPM

入力および出力トークンを含む

qwen3-max

600

1,000,000

qwen3-max-2026-01-23

qwen3-max-2025-09-23

60

100,000

qwen3-max-preview

600

1,000,000

qwen-max

120

100,000

qwen-max-latest

600

1,000,000

qwen-max-2025-01-25

(qwen-max-0125)

60

100,000

qwen-plus

600

1,000,000

qwen-plus-latest

600

1,000,000

qwen-plus-2025-12-01

120

1,000,000

qwen-plus-2025-09-11

120

qwen-plus-2025-07-28

60

100,000

qwen-plus-2025-07-14

(qwen-plus-0714)

qwen-plus-2025-04-28

(qwen-plus-0428)

1,000,000

qwen-plus-2025-01-25

(qwen-plus-0125)

100,000

qwen-flash

600

5,000,000

qwen-flash-2025-07-28

600

5,000,000

qwq-plus

60

100,000

qwen-turbo

240

100,000

qwen-turbo-latest

600

5,000,000

qwen-turbo-2025-04-28

(qwen-turbo-0428)

60

1,000,000

qwen-turbo-2024-11-01

(qwen-turbo-1101)

5,000,000

米国

米国デプロイメントモード」では、エンドポイントおよびデータストレージは米国(バージニア)リージョンに配置されます。推論用コンピューティングリソースは米国に限定されます。

モデル

レート制限(いずれかの値を超えた場合にトリガー)

以下は 1 分あたりの制限値です。サービスでは、RPS(RPM ÷ 60)および TPS(TPM ÷ 60)に基づく制限も適用される場合があります。

RPM

TPM

入力および出力トークンを含む

qwen-plus-us

600

1,000,000

qwen-plus-2025-12-01-us

60

qwen-flash-us

600

5,000,000

qwen-flash-2025-07-28-us

中国本土

中国本土デプロイメントモード」では、エンドポイントおよびデータストレージは北京リージョンに配置されます。推論コンピューティングリソースは中国本土に限定されます。

モデル

レート制限(いずれかの値を超えた場合にトリガー)

以下は 1 分あたりの制限値です。サービスでは、RPS(RPM ÷ 60)および TPS(TPM ÷ 60)に基づく制限も適用される場合があります。

RPM

TPM

入力および出力トークンを含む

qwen3-max

30,000

5,000,000

qwen3-max-2026-01-23

600

1,000,000

qwen3-max-2025-09-23

60

100,000

qwen3-max-preview

600

1,000,000

qwen-max

1,200

1,000,000

qwen-max-latest

qwen-max-2025-01-25

(qwen-max-0125)

60

100,000

qwen-max-2024-09-19

(qwen-max-0919)

qwen-plus

30,000

5,000,000

qwen-plus-latest

15,000

1,200,000

qwen-plus-2025-12-01

120

1,000,000

qwen-plus-2025-09-11

60

qwen-plus-2025-07-28

(qwen-plus-0728)

qwen-plus-2025-07-14

(qwen-plus-0714)

100,000

qwen-plus-2025-04-28

(qwen-plus-0428)

1,000,000

qwen-plus-2025-01-25

(qwen-plus-0125)

150,000

qwen-plus-2025-01-12

(qwen-plus-0112)

qwen-plus-2024-12-20

(qwen-plus-1220)

qwen-flash

30,000

10,000,000

qwen-flash-2025-07-28

60

1,000,000

qwq-plus

600

1,000,000

qwq-plus-latest

qwq-plus-2025-03-05

60

100,000

qwen-turbo

1,200

5,000,000

qwen-turbo-latest

qwen-turbo-2025-04-28

(qwen-turbo-0428)

60

1,000,000

qwen-turbo-2025-02-11

(qwen-turbo-0211)

5,000,000

qwen-turbo-2024-11-01

(qwen-turbo-1101)

qwen-long-latest

1,200

60,000

qwen-long-2025-01-25

(qwen-long-0125)

3

7,500

Qwen-VL(視覚理解/画像からテキストへ)

グローバル

グローバル Deployment モードでは、エンドポイントとデータストレージは米国 (バージニア) リージョンに配置されています。推論コンピューティングリソースは、世界中で動的にスケジュールされます。

モデル

レート制限(いずれかの値を超えた場合にトリガー)

以下は 1 分あたりの制限値です。サービスでは、RPS(RPM ÷ 60)および TPS(TPM ÷ 60)に基づく制限も適用される場合があります。

RPM

TPM

入力および出力トークンを含む

qwen3-vl-plus

1,200

1,000,000

qwen3-vl-plus-2025-09-23

60

100,000

qwen3-vl-flash

1,200

1,000,000

qwen3-vl-flash-2025-10-15

60

100,000

国際

国際デプロイメントモードでは、エンドポイントとデータストレージはシンガポールリージョンに配置されます。推論コンピューティングリソースは、中国本土を除く世界中で動的にスケジュールされます。

モデル

レート制限(いずれかの値を超えた場合にトリガー)

以下は 1 分あたりの制限値です。サービスでは、RPS(RPM ÷ 60)および TPS(TPM ÷ 60)に基づく制限も適用される場合があります。

RPM

TPM

入力および出力トークンを含む

qwen3-vl-plus

1,200

1,000,000

qwen3-vl-plus-2025-12-19

60

100,000

qwen3-vl-plus-2025-09-23

120

1,000,000

qwen3-vl-flash

1,200

1,000,000

qwen3-vl-flash-2026-01-22

60

100,000

qwen3-vl-flash-2025-10-15

120

1,000,000

qwen-vl-max

1,200

1,000,000

qwen-vl-max-latest

qwen-vl-max-2025-08-13

(qwen-vl-max-0813)

60

100,000

qwen-vl-max-2025-04-08

(qwen-vl-max-0408)

1,200

1,000,000

qwen-vl-plus

qwen-vl-plus-latest

qwen-vl-plus-2025-08-15

(qwen-vl-plus-0815)

120

1,000,000

qwen-vl-plus-2025-05-07

(qwen-vl-plus-0507)

qwen-vl-plus-2025-01-25

(qwen-vl-plus-0125)

1,200

qvq-max

60

100,000

qvq-max-latest

qvq-max-2025-03-25

(qvq-max-0325)

米国

US デプロイメントモードでは、エンドポイントとデータストレージは US (バージニア) リージョンに配置されています。推論コンピューティングリソースは米国に限定されます。

モデル

レート制限(いずれかの値を超えた場合にトリガー)

以下は 1 分あたりの制限値です。サービスでは、RPS(RPM ÷ 60)および TPS(TPM ÷ 60)に基づく制限も適用される場合があります。

RPM

TPM

入力および出力トークンを含む

qwen3-vl-flash-us

1,200

1,000,000

qwen3-vl-flash-2025-10-15-us

120

1,000,000

中国本土

中国本土デプロイメントモードでは、エンドポイントとデータストレージは北京リージョンに配置されています。推論コンピューティングリソースは中国本土に限定されます。

モデル

レート制限(いずれかの値を超えた場合にトリガー)

以下は 1 分あたりの制限値です。サービスでは、RPS(RPM ÷ 60)および TPS(TPM ÷ 60)に基づく制限も適用される場合があります。

RPM

TPM

入力および出力トークンを含む

qwen3-vl-plus

3,000

5,000,000

qwen3-vl-plus-2025-12-19

60

100,000

qwen3-vl-plus-2025-09-23

qwen3-vl-flash

3,000

5,000,000

qwen3-vl-flash-2026-01-22

60

100,000

qwen3-vl-flash-2025-10-15

qwen-vl-max

1,200

1,000,000

qwen-vl-max-latest

qwen-vl-max-2025-08-13

(qwen-vl-max-0813)

60

100,000

qwen-vl-max-2025-04-08

(qwen-vl-max-0408)

qwen-vl-max-2025-04-02

(qwen-vl-max-0402)

qwen-vl-max-2025-01-25

(qwen-vl-max-0125)

qwen-vl-max-2024-12-30

(qwen-vl-max-1230)

qwen-vl-max-2024-11-19

(qwen-vl-max-1119)

qwen-vl-plus

1,200

1,000,000

qwen-vl-plus-latest

qwen-vl-plus-2025-08-15

(qwen-vl-plus-0815)

60

100,000

qwen-vl-plus-2025-07-10

(qwen-vl-plus-0710)

qwen-vl-plus-2025-05-07

(qwen-vl-plus-0507)

qwen-vl-plus-2025-01-25

(qwen-vl-plus-0125)

qwen-vl-plus-2025-01-02

(qwen-vl-plus-0102)

qvq-max

qvq-max-latest

qvq-max-2025-05-15

(qvq-max-0515)

qvq-max-2025-03-25

(qvq-max-0325)

qvq-plus

qvq-plus-latest

qvq-plus-2025-05-15

(qvq-plus-0515)

Qwen-Omni(オムニモダリティ)

国際版

国際展開モード」では、エンドポイントとデータストレージはシンガポールリージョンに配置されます。推論コンピューティングリソースは、中国本土を除く世界規模で動的にスケジュールされます。

モデル

レート制限(いずれかの値を超えた場合にトリガー)

以下は 1 分あたりの制限値です。サービスでは、RPS(RPM ÷ 60)および TPS(TPM ÷ 60)に基づく制限も適用される場合があります。

RPM

TPM

入力および出力トークンを含む

qwen3-omni-flash

60

100,000

qwen3-omni-flash-2025-12-01

qwen3-omni-flash-2025-09-15

qwen-omni-turbo

qwen-omni-turbo-latest

qwen-omni-turbo-2025-03-26

中国本土

中国本土デプロイメントモード」では、エンドポイントおよびデータストレージは北京リージョンに配置されます。推論コンピューティングリソースは中国本土に限定されます。

モデル

レート制限(いずれかの値を超えた場合にトリガー)

以下は 1 分あたりの制限値です。サービスでは、RPS(RPM ÷ 60)および TPS(TPM ÷ 60)に基づく制限も適用される場合があります。

RPM

TPM

入力および出力トークンを含む

qwen3-omni-flash

60

100,000

qwen3-omni-flash-2025-12-01

qwen3-omni-flash-2025-09-15

qwen-omni-turbo

qwen-omni-turbo-latest

qwen-omni-turbo-2025-03-26

(qwen-omni-turbo-0326)

qwen-omni-turbo-2025-01-19

(qwen-omni-turbo-0119)

Qwen-Omni-Realtime(リアルタイムオムニモダリティ)

インターナショナル

US デプロイメントモードでは、エンドポイントとデータストレージはUS (バージニア) リージョンに配置されます。推論コンピューティングリソースは米国に限定されます。

モデル

レート制限(いずれかの値を超えた場合にトリガー)

以下は 1 分あたりの制限値です。サービスでは、RPS(RPM ÷ 60)および TPS(TPM ÷ 60)に基づく制限も適用される場合があります。

RPM

TPM

入力および出力トークンを含む

qwen3-omni-flash-realtime

60

100,000

qwen3-omni-flash-realtime-2025-12-01

qwen3-omni-flash-realtime-2025-09-15

qwen-omni-turbo-realtime

10,000

qwen-omni-turbo-realtime-latest

qwen-omni-turbo-realtime-2025-05-08

中国本土

中国本土デプロイメントモード」では、エンドポイントおよびデータストレージは北京リージョンに配置されます。推論コンピューティングリソースは中国本土に限定されます。

モデル

レート制限(いずれかの値を超えた場合にトリガー)

以下は 1 分あたりの制限値です。サービスでは、RPS(RPM ÷ 60)および TPS(TPM ÷ 60)に基づく制限も適用される場合があります。

RPM

TPM

入力および出力トークンを含む

qwen3-omni-flash-realtime

60

100,000

qwen3-omni-flash-realtime-2025-12-01

qwen3-omni-flash-realtime-2025-09-15

qwen-omni-turbo-realtime

qwen-omni-turbo-realtime-latest

qwen-omni-turbo-realtime-2025-05-08

Qwen-OCR(テキスト抽出)

グローバル

グローバルデプロイメントモード」では、エンドポイントおよびデータストレージは 米国(バージニア)リージョン に配置されます。推論コンピューティングリソースは世界中で動的にスケジュールされます。

モデル

レート制限(いずれかの値を超えた場合にトリガー)

以下は 1 分あたりの制限値です。サービスでは、RPS(RPM ÷ 60)および TPS(TPM ÷ 60)に基づく制限も適用される場合があります。

RPM

TPM

入力および出力トークンを含む

qwen-vl-ocr

600

6,000,000

qwen-vl-ocr-2025-11-20

1,200

国際版

国際展開モード」では、エンドポイントおよびデータストレージはシンガポールリージョンに配置されます。推論コンピューティングリソースは、中国本土を除く世界中で動的にスケジュールされます。

モデル

レート制限(いずれかの値を超えた場合にトリガー)

以下は 1 分あたりの制限値です。サービスでは、RPS(RPM ÷ 60)および TPS(TPM ÷ 60)に基づく制限も適用される場合があります。

RPM

TPM

入力および出力トークンを含む

qwen-vl-ocr

600

6,000,000

qwen-vl-ocr-2025-11-20

1,200

中国本土

中国本土デプロイメントモード」では、エンドポイントおよびデータストレージは北京リージョンに配置されます。推論コンピューティングリソースは中国本土に限定されます。

モデル

レート制限(いずれかの値を超えた場合にトリガー)

以下は 1 分あたりの制限値です。サービスでは、RPS(RPM ÷ 60)および TPS(TPM ÷ 60)に基づく制限も適用される場合があります。

RPM

TPM

入力および出力トークンを含む

qwen-vl-ocr

600

6,000,000

qwen-vl-ocr-latest

1,200

qwen-vl-ocr-2025-11-20

qwen-vl-ocr-2025-04-13

600

qwen-vl-ocr-2024-10-28

Qwen-Math

説明

中国本土デプロイメントモードにのみ対応しています。 このモードでは、エンドポイントとデータストレージは北京リージョンに配置されており、推論コンピューティングリソースは中国本土に限定されます。

モデル

レート制限(いずれかの値を超えた場合にトリガー)

以下は 1 分あたりの制限値です。サービスでは、RPS(RPM ÷ 60)および TPS(TPM ÷ 60)に基づく制限も適用される場合があります。

RPM

TPM

入力および出力トークンを含む

qwen-math-plus

1,200

1,000,000

qwen-math-plus-latest

qwen-math-plus-2024-09-19

(qwen-math-plus-0919)

60

100,000

qwen-math-plus-2024-08-16

(qwen-math-plus-0816)

10

20,000

qwen-math-turbo

1200

1,000,000

qwen-math-turbo-latest

qwen-math-turbo-2024-09-19

(qwen-math-turbo-0919)

60

100,000

Qwen-Coder

グローバル

グローバルデプロイメントモード」では、エンドポイントとデータストレージは米国 (バージニア) リージョンに配置されます。推論コンピューティングリソースは、世界中で動的にスケジュールされます。

モデル

レート制限(いずれかの値を超えた場合にトリガー)

以下は 1 分あたりの制限値です。サービスでは、RPS(RPM ÷ 60)および TPS(TPM ÷ 60)に基づく制限も適用される場合があります。

RPM

TPM

入力および出力トークンを含む

qwen3-coder-plus

2,400

2,000,000

qwen3-coder-plus-2025-09-23

60

1,000,000

qwen3-coder-plus-2025-07-22

qwen3-coder-flash

1,200

qwen3-coder-flash-2025-07-28

60

国際版

国際展開モード」では、エンドポイントおよびデータストレージは シンガポール リージョン に配置されます。推論コンピューティングリソースは、中国本土を除く世界中で動的にスケジュールされます。

モデル

レート制限(いずれかの値を超えた場合にトリガー)

以下は 1 分あたりの制限値です。サービスでは、RPS(RPM ÷ 60)および TPS(TPM ÷ 60)に基づく制限も適用される場合があります。

RPM

TPM

入力および出力トークンを含む

qwen3-coder-plus

2,400

2,000,000

qwen3-coder-plus-2025-09-23

600

1,000,000

qwen3-coder-plus-2025-07-22

60

1,000,000

qwen3-coder-flash

600

5,000,000

qwen3-coder-flash-2025-07-28

600

5,000,000

中国本土

中国本土デプロイメントモードでは、エンドポイントとデータストレージは北京リージョンに配置されています。推論コンピューティングリソースは中国本土に限定されます。

モデル

レート制限(いずれかの値を超えた場合にトリガー)

以下は 1 分あたりの制限値です。サービスでは、RPS(RPM ÷ 60)および TPS(TPM ÷ 60)に基づく制限も適用される場合があります。

RPM

TPM

入力および出力トークンを含む

qwen3-coder-plus

5,000

5,000,000

qwen3-coder-plus-2025-09-23

60

1,000,000

qwen3-coder-plus-2025-07-22

qwen3-coder-flash

5,000

5,000,000

qwen3-coder-flash-2025-07-28

60

1,000,000

qwen-coder-plus

1,200

qwen-coder-plus-latest

qwen-coder-plus-2024-11-06

(qwen-coder-plus-1106)

120

200,000

qwen-coder-turbo

1,200

1,000,000

qwen-coder-turbo-latest

qwen-coder-turbo-2024-09-19

(qwen-coder-turbo-0919)

60

100,000

Qwen-MT

グローバル

グローバルデプロイメントモード」では、エンドポイントおよびデータストレージは 米国(バージニア州)リージョン に配置されます。推論用コンピューティングリソースは、世界中で動的にスケジュールされます。

モデル

レート制限(いずれかの値を超えた場合にトリガー)

以下は 1 分あたりの制限値です。サービスでは、RPS(RPM ÷ 60)および TPS(TPM ÷ 60)に基づく制限も適用される場合があります。

RPM

TPM

入力および出力トークンを含む

qwen-mt-plus

60

25,000

qwen-mt-flash

35,000

qwen-mt-lite

100,000

国際

国際展開モード」では、エンドポイントおよびデータストレージは Singapore リージョン に配置されます。推論コンピューティングリソースは、中国本土を除く世界中で動的にスケジュールされます。

モデル

レート制限(いずれかの値を超えた場合にトリガー)

以下は 1 分あたりの制限値です。サービスでは、RPS(RPM ÷ 60)および TPS(TPM ÷ 60)に基づく制限も適用される場合があります。

RPM

TPM

入力および出力トークンを含む

qwen-mt-plus

60

100,000

qwen-mt-flash

qwen-mt-lite

qwen-mt-turbo

中国本土

中国本土デプロイメントモード」では、エンドポイントおよびデータストレージは北京リージョンに配置されています。推論コンピューティングリソースは中国本土に限定されます。

モデル

レート制限(いずれかの値を超えた場合にトリガー)

以下は 1 分あたりの制限値です。サービスでは、RPS(RPM ÷ 60)および TPS(TPM ÷ 60)に基づく制限も適用される場合があります。

RPM

TPM

入力および出力トークンを含む

qwen-mt-plus

60

25,000

qwen-mt-flash

35,000

qwen-mt-lite

100,000

qwen-mt-turbo

35,000

Qwen-Doc

説明

サポートされているのは、中国本土デプロイメントモードのみです。このモードでは、エンドポイントおよびデータストレージは北京リージョンに配置され、推論コンピューティングリソースは中国本土に限定されます。

モデル

レート制限(いずれかの値を超えた場合にトリガー)

以下は 1 分あたりの制限値です。サービスでは、RPS(RPM ÷ 60)および TPS(TPM ÷ 60)に基づく制限も適用される場合があります。

RPM

TPM

入力および出力トークンを含む

qwen-doc-turbo

600

3,000,000

Qwen-Deep-Research

説明

中国本土デプロイメントモードのみがサポートされています。このモードでは、エンドポイントとデータストレージは[北京リージョン]に配置され、推論コンピューティングリソースは中国本土に限定されます。

モデル

レート制限(いずれかの値を超えた場合にトリガー)

以下は 1 分あたりの制限値です。サービスでは、RPS(RPM ÷ 60)および TPS(TPM ÷ 60)に基づく制限も適用される場合があります。

RPM

TPM

入力および出力トークンを含む

qwen-deep-research

120

1,200,000

テキスト生成 - Qwen - オープンソース

オープンソース Qwen 言語モデル

グローバル

グローバルデプロイメントモード」では、エンドポイントおよびデータストレージは [米国(バージニア州)リージョン] に配置されます。推論コンピューティングリソースは世界中で動的にスケジュールされます。

モデル

レート制限(いずれかの値を超えた場合にトリガー)

以下は 1 分あたりの制限値です。サービスでは、RPS(RPM ÷ 60)および TPS(TPM ÷ 60)に基づく制限も適用される場合があります。

RPM

TPM

入力および出力トークンを含む

qwen3-next-80b-a3b-thinking

600

1,000,000

qwen3-next-80b-a3b-instruct

qwen3-235b-a22b-thinking-2507

qwen3-235b-a22b-instruct-2507

qwen3-30b-a3b-thinking-2507

qwen3-30b-a3b-instruct-2507

qwen3-235b-a22b

qwen3-30b-a3b

qwen3-32b

qwen3-14b

qwen3-8b

国際

国際デプロイメントモードでは、エンドポイントとデータストレージはシンガポールリージョンに配置されます。推論コンピューティングリソースは、中国本土を除き、世界中で動的にスケジュールされます。

モデル

レート制限(いずれかの値を超えた場合にトリガー)

以下は 1 分あたりの制限値です。サービスでは、RPS(RPM ÷ 60)および TPS(TPM ÷ 60)に基づく制限も適用される場合があります。

RPM

TPM

入力および出力トークンを含む

qwen3-next-80b-a3b-thinking

600

1,000,000

qwen3-next-80b-a3b-instruct

qwen3-235b-a22b-thinking-2507

qwen3-235b-a22b-instruct-2507

qwen3-30b-a3b-thinking-2507

5,000,000

qwen3-30b-a3b-instruct-2507

qwen3-235b-a22b

1,000,000

qwen3-32b

qwen3-30b-a3b

qwen3-14b

qwen3-8b

qwen3-4b

qwen3-1.7b

qwen3-0.6b

qwen2.5-14b-instruct-1m

1,200

5,000,000

qwen2.5-7b-instruct-1m

qwen2.5-72b-instruct

60

150,000

qwen2.5-32b-instruct

qwen2.5-14b-instruct

qwen2.5-7b-instruct

中国本土

中国本土デプロイメントモードでは、エンドポイントとデータストレージは北京リージョンに配置されています。推論コンピューティングリソースは中国本土に限定されます。

モデル

レート制限(いずれかの値を超えた場合にトリガー)

以下は 1 分あたりの制限値です。サービスでは、RPS(RPM ÷ 60)および TPS(TPM ÷ 60)に基づく制限も適用される場合があります。

RPM

TPM

入力および出力トークンを含む

qwen3-next-80b-a3b-thinking

600

1,000,000

qwen3-next-80b-a3b-instruct

qwen3-235b-a22b-thinking-2507

qwen3-235b-a22b-instruct-2507

qwen3-30b-a3b-thinking-2507

qwen3-30b-a3b-instruct-2507

qwen3-235b-a22b

qwen3-30b-a3b

qwen3-32b

2400

qwen3-14b

600

qwen3-8b

qwen3-4b

qwen3-1.7b

qwen3-0.6b

qwq-32b

qwq-32b-preview

1,200

qwen2.5-72b-instruct

qwen2.5-32b-instruct

qwen2.5-14b-instruct

qwen2.5-14b-instruct-1m

5,000,000

qwen2.5-7b-instruct

1,000,000

qwen2.5-7b-instruct-1m

5,000,000

qwen2.5-3b-instruct

2,000,000

qwen2.5-1.5b-instruct

qwen2.5-0.5b-instruct

Qwen-VL(視覚理解/画像からテキストへ)

国際版

国際デプロイメントモード」では、エンドポイントとデータストレージはシンガポールリージョンに配置されます。推論コンピューティングリソースは、中国本土を除く世界中で動的にスケジュールされます。

モデル

レート制限(いずれかの値を超えた場合にトリガー)

以下は 1 分あたりの制限値です。サービスでは、RPS(RPM ÷ 60)および TPS(TPM ÷ 60)に基づく制限も適用される場合があります。

RPM

TPM

入力および出力トークンを含む

qwen3-vl-32b-thinking

60

100,000

qwen3-vl-32b-instruct

qwen3-vl-30b-a3b-thinking

qwen3-vl-30b-a3b-instruct

qwen3-vl-8b-thinking

qwen3-vl-8b-instruct

qwen3-vl-235b-a22b-thinking

qwen3-vl-235b-a22b-instruct

qwen2.5-vl-72b-instruct

qwen2.5-vl-32b-instruct

qwen2.5-vl-7b-instruct

1,200

1,000,000

qwen2.5-vl-3b-instruct

中国本土

中国本土デプロイメントモード」では、エンドポイントおよびデータストレージは北京リージョンに配置されています。推論コンピューティングリソースは中国本土に限定されます。

モデル

レート制限(いずれかの値を超えた場合にトリガー)

以下は 1 分あたりの制限値です。サービスでは、RPS(RPM ÷ 60)および TPS(TPM ÷ 60)に基づく制限も適用される場合があります。

RPM

TPM

入力および出力トークンを含む

qwen3-vl-32b-thinking

600

1,000,000

qwen3-vl-32b-instruct

qwen3-vl-30b-a3b-thinking

qwen3-vl-30b-a3b-instruct

qwen3-vl-8b-thinking

qwen3-vl-8b-instruct

qwen3-vl-235b-a22b-thinking

60

100,000

qwen3-vl-235b-a22b-instruct

qwen2.5-vl-72b-instruct

qwen2.5-vl-32b-instruct

qwen2.5-vl-7b-instruct

1,200

1,000,000

qwen2.5-vl-3b-instruct

qwen2-vl-72b-instruct

qwen2-vl-7b-instruct

qwen2-vl-2b-instruct

qvq-72b-preview

60

100,000

Qwen3-Omni

国際

国際デプロイメントモードでは、エンドポイントとデータストレージはシンガポールリージョンに配置されます。推論コンピューティングリソースは、中国本土を除き、世界中で動的にスケジュールされます。

モデル

レート制限(いずれかの値を超えた場合にトリガー)

以下は 1 分あたりの制限値です。サービスでは、RPS(RPM ÷ 60)および TPS(TPM ÷ 60)に基づく制限も適用される場合があります。

RPM

TPM

入力および出力トークンを含む

qwen2.5-omni-7b

60

100,000

中国本土

中国本土デプロイメントモードでは、エンドポイントとデータストレージは北京リージョンに配置されています。 推論コンピューティングリソースは、中国本土に限定されます。

モデル

レート制限(いずれかの値を超えた場合にトリガー)

以下は 1 分あたりの制限値です。サービスでは、RPS(RPM ÷ 60)および TPS(TPM ÷ 60)に基づく制限も適用される場合があります。

RPM

TPM

入力および出力トークンを含む

qwen2.5-omni-7b

60

100,000

Qwen3-Omni-Captioner

国際版

国際展開モード」では、エンドポイントおよびデータストレージは Singapore region に配置されます。推論コンピューティングリソースは、中国本土を除く世界中で動的にスケジュールされます。

モデル

レート制限(いずれかの値を超えた場合にトリガー)

以下は 1 分あたりの制限値です。サービスでは、RPS(RPM ÷ 60)および TPS(TPM ÷ 60)に基づく制限も適用される場合があります。

RPM

TPM

入力および出力トークンを含む

qwen3-omni-30b-a3b-captioner

60

100,000

中国本土

中国本土デプロイメントモード」では、エンドポイントおよびデータストレージは北京リージョンに配置されます。推論コンピューティングリソースは中国本土に限定されます。

モデル

レート制限(いずれかの値を超えた場合にトリガー)

以下は 1 分あたりの制限値です。サービスでは、RPS(RPM ÷ 60)および TPS(TPM ÷ 60)に基づく制限も適用される場合があります。

RPM

TPM

入力および出力トークンを含む

qwen3-omni-30b-a3b-captioner

60

100,000

Qwen-Math

説明

中国本土デプロイメントモード のみがサポートされています。このモードでは、エンドポイントとデータストレージは 北京リージョン に配置され、推論コンピューティングリソースは中国本土に限定されます。

モデル

レート制限(いずれかの値を超えた場合にトリガー)

以下は 1 分あたりの制限値です。サービスでは、RPS(RPM ÷ 60)および TPS(TPM ÷ 60)に基づく制限も適用される場合があります。

RPM

TPM

入力および出力トークンを含む

qwen2.5-math-72b-instruct

1,200

1,000,000

qwen2.5-math-7b-instruct

qwen2.5-math-1.5b-instruct

Qwen-Coder

グローバル

グローバルデプロイメントモード」では、エンドポイントおよびデータストレージは 米国(バージニア州)リージョン に配置されます。推論コンピューティングリソースは世界中で動的にスケジュールされます。

モデル

レート制限(いずれかの値を超えた場合にトリガー)

以下は 1 分あたりの制限値です。サービスでは、RPS(RPM ÷ 60)および TPS(TPM ÷ 60)に基づく制限も適用される場合があります。

RPM

TPM

入力および出力トークンを含む

qwen3-coder-480b-a35b-instruct

600

1,000,000

qwen3-coder-30b-a3b-instruct

国際

国際展開モード」では、エンドポイントおよびデータストレージはシンガポール リージョンに配置されます。推論コンピューティングリソースは、中国本土を除く世界中で動的にスケジュールされます。

モデル

レート制限(いずれかの値を超えた場合にトリガー)

以下は 1 分あたりの制限値です。サービスでは、RPS(RPM ÷ 60)および TPS(TPM ÷ 60)に基づく制限も適用される場合があります。

RPM

TPM

入力および出力トークンを含む

qwen3-coder-480b-a35b-instruct

1,000,000

600

qwen3-coder-30b-a3b-instruct

中国本土

中国本土デプロイメントモード」では、エンドポイントおよびデータストレージは 北京リージョン に配置されます。推論コンピューティングリソースは中国本土に限定されます。

モデル

レート制限(いずれかの値を超えた場合にトリガー)

以下は 1 分あたりの制限値です。サービスでは、RPS(RPM ÷ 60)および TPS(TPM ÷ 60)に基づく制限も適用される場合があります。

RPM

TPM

入力および出力トークンを含む

qwen3-coder-480b-a35b-instruct

600

1,000,000

qwen3-coder-30b-a3b-instruct

qwen2.5-coder-32b-instruct

1,200

qwen2.5-coder-14b-instruct

qwen2.5-coder-7b-instruct

qwen2.5-coder-3b-instruct

2,000,000

qwen2.5-coder-1.5b-instruct

qwen2.5-coder-0.5b-instruct

テキスト生成 - サードパーティ

DeepSeek

説明

サポートされているのは、中国本土デプロイメントモードのみです。このモードでは、エンドポイントおよびデータストレージは北京リージョンに配置され、推論コンピューティングリソースは中国本土に限定されます。

モデル

レート制限(いずれかの値を超えた場合にトリガー)

以下は 1 分あたりの制限値です。サービスでは、RPS(RPM ÷ 60)および TPS(TPM ÷ 60)に基づく制限も適用される場合があります。

RPM

TPM

入力および出力トークンを含む

deepseek-v3.2

15,000

1,200,000

deepseek-v3.2-exp

15,000

1,200,000

deepseek-v3.1

15,000

1,200,000

deepseek-r1-0528

60

100,000

deepseek-r1

15,000

1,200,000

deepseek-v3

deepseek-r1-distill-qwen-7b

deepseek-r1-distill-qwen-14b

deepseek-r1-distill-qwen-32b

deepseek-r1-distill-qwen-1.5b

60

100,000

deepseek-r1-distill-llama-8b

deepseek-r1-distill-llama-70b

Kimi

説明

サポートされているのは、中国本土デプロイメントモードのみです。このモードでは、エンドポイントおよびデータストレージは北京リージョンに配置され、推論コンピューティングリソースは中国本土に限定されます。

モデル

レート制限(いずれかの値を超えた場合にトリガー)

以下は 1 分あたりの制限値です。サービスでは、RPS(RPM ÷ 60)および TPS(TPM ÷ 60)に基づく制限も適用される場合があります。

RPM

TPM

入力および出力トークンを含む

kimi-k2.5

60

100,000

kimi-k2-thinking

60

100,000

Moonshot-Kimi-K2-Instruct

60

100,000

GLM

説明

サポートされているのは、中国本土デプロイメントモードのみです。このモードでは、エンドポイントおよびデータストレージは北京リージョンに配置され、推論コンピューティングリソースは中国本土に限定されます。

モデル

レート制限(いずれかの値を超えた場合にトリガー)

以下は 1 分あたりの制限値です。サービスでは、RPS(RPM ÷ 60)および TPS(TPM ÷ 60)に基づく制限も適用される場合があります。

RPM

TPM

入力および出力トークンを含む

glm-4.7

1,000,000

60

glm-4.6

画像生成

Qwen-Image

国際

国際展開モード」では、エンドポイントおよびデータストレージはシンガポールリージョンに配置されます。推論コンピューティングリソースは、中国本土を除く世界中で動的にスケジュールされます。

サービス

モデル

レート制限(いずれかの値を超えた場合にトリガー)

タスク送信制限

同時実行タスク

テキストから画像へ

qwen-image-max

2/分

同期 API の制限なし

qwen-image-max-2025-12-30

2/分

同期 API の制限なし

qwen-image-plus

2/秒

同期 API の制限なし / 非同期 API: 2

qwen-image-plus-2026-01-09

2/秒

同期 API の制限なし

qwen-image

2/秒

同期 API の制限なし / 非同期 API: 2

画像編集

qwen-image-edit-max

2/分

同期 API の制限なし

qwen-image-edit-max-2026-01-16

2/分

同期 API の制限なし

qwen-image-edit-plus

2/秒

同期 API の制限なし

qwen-image-edit-plus-2025-12-15

2/秒

同期 API の制限なし

qwen-image-edit-plus-2025-10-30

2/秒

同期 API の制限なし

qwen-image-edit

2/秒

同期 API の制限なし

中国本土

中国本土デプロイメントモード」では、エンドポイントおよびデータストレージは、北京リージョンに配置されています。推論コンピューティングリソースは中国本土に限定されます。

サービス

モデル

レート制限(いずれかの値を超えた場合にトリガー)

タスク送信制限

同時実行タスク

テキストから画像へ

qwen-image-max

2/分

同期 API の制限なし

qwen-image-max-2025-12-30

2/分

同期 API の制限なし

qwen-image-plus

2/秒

同期 API の制限なし / 非同期 API: 2

qwen-image-plus-2026-01-09

2/秒

同期 API の制限なし

qwen-image

2/秒

同期 API の制限なし / 非同期 API: 2

画像編集

qwen-image-edit-max

2/分

同期 API の制限なし

qwen-image-edit-max-2026-01-16

2/分

同期 API の制限なし

qwen-image-edit-plus

2/秒

同期 API の制限なし

qwen-image-edit-plus-2025-12-15

2/秒

同期 API の制限なし

qwen-image-edit-plus-2025-10-30

2/秒

同期 API の制限なし

qwen-image-edit

2/秒

同期 API の制限なし

画像翻訳

qwen-mt-image

1/秒

2

テキストから画像へ - Z-Image

国際版

国際展開モード」では、エンドポイントおよびデータストレージはシンガポールリージョンに配置されます。推論コンピューティングリソースは、中国本土を除く世界中で動的にスケジュールされます。

モデル

レート制限(いずれかの値を超えた場合にトリガー)

タスク送信 RPS 制限

同時実行タスク

z-image-turbo

2

同期 API の制限なし

中国本土

中国本土デプロイメントモード」では、エンドポイントおよびデータストレージは北京リージョンに配置されています。推論コンピューティングリソースは中国本土に限定されます。

モデル

レート制限(いずれかの値を超えた場合にトリガー)

タスク送信 RPS 制限

同時実行タスク

z-image-turbo

2

同期 API の制限なし

Wan

グローバル

グローバルデプロイメントモードでは、エンドポイントとデータストレージは米国 (バージニア) リージョンに配置されています。推論コンピューティングリソースは、世界中で動的にスケジュールされます。

サービス

モデル

レート制限(いずれかの値を超えた場合にトリガー)

タスク送信 RPS 制限

同時実行タスク

テキストから画像へ

wan2.6-t2i

5

5

画像生成

wan2.6-image

5

5

国際版

国際展開モード」では、エンドポイントとデータストレージはシンガポール リージョンに配置されます。推論コンピューティングリソースは、中国本土を除く世界中で動的にスケジュールされます。

サービス

モデル

レート制限(いずれかの値を超えた場合にトリガー)

タスク送信 RPS 制限

同時実行タスク

テキストから画像へ

wan2.6-t2i

5

5

wan2.5-t2i-preview

wan2.2-t2i-flash

2

2

wan2.2-t2i-plus

wan2.1-t2i-turbo

wan2.1-t2i-plus

汎用画像編集

wan2.5-i2i-preview

5

5

画像生成

wan2.6-image

5

5

中国本土

中国本土デプロイメントモード」では、エンドポイントおよびデータストレージは北京リージョンに配置されています。推論コンピューティングリソースは中国本土に限定されます。

サービス

モデル

レート制限(いずれかの値を超えた場合にトリガー)

タスク送信 RPS 制限

同時実行タスク

テキストから画像へ

wan2.6-t2i

1

5

wan2.5-t2i-preview

5

wanx2.0-t2i-turbo

2

2

wanx2.1-t2i-turbo

wanx2.1-t2i-plus

wan2.2-t2i-flash

wan2.2-t2i-plus

汎用画像編集

wan2.5-i2i-preview

5

5

wanx2.1-imageedit

2

2

画像生成

wan2.6-image

5

5

AI試衣OutfitAnyone

説明

中国本土デプロイメントモードのみがサポートされています。このモードでは、エンドポイントとデータストレージは北京リージョンにあり、推論コンピューティングリソースは中国本土に限定されます。

モデル

レート制限(いずれかの値を超えた場合にトリガー)

タスク送信 RPS 制限

同時実行タスク

aitryon-plus

10

5

aitryon-parsing-v1

10

同期 API の制限なし

動画生成

Wan

グローバル

グローバルデプロイメントモードでは、エンドポイントとデータストレージは US (Virginia) リージョンに配置されています。推論コンピューティングリソースは世界中で動的にスケジュールされます。

サービス

モデル

レート制限(いずれかの値を超えた場合にトリガー)

タスク送信 RPS 制限

同時実行タスク

テキストから動画へ

wan2.6-t2v

5

5

画像から動画へ - 最初のフレーム

wan2.6-i2v

動画参照

wan2.6-r2v

国際版

国際デプロイメントモードでは、エンドポイントとデータストレージはシンガポールリージョンに配置されます。推論コンピューティングリソースは、中国本土を除き、世界中に動的にスケジュールされます。

サービス

モデル

レート制限(いずれかの値を超えた場合にトリガー)

タスク送信 RPS 制限

同時実行タスク

テキストから画像生成

wan2.6-t2v

5

5

wan2.5-t2v-preview

wan2.2-t2v-plus

2

2

wan2.1-t2v-turbo

wan2.1-t2v-plus

画像から動画へ - 最初のフレーム

wan2.6-i2v-flash

5

5

wan2.6-i2v

wan2.5-i2v-preview

wan2.2-i2v-flash

2

2

wan2.1-i2v-plus

wan2.1-i2v-turbo

wan2.2-i2v-plus

画像から動画へ - 最初と最後のフレーム

wan2.2-kf2v-flash

wan2.1-kf2v-plus

1

汎用動画編集

wan2.1-vace-plus

2

Referece-to-video

wan2.6-r2v-flash

5

5

wan2.6-r2v

5

5

アニメーション画像

wan2.2-animate-move

5

1

動画キャラクター交換

wan2.2-animate-mix

5

1

米国

US デプロイメントモードでは、エンドポイントとデータストレージはUS (バージニア) リージョンに配置されます。推論コンピューティングリソースは米国に限定されます。

サービス

モデル

レート制限 (いずれかの値が超過した場合にトリガー)

タスク送信 RPS 制限

同時実行タスク

テキストから動画へ

wan2.6-t2v-us

5

5

画像から動画へ - 最初のフレーム

wan2.6-i2v-us

中国本土

中国本土デプロイメントモードでは、エンドポイントとデータストレージは北京リージョンに配置されます。推論コンピューティングリソースは中国本土に限定されます。

サービス

モデル

レート制限(いずれかの値を超えた場合にトリガー)

タスク送信 RPS 制限

同時実行タスク

テキストから動画へ

wan2.6-t2v

5

5

wan2.5-t2v-preview

wan2.2-t2v-plus

2

2

wanx2.1-t2v-turbo

wanx2.1-t2v-plus

画像から動画へ - 最初のフレーム

wan2.6-i2v-flash

5

5

wan2.6-i2v

wan2.5-i2v-preview

wan2.2-i2v-plus

2

2

wanx2.1-i2v-turbo

wanx2.1-i2v-plus

画像から動画へ - 最初と最後のフレーム

wan2.2-kf2v-flash

wanx2.1-kf2v-plus

汎用動画編集

wanx2.1-vace-plus

参照画像から動画へ

wan2.6-r2v-flash

5

5

wan2.6-r2v

5

5

デジタルヒューマン

wan2.2-s2v-detect

5

同期 API の制限なし

wan2.2-s2v

1

アニメーション画像

wan2.2-animate-move

5

1

動画キャラクター交換

wan2.2-animate-mix

5

1

AnimateAnyone

説明

サポートされているのは、中国本土デプロイメントモードのみです。このモードでは、エンドポイントおよびデータストレージは北京 リージョンに配置され、推論コンピューティングリソースは中国本土に限定されます。

モデル

タスク送信 RPS 制限

同時実行タスク

animate-anyone-detect-gen2

5

同期 API の制限なし

animate-anyone-template-gen2

1

一度に実行されるタスクは 1 つのみです。その他のタスクは保留中となります。

animate-anyone-gen2

EMO

説明

サポートされているのは、中国本土デプロイメントモードのみです。このモードでは、エンドポイントとデータストレージは北京リージョンに配置され、推論コンピューティングリソースは中国本土に限定されます。

モデル

タスク送信 RPS 制限

同時実行タスク

emo-detect-v1

5

同期 API の制限なし

emo-v1

1

一度に実行されるタスクは 1 つのみです。その他のタスクは保留中となります。

LivePortrait

説明

サポートされているのは、中国本土デプロイメントモードのみです。このモードでは、エンドポイントとデータストレージは北京リージョンに配置され、推論コンピューティングリソースは中国本土に限定されます。

モデル

タスク送信 RPS 制限

同時実行タスク

liveportrait-detect

5

同期 API の制限なし

liveportrait

1

一度に実行されるタスクは 1 つのみです。その他のタスクは保留中となります。

VideoRetalk

説明

サポートされているのは、中国本土デプロイメントモードのみです。このモードでは、エンドポイントおよびデータストレージは北京リージョンに配置され、推論コンピューティングリソースは中国本土に限定されます。

モデル

タスク送信 RPS 制限

同時実行タスク

videoretalk

1

1

一度に実行されるタスクは 1 つのみです。その他のタスクは保留中となります。

Emoji

説明

サポートされているのは、中国本土デプロイメントモードのみです。このモードでは、エンドポイントおよびデータストレージは北京リージョンに配置され、推論コンピューティングリソースは中国本土に限定されます。

モデル

タスク送信 RPS 制限

同時実行タスク

emoji-detect-v1

1

同期 API の制限なし

emoji-v1

1

一度に実行されるタスクは 1 つのみです。その他のタスクは保留中となります。

動画スタイル変換

説明

サポートされているのは、中国本土デプロイメントモードのみです。このモードでは、エンドポイントとデータストレージは北京リージョンに配置され、推論コンピューティングリソースは中国本土に限定されます。

モデル

タスク送信 RPS 制限

同時実行タスク

video-style-transform

2

1

一度に実行されるタスクは 1 つのみです。その他のタスクは保留中となります。

音声合成(テキストから音声へ)

Qwen 音声合成

国際

国際展開モード」では、エンドポイントとデータストレージの両方がシンガポールリージョンに配置されます。モデル推論のコンピューティングリソースは、中国本土を除くグローバルに動的にスケジュールされます。

Qwen3-TTS-Instruct-Flash

モデル名

1 分あたりのリクエスト数(RPM)

qwen3-tts-instruct-flash

180

qwen3-tts-instruct-flash-2026-01-26

180

Qwen3-TTS-VD

モデル名

1 分あたりのリクエスト数(RPM)

qwen3-tts-vd-2026-01-26

180

Qwen3-TTS-VC

モデル名

1 分あたりのリクエスト数(RPM)

qwen3-tts-vc-2026-01-22

180

Qwen3-TTS-Flash

モデル名

1 分あたりのリクエスト数(RPM)

qwen3-tts-flash

180

qwen3-tts-flash-2025-11-27

180

qwen3-tts-flash-2025-09-18

10

中国本土

中国本土デプロイメントモードでは、エンドポイントとデータストレージは両方とも北京リージョンに配置されます。モデル推論のコンピューティングリソースは、中国本土に限定されます。

Qwen3-TTS-Instruct-Flash

モデル名

1 分あたりのリクエスト数(RPM)

qwen3-tts-instruct-flash

180

qwen3-tts-instruct-flash-2026-01-26

180

Qwen3-TTS-VD

モデル名

1 分あたりのリクエスト数(RPM)

qwen3-tts-vd-2026-01-26

180

Qwen3-TTS-VC

モデル名

1 分あたりのリクエスト数(RPM)

qwen3-tts-vc-2026-01-22

180

Qwen3-TTS-Flash

モデル名

1 分あたりのリクエスト数(RPM)

qwen3-tts-flash

180

qwen3-tts-flash-2025-11-27

180

qwen3-tts-flash-2025-09-18

10

Qwen-TTS

モデル名

スロットリング条件(いずれかの値を超えた場合にトリガー)

以下は 1 分あたりの制限値です。サービスでは、RPS = RPM ÷ 60 および TPS = TPM ÷ 60 となる 1 秒あたりの制限も適用される場合があります。

1 分あたりのリクエスト数(RPM)

1 分あたりのトークン数(TPM)

入力および出力トークンを含む

qwen-tts

10

100,000

qwen-tts-latest

qwen-tts-2025-05-22

qwen-tts-2025-04-10

Qwen リアルタイム音声合成

国際版

国際デプロイメントモード」では、エンドポイントとデータストレージの両方がシンガポール リージョンに配置されます。モデル推論のコンピューティングリソースは、グローバルに(中国本土を除く)動的にスケジュールされます。

Qwen3-TTS-Instruct-Flash-Realtime

モデル名

1 分あたりのリクエスト数(RPM)

qwen3-tts-instruct-flash-realtime

180

qwen3-tts-instruct-flash-realtime-2026-01-22

180

Qwen3-TTS-VD-Realtime

モデル名

1 分あたりのリクエスト数(RPM)

qwen3-tts-vd-realtime-2026-01-15

180

qwen3-tts-vd-realtime-2025-12-16

Qwen3-TTS-VC-Realtime

モデル名

1 分あたりのリクエスト数(RPM)

qwen3-tts-vc-realtime-2026-01-15

180

qwen3-tts-vc-realtime-2025-11-27

Qwen3-TTS-Flash-Realtime

モデル名

1 分あたりのリクエスト数(RPM)

qwen3-tts-flash-realtime

180

qwen3-tts-flash-realtime-2025-11-27

180

qwen3-tts-flash-realtime-2025-09-18

10

中国本土

中国本土デプロイメントモードでは、エンドポイントとデータストレージは両方とも北京リージョンに配置されます。モデル推論コンピューティングリソースは中国本土に限定されます。

Qwen3-TTS-Instruct-Flash-Realtime

モデル名

1 分あたりのリクエスト数(RPM)

qwen3-tts-instruct-flash-realtime

180

qwen3-tts-instruct-flash-realtime-2026-01-22

180

Qwen3-TTS-VD-Realtime

モデル名

1 分あたりのリクエスト数(RPM)

qwen3-tts-vd-realtime-2026-01-15

180

qwen3-tts-vd-realtime-2025-12-16

Qwen3-TTS-VC-Realtime

モデル名

1 分あたりのリクエスト数(RPM)

qwen3-tts-vc-realtime-2026-01-15

180

qwen3-tts-vc-realtime-2025-11-27

Qwen3-TTS-Flash-Realtime

モデル名

1 分あたりのリクエスト数(RPM)

qwen3-tts-flash-realtime

180

qwen3-tts-flash-realtime-2025-11-27

180

qwen3-tts-flash-realtime-2025-09-18

10

Qwen-TTS-Realtime

モデル名

スロットリング条件(いずれかの値を超えた場合にトリガー)

以下は 1 分あたりの制限値です。サービスでは、RPS = RPM ÷ 60 および TPS = TPM ÷ 60 となる 1 秒あたりの制限も適用される場合があります。

1 分あたりのリクエスト数(RPM)

1 分あたりのトークン数(TPM)

入力および出力トークンを含む

qwen-tts-realtime

10

100,000

qwen-tts-realtime-latest

qwen-tts-realtime-2025-07-15

Qwen 音声クローン

国際

国際デプロイメントモードでは、エンドポイントとデータストレージは両方ともシンガポールリージョンに配置され、モデル推論コンピューティングリソースはグローバルに (中国本土を除く) 動的にスケジュールされます。

モデル名

1 分あたりのリクエスト数(RPM)

qwen-voice-enrollment

180

中国本土

中国本土デプロイメントモードでは、エンドポイントとデータストレージは両方とも北京リージョンに配置されます。モデル推論コンピューティングリソースは中国本土に限定されます。

モデル名

1 分あたりのリクエスト数(RPM)

qwen-voice-enrollment

180

Qwen 音声デザイン

国際版

国際デプロイメントモードでは、エンドポイントとデータストレージは両方ともシンガポールリージョンに配置されます。モデル推論コンピューティングリソースは、(中国本土を除く) グローバルに動的にスケジュールされます。

モデル名

1 分あたりのリクエスト数(RPM)

qwen-voice-design

180

中国本土

中国本土デプロイメントモードでは、エンドポイントとデータストレージは両方とも北京 リージョンに配置されます。モデル推論コンピューティングリソースは中国本土に限定されます。

モデル名

1 分あたりのリクエスト数(RPM)

qwen-voice-design

180

CosyVoice 音声合成

国際版

国際展開モードでは、エンドポイントとデータストレージの両方がシンガポールリージョンに配置されます。モデル推論のコンピューティングリソースは、中国本土を除くグローバルに動的にスケジュールされます。

音声合成

モデル名

ジョブ送信 API の RPS 制限

cosyvoice-v3-plus

3

cosyvoice-v3-flash

音声クローン

モデル名

ジョブ送信 API の RPS 制限

cosyvoice-v3-plus

10

音声クローン機能は、すべてのモデルバージョンで合計 10 RPS の同時リクエスト制限があります。これは、次のことを意味します。

  • v2 のみを呼び出す場合、最大同時リクエスト制限は 10 RPS です。

  • v2 と v3 の両方を呼び出す場合、それらの合計リクエストは 10 RPS を超えることはできません。たとえば、v2 が 7 RPS を使用する場合、v3 は最大 3 RPS を使用できます。

cosyvoice-v3-flash

中国本土

中国本土デプロイモード」では、エンドポイントとデータストレージの両方が北京リージョンに配置されます。モデル推論のコンピューティングリソースは中国本土に限定されます。

音声合成

モデル名

ジョブ送信 API の RPS 制限

cosyvoice-v3-plus

3

cosyvoice-v3-flash

cosyvoice-v2

音声クローン

モデル名

ジョブ送信 API の RPS 制限

cosyvoice-v3-plus

10

音声クローン機能は、すべてのモデルバージョンで合計 10 RPS の同時リクエスト制限があります。これは、次のことを意味します。

  • v2 のみを呼び出す場合、最大同時リクエスト制限は 10 RPS です。

  • v2 と v3 の両方を呼び出す場合、それらの合計リクエストは 10 RPS を超えることはできません。たとえば、v2 が 7 RPS を使用する場合、v3 は最大 3 RPS を使用できます。

cosyvoice-v3-flash

cosyvoice-v2

音声認識(音声テキスト変換)および翻訳(音声翻訳)

Qwen3-LiveTranslate-Flash

国際展開

国際展開モード」では、エンドポイントおよびデータストレージが シンガポールリージョン に配置されます。モデル推論のコンピューティングリソースは、中国本土を除くグローバル範囲で動的にスケジュールされます。

モデル名

レート制限条件(いずれかの値を超えるとトリガー)

以下は 1 分あたりの制限値です。サービスでは、1 秒あたりの制限(RPS = RPM/60、TPS = TPM/60)も適用される場合があります。

1 分あたりのリクエスト数(RPM)

1 分あたりのトークン数(TPM)

入力トークンおよび出力トークンを含む

qwen3-livetranslate-flash

100

100,000

qwen3-livetranslate-flash-2025-12-01

中国本土

中国本土展開モード」では、エンドポイントおよびデータストレージが 中国 (北京) リージョン に配置されます。モデル推論のコンピューティングリソースは中国本土に限定されます。

モデル名

レート制限条件(いずれかの値を超えるとトリガー)

以下は 1 分あたりの制限値です。サービスでは、1 秒あたりの制限(RPS = RPM/60、TPS = TPM/60)も適用される場合があります。

1 分あたりのリクエスト数(RPM)

1 分あたりのトークン数(TPM)

入力トークンおよび出力トークンを含む

qwen3-livetranslate-flash

100

100,000

qwen3-livetranslate-flash-2025-12-01

Qwen3-LiveTranslate-Flash-Realtime

国際

国際展開モード」では、エンドポイントおよびデータストレージが シンガポールリージョン に配置されます。モデル推論のコンピューティングリソースは、中国本土を除くグローバル範囲で動的にスケジュールされます。

モデル名

レート制限条件(いずれかの値を超えるとトリガー)

以下は 1 分あたりの制限値です。サービスでは、1 秒あたりの制限(RPS = RPM/60、TPS = TPM/60)も適用される場合があります。

1 分あたりのリクエスト数(RPM)

1 分あたりのトークン数(TPM)

入力トークンおよび出力トークンを含む

qwen3-livetranslate-flash-realtime

10

100,000

qwen3-livetranslate-flash-realtime-2025-09-22

中国本土

中国本土展開モード」では、エンドポイントおよびデータストレージが 中国 (北京) リージョン に配置されます。モデル推論のコンピューティングリソースは中国本土に限定されます。

モデル名

レート制限条件(いずれかの値を超えるとトリガー)

以下は 1 分あたりの制限値です。サービスでは、1 秒あたりの制限(RPS = RPM/60、TPS = TPM/60)も適用される場合があります。

1 分あたりのリクエスト数(RPM)

1 分あたりのトークン数(TPM)

入力トークンおよび出力トークンを含む

qwen3-livetranslate-flash-realtime

10

100,000

qwen3-livetranslate-flash-realtime-2025-09-22

Qwen 音声ファイル認識

国際展開

国際展開モード」では、エンドポイントおよびデータストレージが シンガポールリージョン に配置されます。モデル推論のコンピューティングリソースは、中国本土を除くグローバル範囲で動的にスケジュールされます。

Qwen3-ASR-Flash-Filetrans

モデル名

1 分あたりのリクエスト数(RPM)

qwen3-asr-flash-filetrans

100

qwen3-asr-flash-filetrans-2025-11-17

Qwen3-ASR-Flash

モデル名

1 分あたりのリクエスト数(RPM)

qwen3-asr-flash

100

qwen3-asr-flash-2025-09-08

米国

米国展開モード」では、エンドポイントおよびデータストレージが 米国 (バージニア) リージョン に配置されます。モデル推論のコンピューティングリソースは米国に限定されます。

モデル名

1 分あたりのリクエスト数(RPM)

qwen3-asr-flash-us

100

qwen3-asr-flash-2025-09-08-us

中国本土

中国本土展開モード」では、エンドポイントおよびデータストレージが 中国 (北京) リージョン に配置されます。モデル推論のコンピューティングリソースは中国本土に限定されます。

Qwen3-ASR-Flash-Filetrans

モデル名

1 分あたりのリクエスト数(RPM)

qwen3-asr-flash-filetrans

100

qwen3-asr-flash-filetrans-2025-11-17

Qwen3-ASR-Flash

モデル名

1 分あたりのリクエスト数(RPM)

qwen3-asr-flash

100

qwen3-asr-flash-2025-09-08

Qwen リアルタイム音声認識

国際

国際デプロイメントモードでは、エンドポイントとデータストレージは シンガポールリージョンにあります。モデル推論コンピューティングリソースは、グローバルに (中国本土を除く) 動的にスケジュールされます。

モデル名

1秒あたりのリクエスト数 (RPS)

qwen3-asr-flash-realtime

20

qwen3-asr-flash-realtime-2026-02-10

qwen3-asr-flash-realtime-2025-10-27

中国本土

中国本土デプロイメントモードでは、エンドポイントとデータストレージは 中国 (北京) リージョンにあります。モデル推論コンピューティングリソースは、中国本土に限定されます。

モデル名

1秒あたりのリクエスト数 (RPS)

qwen3-asr-flash-realtime

20

qwen3-asr-flash-realtime-2026-02-10

qwen3-asr-flash-realtime-2025-10-27

Paraformer 音声認識

説明

中国本土デプロイメントモードのみがサポートされています。このモードでは、エンドポイントおよびデータストレージは中国 (北京) リージョンに配置され、推論用のコンピューティングリソースは中国本土に限定されます。

モデル名

submit job API の RPS 制限

paraformer-realtime-v2

20

paraformer-realtime-8k-v2

モデル名

submit job API の RPS 制限

task query API の RPS 制限

paraformer-v2

20

20

paraformer-8k-v2

20

Fun-ASR 音声ファイル認識

国際

国際展開モード」では、エンドポイントおよびデータストレージが シンガポールリージョン に配置されます。モデル推論のコンピューティングリソースは、中国本土を除くグローバル範囲で動的にスケジュールされます。

モデル名

ジョブ送信 API の RPS 制限

タスク照会 API の RPS 制限

fun-asr

10

20

fun-asr-2025-11-07

fun-asr-2025-08-25

モデル名

ジョブ送信 API の RPM 制限

タスク照会 API の RPS 制限

fun-asr-mtl

100

20

fun-asr-mtl-2025-08-25

中国本土

中国本土展開モード」では、エンドポイントおよびデータストレージが 中国 (北京) リージョンに配置されます。モデル推論のコンピューティングリソースは、中国本土内に限定されます。

モデル名

ジョブ送信 API の RPS 制限

タスク照会 API の RPS 制限

fun-asr

10

20

fun-asr-2025-11-07

fun-asr-2025-08-25

fun-asr-mtl

fun-asr-mtl-2025-08-25

Fun-ASR リアルタイム音声認識

国際

国際展開モード」では、エンドポイントおよびデータストレージが シンガポールリージョン に配置されます。モデル推論のコンピューティングリソースは、中国本土を除くグローバル範囲で動的にスケジュールされます。

モデル名

submit job API の RPS 制限

fun-asr-realtime

20

fun-asr-realtime-2025-11-07

中国本土

中国本土展開モード」では、エンドポイントおよびデータストレージが 中国 (北京) リージョンに配置されます。モデル推論のコンピューティングリソースは、中国本土内に限定されます。

モデル名

submit job API の RPS 制限

fun-asr-realtime

20

fun-asr-realtime-2025-11-07

fun-asr-realtime-2025-09-15

fun-asr-flash-8k-realtime

fun-asr-flash-8k-realtime-2026-01-28

テキスト埋め込み

国際

国際版デプロイメントモード」では、エンドポイントおよびデータストレージがシンガポールリージョンに配置されます。推論用のコンピューティングリソースは、中国本土を除く世界中で動的にスケジュールされます。

モデル

レート制限(いずれかの値を超えるとトリガー)

以下は 1 分間あたりの制限です。サービスでは、RPS(RPM ÷ 60)および TPS(TPM ÷ 60)に基づく制限も適用される場合があります。

RPM

TPM/タスク数

入力トークンおよび出力トークンを含む

text-embedding-v4

1,800

1,000,000

text-embedding-v3

6,000

24,000,000

中国本土

中国本土版デプロイメントモード」では、エンドポイントおよびデータストレージが中国 (北京)リージョンに配置されます。推論用のコンピューティングリソースは、中国本土内に限定されます。

モデル

レート制限(いずれかの値を超えるとトリガー)

RPS

TPM/タスク数

入力トークンおよび出力トークンを含む

text-embedding-v4

30

1,200,000

マルチモーダル埋め込み

説明

中国本土デプロイメントモードのみがサポートされています。このモードでは、エンドポイントとデータストレージは北京リージョンに配置され、推論コンピューティングリソースは中国本土に限定されます。

モデル

レート制限

以下は1分あたりの制限です。サービスは、RPS (RPM/60) および TPS (TPM/60) に基づく制限を適用する場合もあります。

RPM

TPM

入力トークンのみ

qwen3-vl-embedding

1,200

600,000

multimodal-embedding-v1

120

200,000

テキストの並べ替え

説明

中国本土デプロイメントモードのみがサポートされています。このモードでは、エンドポイントおよびデータストレージが中国 (北京) リージョンに配置され、推論用コンピューティングリソースは中国本土に限定されます。

モデル

レート制限(いずれかの値を超えるとトリガー)

以下は 1 分間あたりの制限です。サービスでは、RPS(RPM ÷ 60)および TPS(TPM ÷ 60)に基づく追加の制限が適用される場合があります。

RPM

TPM

入力トークンおよび出力トークンを含む

gte-rerank-v2

5,040

4,980,000,000

ドメイン固有

意図認識

説明

中国本土デプロイメントモードのみがサポートされています。このモードでは、エンドポイントおよびデータストレージは中国 (北京)リージョンに配置され、推論用のコンピューティングリソースは中国本土内に限定されます。

モデル

レート制限(いずれかの値を超えるとトリガー)

以下は 1 分間あたりの制限です。サービスは、RPS(RPM ÷ 60)および TPS(TPM ÷ 60)に基づく制限も適用する場合があります。

RPM

TPM

入力トークンおよび出力トークンを含む

tongyi-intent-detect-v3

1,200

1,000,000

ロールプレイ

国際

国際デプロイメントモードでは、エンドポイントおよびデータストレージはシンガポールリージョンに配置されます。推論用のコンピューティングリソースは、中国本土を除く世界中で動的にスケジュールされます。

モデル

レート制限(いずれかの値を超えるとトリガー)

以下は 1 分間あたりの制限です。サービスは、RPS(RPM ÷ 60)および TPS(TPM ÷ 60)に基づく制限も適用する場合があります。

RPM

TPM

入力トークンおよび出力トークンを含む

qwen-plus-character-ja

120

500,000

中国本土

中国本土デプロイメントモードでは、エンドポイントおよびデータストレージは中国 (北京)リージョンに配置されます。推論用のコンピューティングリソースは中国本土内に限定されます。

モデル

レート制限(いずれかの値を超えるとトリガー)

以下は 1 分間あたりの制限です。サービスは、RPS(RPM ÷ 60)および TPS(TPM ÷ 60)に基づく制限も適用する場合があります。

RPM

TPM

入力トークンおよび出力トークンを含む

qwen-plus-character

120

500,000

廃止モデル

詳細については、「モデルの非公開メカニズム」をご参照ください。

2026年1月30日に廃止されたモデル

カテゴリ

モデル

レート制限 (いずれかの値を超過した場合にトリガーされます)

RPM

TPM

入力トークンと出力トークンを含む

Qwen-Plus

qwen-plus-2024-11-27

0

0

qwen-plus-2024-11-25

qwen-plus-2024-09-19

qwen-plus-2024-08-06

Qwen-Turbo

qwen-turbo-2024-09-19

Qwen-VL

qwen-vl-max-2024-10-30

qwen-vl-max-2024-08-09

qwen-vl-plus-2024-08-09

2025年8月20日に提供終了

カテゴリ

モデル

レート制限 (いずれかの値を超過した場合にトリガーされます)

RPM

TPM

入力トークンと出力トークンを含む

テキスト生成 - Qwen

qwen2-72b-instruct

0

0

qwen2-57b-a14b-instruct

qwen2-7b-instruct

qwen1.5-110b-chat

qwen1.5-72b-chat

qwen1.5-32b-chat

qwen1.5-14b-chat

qwen1.5-7b-chat