レート制限 - Alibaba Cloud Model Studio - Alibaba Cloud ドキュメントセンター

テキスト生成 - Qwen

Qwen 言語モデル

グローバル

「グローバルデプロイメントモード」では、エンドポイントおよびデータストレージは 米国 (バージニア) リージョン に配置されます。推論用コンピューティングリソースは、世界規模で動的にスケジュールされます。

モデル	レート制限（いずれかの値を超えるとトリガー）以下は 1 分あたりの制限です。サービスは、RPS（RPM/60）および TPS（TPM/60）に基づく制限も適用する場合があります。
モデル	RPM	TPM 入力トークンおよび出力トークンを含む
qwen3-max	600	1,000,000
qwen3-max-2025-09-23	60	100,000
qwen3-max-preview	600	1,000,000
qwen-plus	15,000	5,000,000
qwen-plus-2025-12-01	60	1,000,000
qwen-plus-2025-09-11
qwen-plus-2025-07-28
qwen-flash	15,000	10,000,000
qwen-flash-2025-07-28	60	1,000,000

インターナショナル

「インターナショナルデプロイメントモード」では、エンドポイントおよびデータストレージは シンガポールリージョン に配置されます。推論用コンピューティングリソースは、中国本土を除く世界規模で動的にスケジュールされます。

モデル	レート制限（いずれかの値を超えるとトリガー）以下は 1 分あたりの制限です。サービスは、RPS（RPM/60）および TPS（TPM/60）に基づく制限も適用する場合があります。
モデル	RPM	TPM 入力トークンおよび出力トークンを含む
qwen3-max	600	1,000,000
qwen3-max-2026-01-23	600	1,000,000
qwen3-max-2025-09-23	60	100,000
qwen3-max-preview	600	1,000,000
qwen-max	120	100,000
qwen-max-latest	600	1,000,000
qwen-max-2025-01-25 (qwen-max-0125)	60	100,000
qwen3.5-plus	15,000	5,000,000
qwen3.5-plus-2026-02-15	60	1,000,000
qwen-plus	600	1,000,000
qwen-plus-latest	600	1,000,000
qwen-plus-2025-12-01	120	1,000,000
qwen-plus-2025-09-11	120	1,000,000
qwen-plus-2025-07-28	60	100,000
qwen-plus-2025-07-14 (qwen-plus-0714)		100,000
qwen-plus-2025-04-28 (qwen-plus-0428)		1,000,000
qwen-plus-2025-01-25 (qwen-plus-0125)		100,000
qwen-flash	600	5,000,000
qwen-flash-2025-07-28	600	5,000,000
qwq-plus	60	100,000
qwen-turbo	240	100,000
qwen-turbo-latest	600	5,000,000
qwen-turbo-2025-04-28 (qwen-turbo-0428)	60	1,000,000
qwen-turbo-2024-11-01 (qwen-turbo-1101)	60	5,000,000

米国

「米国デプロイメントモード」では、エンドポイントおよびデータストレージは 米国 (バージニア) リージョン に配置されます。推論用コンピューティングリソースは、米国内に限定されます。

モデル	レート制限（いずれかの値を超えるとトリガー）以下は 1 分あたりの制限です。サービスは、RPS（RPM/60）および TPS（TPM/60）に基づく制限も適用する場合があります。
	RPM	TPM 入力トークンおよび出力トークンを含む
qwen-plus-us	600	1,000,000
qwen-plus-2025-12-01-us	60
qwen-flash-us	600	5,000,000
qwen-flash-2025-07-28-us

中国本土

「中国本土デプロイメントモード」では、エンドポイントおよびデータストレージは 中国 (北京) リージョン に配置されます。推論用コンピューティングリソースは、中国本土内に限定されます。

モデル	レート制限（いずれかの値を超えるとトリガー）以下は 1 分あたりの制限です。サービスは、RPS（RPM/60）および TPS（TPM/60）に基づく制限も適用する場合があります。
モデル	RPM	TPM 入力トークンおよび出力トークンを含む
qwen3-max	30,000	5,000,000
qwen3-max-2026-01-23	600	1,000,000
qwen3-max-2025-09-23	60	100,000
qwen3-max-preview	600	1,000,000
qwen-max	1,200	1,000,000
qwen-max-latest	1,200	1,000,000
qwen-max-2025-01-25 (qwen-max-0125)	60	100,000
qwen-max-2024-09-19 (qwen-max-0919)
qwen-max-2024-09-19 (qwen-max-0919)
qwen3.5-plus	30,000	5,000,000
qwen3.5-plus-2026-02-15	600	1,000,000
qwen-plus	30,000	5,000,000
qwen-plus-latest	15,000	1,200,000
qwen-plus-2025-12-01	120	1,000,000
qwen-plus-2025-09-11	60
qwen-plus-2025-07-28 (qwen-plus-0728)
qwen-plus-2025-07-14 (qwen-plus-0714)		100,000
qwen-plus-2025-04-28 (qwen-plus-0428)		1,000,000
qwen-plus-2025-01-25 (qwen-plus-0125)		150,000
qwen-plus-2025-01-12 (qwen-plus-0112)
qwen-plus-2024-12-20 (qwen-plus-1220)
qwen-flash	30,000	10,000,000
qwen-flash-2025-07-28	60	1,000,000
qwq-plus	600	1,000,000
qwq-plus-latest	600	1,000,000
qwq-plus-2025-03-05	60	100,000
qwen-turbo	1,200	5,000,000
qwen-turbo-latest	1,200	5,000,000
qwen-turbo-2025-04-28 (qwen-turbo-0428)	60	1,000,000
qwen-turbo-2025-02-11 (qwen-turbo-0211)		5,000,000
qwen-turbo-2024-11-01 (qwen-turbo-1101)		5,000,000
qwen-long-latest	1,200	60,000
qwen-long-2025-01-25 (qwen-long-0125)	3	7,500

Qwen-VL（視覚理解／画像からテキストへ）

グローバル

「グローバルデプロイメントモード」では、エンドポイントおよびデータストレージは 米国 (バージニア) リージョン に配置されます。推論用コンピューティングリソースは、世界規模で動的にスケジュールされます。

モデル	レート制限（いずれかの値を超えるとトリガー）以下は 1 分あたりの制限です。サービスは、RPS（RPM/60）および TPS（TPM/60）に基づく制限も適用する場合があります。
モデル	RPM	TPM 入力トークンおよび出力トークンを含む
qwen3-vl-plus	1,200	1,000,000
qwen3-vl-plus-2025-09-23	60	100,000
qwen3-vl-flash	1,200	1,000,000
qwen3-vl-flash-2025-10-15	60	100,000

インターナショナル

「インターナショナルデプロイメントモード」では、エンドポイントおよびデータストレージは シンガポールリージョン に配置されます。推論用コンピューティングリソースは、中国本土を除く世界規模で動的にスケジュールされます。

モデル	レート制限（いずれかの値を超えるとトリガー）以下は 1 分あたりの制限です。サービスは、RPS（RPM/60）および TPS（TPM/60）に基づく制限も適用する場合があります。
モデル	RPM	TPM 入力トークンおよび出力トークンを含む
qwen3-vl-plus	1,200	1,000,000
qwen3-vl-plus-2025-12-19	60	100,000
qwen3-vl-plus-2025-09-23	120	1,000,000
qwen3-vl-flash	1,200	1,000,000
qwen3-vl-flash-2026-01-22	60	100,000
qwen3-vl-flash-2025-10-15	120	1,000,000
qwen-vl-max	1,200	1,000,000
qwen-vl-max-latest	1,200	1,000,000
qwen-vl-max-2025-08-13 (qwen-vl-max-0813)	60	100,000
qwen-vl-max-2025-04-08 (qwen-vl-max-0408)	1,200	1,000,000
qwen-vl-plus
qwen-vl-plus-latest
qwen-vl-plus-2025-08-15 (qwen-vl-plus-0815)	120	1,000,000
qwen-vl-plus-2025-05-07 (qwen-vl-plus-0507)	120
qwen-vl-plus-2025-01-25 (qwen-vl-plus-0125)	1,200
qvq-max	60	100,000
qvq-max-latest
qvq-max-2025-03-25 (qvq-max-0325)

米国

「米国デプロイメントモード」では、エンドポイントおよびデータストレージは 米国 (バージニア) リージョン に配置されます。推論用コンピューティングリソースは、米国内に限定されます。

モデル	レート制限（いずれかの値を超えるとトリガー）以下は 1 分あたりの制限です。サービスは、RPS（RPM/60）および TPS（TPM/60）に基づく制限も適用する場合があります。
モデル	RPM	TPM 入力トークンおよび出力トークンを含む
qwen3-vl-flash-us	1,200	1,000,000
qwen3-vl-flash-2025-10-15-us	120	1,000,000

中国本土

「中国本土デプロイメントモード」では、エンドポイントおよびデータストレージは 中国 (北京) リージョン に配置されます。推論用コンピューティングリソースは、中国本土内に限定されます。

モデル	レート制限（いずれかの値を超えるとトリガー）以下は 1 分あたりの制限です。サービスは、RPS（RPM/60）および TPS（TPM/60）に基づく制限も適用する場合があります。
モデル	RPM	TPM 入力トークンおよび出力トークンを含む
qwen3-vl-plus	3,000	5,000,000
qwen3-vl-plus-2025-12-19	60	100,000
qwen3-vl-plus-2025-09-23	60	100,000
qwen3-vl-flash	3,000	5,000,000
qwen3-vl-flash-2026-01-22	60	100,000
qwen3-vl-flash-2025-10-15	60	100,000
qwen-vl-max	1,200	1,000,000
qwen-vl-max-latest	1,200	1,000,000
qwen-vl-max-2025-08-13 (qwen-vl-max-0813)	60	100,000
qwen-vl-max-2025-04-08 (qwen-vl-max-0408)
qwen-vl-max-2025-04-02 (qwen-vl-max-0402)
qwen-vl-max-2025-01-25 (qwen-vl-max-0125)
qwen-vl-max-2024-12-30 (qwen-vl-max-1230)
qwen-vl-max-2024-11-19 (qwen-vl-max-1119)
qwen-vl-plus	1,200	1,000,000
qwen-vl-plus-latest	1,200	1,000,000
qwen-vl-plus-2025-08-15 (qwen-vl-plus-0815)	60	100,000
qwen-vl-plus-2025-07-10 (qwen-vl-plus-0710)
qwen-vl-plus-2025-05-07 (qwen-vl-plus-0507)
qwen-vl-plus-2025-01-25 (qwen-vl-plus-0125)
qwen-vl-plus-2025-01-02 (qwen-vl-plus-0102)
qvq-max
qvq-max-latest
qvq-max-2025-05-15 (qvq-max-0515)
qvq-max-2025-03-25 (qvq-max-0325)
qvq-plus
qvq-plus-latest
qvq-plus-2025-05-15 (qvq-plus-0515)

Qwen-Omni（マルチモダリティ）

インターナショナル

「インターナショナルデプロイメントモード」では、エンドポイントおよびデータストレージは シンガポールリージョン に配置されます。推論用コンピューティングリソースは、中国本土を除く世界規模で動的にスケジュールされます。

モデル	レート制限（いずれかの値を超えるとトリガー）以下は 1 分あたりの制限です。サービスは、RPS（RPM/60）および TPS（TPM/60）に基づく制限も適用する場合があります。
	RPM	TPM 入力トークンおよび出力トークンを含む
qwen3-omni-flash	60	100,000
qwen3-omni-flash-2025-12-01
qwen3-omni-flash-2025-09-15
qwen-omni-turbo
qwen-omni-turbo-latest
qwen-omni-turbo-2025-03-26

中国本土

「中国本土デプロイメントモード」では、エンドポイントおよびデータストレージは 中国 (北京) リージョン に配置されます。推論用コンピューティングリソースは、中国本土内に限定されます。

モデル	レート制限（いずれかの値を超えるとトリガー）以下は 1 分あたりの制限です。サービスは、RPS（RPM/60）および TPS（TPM/60）に基づく制限も適用する場合があります。
	RPM	TPM 入力トークンおよび出力トークンを含む
qwen3-omni-flash	60	100,000
qwen3-omni-flash-2025-12-01
qwen3-omni-flash-2025-09-15
qwen-omni-turbo
qwen-omni-turbo-latest
qwen-omni-turbo-2025-03-26 (qwen-omni-turbo-0326)
qwen-omni-turbo-2025-01-19 (qwen-omni-turbo-0119)

Qwen-Omni-Realtime（リアルタイムマルチモダリティ）

インターナショナル

「米国デプロイメントモード」では、エンドポイントおよびデータストレージは 米国 (バージニア) リージョン に配置されます。推論用コンピューティングリソースは、米国内に限定されます。

モデル	レート制限（いずれかの値を超えるとトリガー）以下は 1 分あたりの制限です。サービスは、RPS（RPM/60）および TPS（TPM/60）に基づく制限も適用する場合があります。
	RPM	TPM 入力トークンおよび出力トークンを含む
qwen3-omni-flash-realtime	60	100,000
qwen3-omni-flash-realtime-2025-12-01
qwen3-omni-flash-realtime-2025-09-15
qwen-omni-turbo-realtime		10,000
qwen-omni-turbo-realtime-latest
qwen-omni-turbo-realtime-2025-05-08

中国本土

「中国本土デプロイメントモード」では、エンドポイントおよびデータストレージは 中国 (北京) リージョン に配置されます。推論用コンピューティングリソースは、中国本土内に限定されます。

モデル	レート制限（いずれかの値を超えるとトリガー）以下は 1 分あたりの制限です。サービスは、RPS（RPM/60）および TPS（TPM/60）に基づく制限も適用する場合があります。
	RPM	TPM 入力トークンおよび出力トークンを含む
qwen3-omni-flash-realtime	60	100,000
qwen3-omni-flash-realtime-2025-12-01
qwen3-omni-flash-realtime-2025-09-15
qwen-omni-turbo-realtime
qwen-omni-turbo-realtime-latest
qwen-omni-turbo-realtime-2025-05-08

Qwen-OCR（テキスト抽出）

グローバル

「グローバルデプロイメントモード」では、エンドポイントおよびデータストレージは 米国 (バージニア) リージョン に配置されます。推論用コンピューティングリソースは、世界規模で動的にスケジュールされます。

モデル	レート制限（いずれかの値を超えるとトリガー）以下は 1 分あたりの制限です。サービスは、RPS（RPM/60）および TPS（TPM/60）に基づく制限も適用する場合があります。
	RPM	TPM 入力トークンおよび出力トークンを含む
qwen-vl-ocr	600	6,000,000
qwen-vl-ocr-2025-11-20	1,200

インターナショナル

「インターナショナルデプロイメントモード」では、エンドポイントおよびデータストレージは シンガポールリージョン に配置されます。推論用コンピューティングリソースは、中国本土を除く世界規模で動的にスケジュールされます。

モデル	レート制限（いずれかの値を超えるとトリガー）以下は 1 分あたりの制限です。サービスは、RPS（RPM/60）および TPS（TPM/60）に基づく制限も適用する場合があります。
	RPM	TPM 入力トークンおよび出力トークンを含む
qwen-vl-ocr	600	6,000,000
qwen-vl-ocr-2025-11-20	1,200

中国本土

「中国本土デプロイメントモード」では、エンドポイントおよびデータストレージは 中国 (北京) リージョン に配置されます。推論用コンピューティングリソースは、中国本土内に限定されます。

モデル	レート制限（いずれかの値を超えるとトリガー）以下は 1 分あたりの制限です。サービスは、RPS（RPM/60）および TPS（TPM/60）に基づく制限も適用する場合があります。
	RPM	TPM 入力トークンおよび出力トークンを含む
qwen-vl-ocr	600	6,000,000
qwen-vl-ocr-latest	1,200
qwen-vl-ocr-2025-11-20
qwen-vl-ocr-2025-04-13	600
qwen-vl-ocr-2024-10-28

Qwen-Math

説明

サポートされているのは中国本土デプロイメントモードのみです。このモードでは、エンドポイントおよびデータストレージは 中国 (北京) リージョン に配置され、推論用コンピューティングリソースは中国本土内に限定されます。

モデル	レート制限（いずれかの値を超えるとトリガー）以下は 1 分あたりの制限です。サービスは、RPS（RPM/60）および TPS（TPM/60）に基づく制限も適用する場合があります。
モデル	RPM	TPM 入力トークンおよび出力トークンを含む
qwen-math-plus	1,200	1,000,000
qwen-math-plus-latest	1,200	1,000,000
qwen-math-plus-2024-09-19 (qwen-math-plus-0919)	60	100,000
qwen-math-plus-2024-08-16 (qwen-math-plus-0816)	10	20,000
qwen-math-turbo	1200	1,000,000
qwen-math-turbo-latest	1200	1,000,000
qwen-math-turbo-2024-09-19 (qwen-math-turbo-0919)	60	100,000

Qwen-Coder

グローバル

「グローバルデプロイメントモード」では、エンドポイントおよびデータストレージは 米国 (バージニア) リージョン に配置されます。推論用コンピューティングリソースは、世界規模で動的にスケジュールされます。

モデル	レート制限（いずれかの値を超えるとトリガー）以下は 1 分あたりの制限です。サービスは、RPS（RPM/60）および TPS（TPM/60）に基づく制限も適用する場合があります。
モデル	RPM	TPM 入力トークンおよび出力トークンを含む
qwen3-coder-plus	2,400	2,000,000
qwen3-coder-plus-2025-09-23	60	1,000,000
qwen3-coder-plus-2025-07-22	60
qwen3-coder-flash	1,200
qwen3-coder-flash-2025-07-28	60

インターナショナル

「インターナショナルデプロイメントモード」では、エンドポイントおよびデータストレージは シンガポールリージョン に配置されます。推論用コンピューティングリソースは、中国本土を除く世界規模で動的にスケジュールされます。

モデル	レート制限（いずれかの値を超えるとトリガー）以下は 1 分あたりの制限です。サービスは、RPS（RPM/60）および TPS（TPM/60）に基づく制限も適用する場合があります。
モデル	RPM	TPM 入力トークンおよび出力トークンを含む
qwen3-coder-plus	2,400	2,000,000
qwen3-coder-plus-2025-09-23	600	1,000,000
qwen3-coder-plus-2025-07-22	60	1,000,000
qwen3-coder-flash	600	5,000,000
qwen3-coder-flash-2025-07-28	600	5,000,000

中国本土

「中国本土デプロイメントモード」では、エンドポイントおよびデータストレージは 中国 (北京) リージョン に配置されます。推論用コンピューティングリソースは、中国本土内に限定されます。

モデル	レート制限（いずれかの値を超えるとトリガー）以下は 1 分あたりの制限です。サービスは、RPS（RPM/60）および TPS（TPM/60）に基づく制限も適用する場合があります。
モデル	RPM	TPM 入力トークンおよび出力トークンを含む
qwen3-coder-plus	5,000	5,000,000
qwen3-coder-plus-2025-09-23	60	1,000,000
qwen3-coder-plus-2025-07-22	60	1,000,000
qwen3-coder-flash	5,000	5,000,000
qwen3-coder-flash-2025-07-28	60	1,000,000
qwen-coder-plus	1,200
qwen-coder-plus-latest	1,200
qwen-coder-plus-2024-11-06 (qwen-coder-plus-1106)	120	200,000
qwen-coder-turbo	1,200	1,000,000
qwen-coder-turbo-latest	1,200	1,000,000
qwen-coder-turbo-2024-09-19 (qwen-coder-turbo-0919)	60	100,000

Qwen-MT

グローバル

「グローバルデプロイメントモード」では、エンドポイントおよびデータストレージは 米国 (バージニア) リージョン に配置されます。推論用コンピューティングリソースは、世界規模で動的にスケジュールされます。

モデル	レート制限（いずれかの値を超えるとトリガー）以下は 1 分あたりの制限です。サービスは、RPS（RPM/60）および TPS（TPM/60）に基づく制限も適用する場合があります。
モデル	RPM	TPM 入力トークンおよび出力トークンを含む
qwen-mt-plus	60	25,000
qwen-mt-flash		35,000
qwen-mt-lite		100,000

インターナショナル

「インターナショナルデプロイメントモード」では、エンドポイントおよびデータストレージは シンガポールリージョン に配置されます。推論用コンピューティングリソースは、中国本土を除く世界規模で動的にスケジュールされます。

モデル	レート制限（いずれかの値を超えるとトリガー）以下は 1 分あたりの制限です。サービスは、RPS（RPM/60）および TPS（TPM/60）に基づく制限も適用する場合があります。
	RPM	TPM 入力トークンおよび出力トークンを含む
qwen-mt-plus	60	100,000
qwen-mt-flash
qwen-mt-lite
qwen-mt-turbo

中国本土

「中国本土デプロイメントモード」では、エンドポイントおよびデータストレージは 中国 (北京) リージョン に配置されます。推論用コンピューティングリソースは、中国本土内に限定されます。

モデル	レート制限（いずれかの値を超えるとトリガー）以下は 1 分あたりの制限です。サービスは、RPS（RPM/60）および TPS（TPM/60）に基づく制限も適用する場合があります。
モデル	RPM	TPM 入力トークンおよび出力トークンを含む
qwen-mt-plus	60	25,000
qwen-mt-flash		35,000
qwen-mt-lite		100,000
qwen-mt-turbo		35,000

Qwen-Doc

説明

サポートされているのは中国本土デプロイメントモードのみです。このモードでは、エンドポイントおよびデータストレージは 中国 (北京) リージョン に配置され、推論用コンピューティングリソースは中国本土内に限定されます。

モデル

レート制限（いずれかの値を超えるとトリガー）

以下は 1 分あたりの制限です。サービスは、RPS（RPM/60）および TPS（TPM/60）に基づく制限も適用する場合があります。

RPM

TPM

入力トークンおよび出力トークンを含む

qwen-doc-turbo

600

3,000,000

Qwen-Deep-Research

説明

サポートされているのは中国本土デプロイメントモードのみです。このモードでは、エンドポイントおよびデータストレージは 中国 (北京) リージョン に配置され、推論用コンピューティングリソースは中国本土内に限定されます。

モデル

レート制限（いずれかの値を超えるとトリガー）

以下は 1 分あたりの制限です。サービスは、RPS（RPM/60）および TPS（TPM/60）に基づく制限も適用する場合があります。

RPM

TPM

入力トークンおよび出力トークンを含む

qwen-deep-research

120

1,200,000

テキスト生成 - Qwen - オープンソース

オープンソースの Qwen 言語モデル

グローバル

「グローバルデプロイメントモード」では、エンドポイントおよびデータストレージは 米国 (バージニア) リージョン に配置されます。推論用コンピューティングリソースは、世界規模で動的にスケジュールされます。

モデル	レート制限（いずれかの値を超えるとトリガー）以下は 1 分あたりの制限です。サービスは、RPS（RPM/60）および TPS（TPM/60）に基づく制限も適用する場合があります。
モデル	RPM	TPM 入力トークンおよび出力トークンを含む
qwen3-next-80b-a3b-thinking	1,000,000	600
qwen3-next-80b-a3b-instruct
qwen3-235b-a22b-thinking-2507
qwen3-235b-a22b-instruct-2507
qwen3-30b-a3b-thinking-2507
qwen3-30b-a3b-instruct-2507
qwen3-235b-a22b
qwen3-30b-a3b
qwen3-32b
qwen3-14b
qwen3-8b

インターナショナル

「インターナショナルデプロイメントモード」では、エンドポイントおよびデータストレージは シンガポールリージョン に配置されます。推論用コンピューティングリソースは、中国本土を除く世界規模で動的にスケジュールされます。

モデル	レート制限（いずれかの値を超えるとトリガー）以下は 1 分あたりの制限です。サービスは、RPS（RPM/60）および TPS（TPM/60）に基づく制限も適用する場合があります。
	RPM	TPM 入力トークンおよび出力トークンを含む
qwen3.5-397b-a17b	600	1,000,000
qwen3-next-80b-a3b-thinking
qwen3-next-80b-a3b-instruct
qwen3-235b-a22b-thinking-2507
qwen3-235b-a22b-instruct-2507
qwen3-30b-a3b-thinking-2507		5,000,000
qwen3-30b-a3b-instruct-2507
qwen3-235b-a22b		1,000,000
qwen3-32b
qwen3-30b-a3b
qwen3-14b
qwen3-8b
qwen3-4b
qwen3-1.7b
qwen3-0.6b
qwen2.5-14b-instruct-1m	1,200	5,000,000
qwen2.5-7b-instruct-1m
qwen2.5-72b-instruct	60	150,000
qwen2.5-32b-instruct
qwen2.5-14b-instruct
qwen2.5-7b-instruct

中国本土

「中国本土デプロイメントモード」では、エンドポイントおよびデータストレージは 中国 (北京) リージョン に配置されます。推論用コンピューティングリソースは、中国本土内に限定されます。

モデル	レート制限（いずれかの値を超えるとトリガー）以下は 1 分あたりの制限です。サービスは、RPS（RPM/60）および TPS（TPM/60）に基づく制限も適用する場合があります。
モデル	RPM	TPM 入力トークンおよび出力トークンを含む
qwen3.5-397b-a17b	600	1,000,000
qwen3-next-80b-a3b-thinking
qwen3-next-80b-a3b-instruct
qwen3-235b-a22b-thinking-2507
qwen3-235b-a22b-instruct-2507
qwen3-30b-a3b-thinking-2507
qwen3-30b-a3b-instruct-2507
qwen3-235b-a22b
qwen3-30b-a3b
qwen3-32b	2400
qwen3-14b	600
qwen3-8b
qwen3-4b
qwen3-1.7b
qwen3-0.6b
qwq-32b
qwq-32b-preview	1,200
qwen2.5-72b-instruct
qwen2.5-32b-instruct
qwen2.5-14b-instruct
qwen2.5-14b-instruct-1m		5,000,000
qwen2.5-7b-instruct		1,000,000
qwen2.5-7b-instruct-1m		5,000,000
qwen2.5-3b-instruct		2,000,000
qwen2.5-1.5b-instruct
qwen2.5-0.5b-instruct

Qwen-VL（視覚理解／画像からテキストへ）

インターナショナル

「インターナショナルデプロイメントモード」では、エンドポイントおよびデータストレージは シンガポールリージョン に配置されます。推論用コンピューティングリソースは、中国本土を除く世界規模で動的にスケジュールされます。

モデル	レート制限（いずれかの値を超えるとトリガー）以下は 1 分あたりの制限です。サービスは、RPS（RPM/60）および TPS（TPM/60）に基づく制限も適用する場合があります。
	RPM	TPM 入力トークンおよび出力トークンを含む
qwen3-vl-32b-thinking	60	100,000
qwen3-vl-32b-instruct
qwen3-vl-30b-a3b-thinking
qwen3-vl-30b-a3b-instruct
qwen3-vl-8b-thinking
qwen3-vl-8b-instruct
qwen3-vl-235b-a22b-thinking
qwen3-vl-235b-a22b-instruct
qwen2.5-vl-72b-instruct
qwen2.5-vl-32b-instruct
qwen2.5-vl-7b-instruct	1,200	1,000,000
qwen2.5-vl-3b-instruct

中国本土

「中国本土デプロイメントモード」では、エンドポイントおよびデータストレージは 中国 (北京) リージョン に配置されます。推論用コンピューティングリソースは、中国本土内に限定されます。

モデル	レート制限（いずれかの値を超えるとトリガー）以下は 1 分あたりの制限です。サービスは、RPS（RPM/60）および TPS（TPM/60）に基づく制限も適用する場合があります。
モデル	RPM	TPM 入力トークンおよび出力トークンを含む
qwen3-vl-32b-thinking	600	1,000,000
qwen3-vl-32b-instruct
qwen3-vl-30b-a3b-thinking
qwen3-vl-30b-a3b-instruct
qwen3-vl-8b-thinking
qwen3-vl-8b-instruct
qwen3-vl-235b-a22b-thinking	60	100,000
qwen3-vl-235b-a22b-instruct
qwen2.5-vl-72b-instruct
qwen2.5-vl-32b-instruct
qwen2.5-vl-7b-instruct	1,200	1,000,000
qwen2.5-vl-3b-instruct
qwen2-vl-72b-instruct
qwen2-vl-7b-instruct
qwen2-vl-2b-instruct
qvq-72b-preview	60	100,000

Qwen3-Omni

インターナショナル

「インターナショナルデプロイメントモード」では、エンドポイントおよびデータストレージは シンガポールリージョン に配置されます。推論用コンピューティングリソースは、中国本土を除く世界規模で動的にスケジュールされます。

モデル

レート制限（いずれかの値を超えるとトリガー）

以下は 1 分あたりの制限です。サービスは、RPS（RPM/60）および TPS（TPM/60）に基づく制限も適用する場合があります。

RPM

TPM

入力トークンおよび出力トークンを含む

qwen2.5-omni-7b

60

100,000

中国本土

「中国本土デプロイメントモード」では、エンドポイントおよびデータストレージは 中国 (北京) リージョン に配置されます。推論用コンピューティングリソースは、中国本土内に限定されます。

モデル

レート制限（いずれかの値を超えるとトリガー）

以下は 1 分あたりの制限です。サービスは、RPS（RPM/60）および TPS（TPM/60）に基づく制限も適用する場合があります。

RPM

TPM

入力トークンおよび出力トークンを含む

qwen2.5-omni-7b

60

100,000

Qwen3-Omni-Captioner

インターナショナル

「インターナショナルデプロイメントモード」では、エンドポイントおよびデータストレージは シンガポールリージョン に配置されます。推論用コンピューティングリソースは、中国本土を除く世界規模で動的にスケジュールされます。

モデル

レート制限（いずれかの値を超えるとトリガー）

以下は 1 分あたりの制限です。サービスは、RPS（RPM/60）および TPS（TPM/60）に基づく制限も適用する場合があります。

RPM

TPM

入力トークンおよび出力トークンを含む

qwen3-omni-30b-a3b-captioner

60

100,000

中国本土

「中国本土デプロイメントモード」では、エンドポイントおよびデータストレージは 中国 (北京) リージョン に配置されます。推論用コンピューティングリソースは、中国本土内に限定されます。

モデル

レート制限（いずれかの値を超えるとトリガー）

以下は 1 分あたりの制限です。サービスは、RPS（RPM/60）および TPS（TPM/60）に基づく制限も適用する場合があります。

RPM

TPM

入力トークンおよび出力トークンを含む

qwen3-omni-30b-a3b-captioner

60

100,000

Qwen-Math

説明

サポートされているのは中国本土デプロイメントモードのみです。このモードでは、エンドポイントおよびデータストレージは 中国 (北京) リージョン に配置され、推論用コンピューティングリソースは中国本土内に限定されます。

モデル	レート制限（いずれかの値を超えるとトリガー）以下は 1 分あたりの制限です。サービスは、RPS（RPM/60）および TPS（TPM/60）に基づく制限も適用する場合があります。
	RPM	TPM 入力トークンおよび出力トークンを含む
qwen2.5-math-72b-instruct	1,200	1,000,000
qwen2.5-math-7b-instruct
qwen2.5-math-1.5b-instruct

Qwen-Coder

グローバル

「グローバルデプロイメントモード」では、エンドポイントおよびデータストレージは 米国 (バージニア) リージョン に配置されます。推論用コンピューティングリソースは、世界規模で動的にスケジュールされます。

モデル	レート制限（いずれかの値を超えるとトリガー）以下は 1 分あたりの制限です。サービスは、RPS（RPM/60）および TPS（TPM/60）に基づく制限も適用する場合があります。
	RPM	TPM 入力トークンおよび出力トークンを含む
qwen3-coder-480b-a35b-instruct	600	1,000,000
qwen3-coder-30b-a3b-instruct

インターナショナル

「インターナショナルデプロイメントモード」では、エンドポイントおよびデータストレージは シンガポールリージョン に配置されます。推論用コンピューティングリソースは、中国本土を除く世界規模で動的にスケジュールされます。

モデル	レート制限（いずれかの値を超えるとトリガー）以下は 1 分あたりの制限です。サービスは、RPS（RPM/60）および TPS（TPM/60）に基づく制限も適用する場合があります。
	RPM	TPM 入力トークンおよび出力トークンを含む
qwen3-coder-next	600	1,000,000
qwen3-coder-480b-a35b-instruct
qwen3-coder-30b-a3b-instruct

中国本土

「中国本土デプロイメントモード」では、エンドポイントおよびデータストレージは 中国 (北京) リージョン に配置されます。推論用コンピューティングリソースは、中国本土内に限定されます。

モデル	レート制限（いずれかの値を超えるとトリガー）以下は 1 分あたりの制限です。サービスは、RPS（RPM/60）および TPS（TPM/60）に基づく制限も適用する場合があります。
	RPM	TPM 入力トークンおよび出力トークンを含む
qwen3-coder-next	600	1,000,000
qwen3-coder-480b-a35b-instruct
qwen3-coder-30b-a3b-instruct
qwen2.5-coder-32b-instruct	1,200
qwen2.5-coder-14b-instruct
qwen2.5-coder-7b-instruct
qwen2.5-coder-3b-instruct		2,000,000
qwen2.5-coder-1.5b-instruct
qwen2.5-coder-0.5b-instruct

テキスト生成 - サードパーティ

DeepSeek

説明

サポートされているのは中国本土デプロイメントモードのみです。このモードでは、エンドポイントおよびデータストレージは 中国 (北京) リージョン に配置され、推論用コンピューティングリソースは中国本土内に限定されます。

モデル	レート制限（いずれかの値を超えるとトリガー）以下は 1 分あたりの制限です。サービスは、RPS（RPM/60）および TPS（TPM/60）に基づく制限も適用する場合があります。
モデル	RPM	TPM 入力トークンおよび出力トークンを含む
deepseek-v3.2	15,000	1,200,000
deepseek-v3.2-exp	15,000	1,200,000
deepseek-v3.1	15,000	1,200,000
deepseek-r1-0528	60	100,000
deepseek-r1	15,000	1,200,000
deepseek-v3
deepseek-r1-distill-qwen-7b
deepseek-r1-distill-qwen-14b
deepseek-r1-distill-qwen-32b
deepseek-r1-distill-qwen-1.5b	60	100,000
deepseek-r1-distill-llama-8b
deepseek-r1-distill-llama-70b

Kimi

説明

サポートされているのは中国本土デプロイメントモードのみです。このモードでは、エンドポイントおよびデータストレージは 中国 (北京) リージョン に配置され、推論用コンピューティングリソースは中国本土内に限定されます。

モデル	レート制限（いずれかの値を超えるとトリガー）以下は 1 分あたりの制限です。サービスは、RPS（RPM/60）および TPS（TPM/60）に基づく制限も適用する場合があります。
モデル	RPM	TPM 入力トークンおよび出力トークンを含む
kimi-k2.5	60	100,000
kimi-k2-thinking	60	100,000
Moonshot-Kimi-K2-Instruct	60	100,000

GLM

説明

サポートされているのは中国本土デプロイメントモードのみです。このモードでは、エンドポイントおよびデータストレージは 中国 (北京) リージョン に配置され、推論用コンピューティングリソースは中国本土内に限定されます。

モデル	レート制限（いずれかの値を超えるとトリガー）以下は 1 分あたりの制限です。サービスは、RPS（RPM/60）および TPS（TPM/60）に基づく制限も適用する場合があります。
	RPM	TPM 入力トークンおよび出力トークンを含む
glm-5	60	1,000,000
glm-4.7
glm-4.6

画像生成

Qwen-Image

インターナショナル

「インターナショナルデプロイメントモード」では、エンドポイントおよびデータストレージは シンガポールリージョン に配置されます。推論用コンピューティングリソースは、中国本土を除く世界規模で動的にスケジュールされます。

サービス	モデル	レート制限（いずれかの値を超えるとトリガー）
サービス	モデル	タスク送信制限	同時タスク数
テキストから画像へ	qwen-image-max	2/分	同期 API には制限なし
	qwen-image-max-2025-12-30	2/分	同期 API には制限なし
	qwen-image-plus	2/秒	同期 API には制限なし / 非同期 API：2
	qwen-image-plus-2026-01-09	2/秒	同期 API には制限なし
	qwen-image	2/秒	同期 API には制限なし / 非同期 API：2
画像編集	qwen-image-edit-max	2/分	同期 API には制限なし
	qwen-image-edit-max-2026-01-16	2/分	同期 API には制限なし
	qwen-image-edit-plus	2/秒	同期 API には制限なし
	qwen-image-edit-plus-2025-12-15	2/秒	同期 API には制限なし
	qwen-image-edit-plus-2025-10-30	2/秒	同期 API には制限なし
	qwen-image-edit	2/秒	同期 API には制限なし

中国本土

「中国本土デプロイメントモード」では、エンドポイントおよびデータストレージは 中国 (北京) リージョン に配置されます。推論用コンピューティングリソースは、中国本土内に限定されます。

サービス	モデル	レート制限（いずれかの値を超えるとトリガー）
サービス	モデル	タスク送信制限	同時タスク数
テキストから画像へ	qwen-image-max	2/分	同期 API には制限なし
	qwen-image-max-2025-12-30	2/分	同期 API には制限なし
	qwen-image-plus	2/秒	同期 API には制限なし / 非同期 API：2
	qwen-image-plus-2026-01-09	2/秒	同期 API には制限なし
	qwen-image	2/秒	同期 API には制限なし / 非同期 API：2
画像編集	qwen-image-edit-max	2/分	同期 API には制限なし
	qwen-image-edit-max-2026-01-16	2/分	同期 API には制限なし
	qwen-image-edit-plus	2/秒	同期 API には制限なし
	qwen-image-edit-plus-2025-12-15	2/秒	同期 API には制限なし
	qwen-image-edit-plus-2025-10-30	2/秒	同期 API には制限なし
	qwen-image-edit	2/秒	同期 API には制限なし
画像翻訳	qwen-mt-image	1/秒	2

テキストから画像へ - Z-Image

インターナショナル

「インターナショナルデプロイメントモード」では、エンドポイントおよびデータストレージは シンガポールリージョン に配置されます。推論用コンピューティングリソースは、中国本土を除く世界規模で動的にスケジュールされます。

モデル	レート制限（いずれかの値を超えるとトリガー）
モデル	タスク送信 RPS 制限	同時タスク数
z-image-turbo	2	同期 API には制限なし

中国本土

「中国本土デプロイメントモード」では、エンドポイントおよびデータストレージは 中国 (北京) リージョン に配置されます。推論用コンピューティングリソースは、中国本土内に限定されます。

モデル	レート制限（いずれかの値を超えるとトリガー）
モデル	タスク送信 RPS 制限	同時タスク数
z-image-turbo	2	同期 API には制限なし

Wan

グローバル

「グローバルデプロイメントモード」では、エンドポイントおよびデータストレージは 米国 (バージニア) リージョン に配置されます。推論用コンピューティングリソースは、世界規模で動的にスケジュールされます。

サービス	モデル	レート制限（いずれかの値を超えるとトリガー）
サービス	モデル	タスク送信 RPS 制限	同時実行タスク
テキストから画像へ	wan2.6-t2i	5	5
画像生成	wan2.6-image	5	5

インターナショナル

「インターナショナルデプロイメントモード」では、エンドポイントおよびデータストレージは シンガポールリージョン に配置されます。推論用コンピューティングリソースは、中国本土を除く世界規模で動的にスケジュールされます。

サービス	モデル	レート制限（いずれかの値を超えるとトリガー）
		タスク送信 RPS 制限	同時タスク数
テキストから画像へ	wan2.6-t2i	5	5
	wan2.5-t2i-preview
	wan2.2-t2i-flash	2	2
	wan2.2-t2i-plus
	wan2.1-t2i-turbo
	wan2.1-t2i-plus
画像編集	wan2.5-i2i-preview	5	5
画像生成	wan2.6-image	5	5

中国本土

「中国本土デプロイメントモード」では、エンドポイントおよびデータストレージは 中国 (北京) リージョン に配置されます。推論用コンピューティングリソースは、中国本土内に限定されます。

サービス	モデル	レート制限（いずれかの値を超えるとトリガー）
サービス	モデル	タスク送信 RPS 制限	同時実行タスク
テキストから画像へ	wan2.6-t2i	1	5
	wan2.5-t2i-preview	5	5
	wanx2.0-t2i-turbo	2	2
	wanx2.1-t2i-turbo
	wanx2.1-t2i-plus
	wan2.2-t2i-flash
	wan2.2-t2i-plus
一般的な画像編集	wan2.5-i2i-preview	5	5
一般的な画像編集	wanx2.1-imageedit	2	2
画像生成	wan2.6-image	5	5

OutfitAnyone

説明

サポートされているのは中国本土デプロイメントモードのみです。このモードでは、エンドポイントおよびデータストレージは 中国 (北京) リージョン に配置され、推論用コンピューティングリソースは中国本土内に限定されます。

モデル	レート制限（いずれかの値を超えるとトリガー）
モデル	タスク送信 RPS 制限	同時タスク数
aitryon-plus	10	5
aitryon-parsing-v1	10	同期 API には制限なし

ビデオ生成

Wan

グローバル

「グローバルデプロイメントモード」では、エンドポイントおよびデータストレージは 米国 (バージニア) リージョン に配置されます。推論用コンピューティングリソースは、世界規模で動的にスケジュールされます。

サービス	モデル	レート制限（いずれかの値を超えるとトリガー）
		タスク送信 RPS 制限	同時実行タスク
テキストからビデオへ	wan2.6-t2v	5	5
画像からビデオへ - 最初のフレーム	wan2.6-i2v
動画への参照	wan2.6-r2v

インターナショナル

「インターナショナルデプロイメントモード」では、エンドポイントおよびデータストレージは シンガポールリージョン に配置されます。推論用コンピューティングリソースは、中国本土を除く世界規模で動的にスケジュールされます。

サービス	モデル	レート制限（いずれかの値を超えるとトリガー）
		タスク送信 RPS 制限	同時タスク数
テキストから画像へ	wan2.6-t2v	5	5
	wan2.5-t2v-preview
	wan2.2-t2v-plus	2	2
	wan2.1-t2v-turbo
	wan2.1-t2v-plus
画像からビデオへ - 最初のフレーム	wan2.6-i2v-flash	5	5
	wan2.6-i2v
	wan2.5-i2v-preview
	wan2.2-i2v-flash	2	2
	wan2.1-i2v-plus
	wan2.1-i2v-turbo
	wan2.2-i2v-plus
画像からビデオへ - 最初と最後のフレーム	wan2.2-kf2v-flash
	wan2.1-kf2v-plus	1
一般的なビデオ編集	wan2.1-vace-plus	2
動画への参照	wan2.6-r2v-flash	5	5
	wan2.6-r2v	5	5
画像をアニメーション化	wan2.2-animate-move	5	1
ビデオキャラクターの入れ替え	wan2.2-animate-mix	5	1

米国

「米国デプロイメントモード」では、エンドポイントおよびデータストレージは 米国 (バージニア) リージョン に配置されます。推論用コンピューティングリソースは、米国内に限定されます。

サービス	モデル	レート制限（いずれかの値を超えるとトリガー）
		タスク送信 RPS 制限	同時実行タスク
テキストからビデオへ	wan2.6-t2v-us	5	5
画像からビデオへ - 最初のフレーム	wan2.6-i2v-us

中国本土

「中国本土デプロイメントモード」では、エンドポイントおよびデータストレージは 中国 (北京) リージョン に配置されます。推論用コンピューティングリソースは、中国本土内に限定されます。

サービス	モデル	レート制限（いずれかの値を超えるとトリガー）
		タスク送信 RPS 制限	並行タスク
テキストからビデオへ	wan2.6-t2v	5	5
	wan2.5-t2v-preview
	wan2.2-t2v-plus	2	2
	wanx2.1-t2v-turbo
	wanx2.1-t2v-plus
画像からビデオへ - 最初のフレーム	wan2.6-i2v-flash	5	5
	wan2.6-i2v
	wan2.5-i2v-preview
	wan2.2-i2v-plus	2	2
	wanx2.1-i2v-turbo
	wanx2.1-i2v-plus
画像からビデオへ - 最初と最後のフレーム	wan2.2-kf2v-flash
	wanx2.1-kf2v-plus
一般的なビデオ編集	wanx2.1-vace-plus
参照からビデオへ	wan2.6-r2v-flash	5	5
	wan2.6-r2v	5	5
デジタルヒューマン	wan2.2-s2v-detect	5	同期 API には制限なし
	wan2.2-s2v		1
画像をアニメーション化	wan2.2-animate-move	5	1
ビデオキャラクターの入れ替え	wan2.2-animate-mix	5	1

AnimateAnyone

説明

サポートされているのは中国本土デプロイメントモードのみです。このモードでは、エンドポイントおよびデータストレージは 中国 (北京) リージョン に配置され、推論用コンピューティングリソースは中国本土内に限定されます。

モデル	タスク送信 RPS 制限	同時タスク数
animate-anyone-detect-gen2	5	同期 API には制限なし
animate-anyone-template-gen2		1 一度に実行されるタスクは 1 つのみです。他のタスクは保留中です。
animate-anyone-gen2		1 一度に実行されるタスクは 1 つのみです。他のタスクは保留中です。

EMO

説明

サポートされているのは中国本土デプロイメントモードのみです。このモードでは、エンドポイントおよびデータストレージは 中国 (北京) リージョン に配置され、推論用コンピューティングリソースは中国本土内に限定されます。

モデル

タスク送信 RPS 制限

同時実行タスク

emo-detect-v1

5

同期 API には制限なし

emo-v1

1

一度に実行されるタスクは 1 つのみです。他のタスクは保留中です。

LivePortrait

説明

サポートされているのは中国本土デプロイメントモードのみです。このモードでは、エンドポイントおよびデータストレージは 中国 (北京) リージョン に配置され、推論用コンピューティングリソースは中国本土内に限定されます。

モデル

タスク送信 RPS 制限

同時タスク数

liveportrait-detect

5

同期 API には制限なし

liveportrait

1

一度に実行されるタスクは 1 つのみです。他のタスクは保留中です。

VideoRetalk

説明

サポートされているのは中国本土デプロイメントモードのみです。このモードでは、エンドポイントおよびデータストレージは 中国 (北京) リージョン に配置され、推論用コンピューティングリソースは中国本土内に限定されます。

モデル

タスク送信 RPS 制限

同時タスク数

videoretalk

1

一度に実行されるタスクは 1 つのみです。他のタスクは保留中です。

Emoji

説明

サポートされているのは中国本土デプロイメントモードのみです。このモードでは、エンドポイントおよびデータストレージは 中国 (北京) リージョン に配置され、推論用コンピューティングリソースは中国本土内に限定されます。

モデル

タスク送信 RPS 制限

並行タスク

emoji-detect-v1

1

同期 API には制限なし

emoji-v1

1

一度に実行されるタスクは 1 つのみです。他のタスクは保留中です。

ビデオスタイルの変換

説明

サポートされているのは中国本土デプロイメントモードのみです。このモードでは、エンドポイントおよびデータストレージは 中国 (北京) リージョン に配置され、推論用コンピューティングリソースは中国本土内に限定されます。

モデル

タスク送信 RPS 制限

同時実行タスク

video-style-transform

2

1

一度に実行されるタスクは 1 つのみです。他のタスクは保留中です。

音声合成（テキストから音声へ）

Qwen 音声合成

インターナショナル

「インターナショナルデプロイメントモード」では、エンドポイントとデータストレージは両方とも シンガポールリージョン に配置されます。モデル推論コンピューティングリソースは、グローバルに（中国本土を除く）動的にスケジュールされます。

Qwen3-TTS-Instruct-Flash

モデル名	1 分あたりのリクエスト数 (RPM)
qwen3-tts-instruct-flash	180
qwen3-tts-instruct-flash-2026-01-26	180

Qwen3-TTS-VD

モデル名	1 分あたりのリクエスト数 (RPM)
qwen3-tts-vd-2026-01-26	180

Qwen3-TTS-VC

モデル名	1 分あたりのリクエスト数 (RPM)
qwen3-tts-vc-2026-01-22	180

Qwen3-TTS-Flash

モデル名	1 分あたりのリクエスト数 (RPM)
qwen3-tts-flash	180
qwen3-tts-flash-2025-11-27	180
qwen3-tts-flash-2025-09-18	10

中国本土

「中国本土デプロイメントモード」では、エンドポイントとデータストレージは両方とも 中国 (北京) リージョン に配置されます。モデル推論コンピューティングリソースは、中国本土内に限定されます。

Qwen3-TTS-Instruct-Flash

モデル名	1 分あたりのリクエスト数 (RPM)
qwen3-tts-instruct-flash	180
qwen3-tts-instruct-flash-2026-01-26	180

Qwen3-TTS-VD

モデル名	1 分あたりのリクエスト数 (RPM)
qwen3-tts-vd-2026-01-26	180

Qwen3-TTS-VC

モデル名	1 分あたりのリクエスト数 (RPM)
qwen3-tts-vc-2026-01-22	180

Qwen3-TTS-Flash

モデル名	1 分あたりのリクエスト数 (RPM)
qwen3-tts-flash	180
qwen3-tts-flash-2025-11-27	180
qwen3-tts-flash-2025-09-18	10

Qwen-TTS

モデル名	スロットリング条件（いずれかの値を超えるとトリガー）以下は 1 分あたりの制限です。サービスは、1 秒あたりの制限も適用する場合があります。RPS = RPM/60、TPS = TPM/60 です。
	1 分あたりのリクエスト数 (RPM)	1 分あたりのトークン数 (TPM) 入力トークンおよび出力トークンを含む
qwen-tts	10	100,000
qwen-tts-latest
qwen-tts-2025-05-22
qwen-tts-2025-04-10

Qwen リアルタイム音声合成

インターナショナル

「インターナショナルデプロイメントモード」では、エンドポイントとデータストレージは両方とも シンガポールリージョン に配置されます。モデル推論コンピューティングリソースは、グローバルに（中国本土を除く）動的にスケジュールされます。

Qwen3-TTS-Instruct-Flash-Realtime

モデル名	1 分あたりのリクエスト数 (RPM)
qwen3-tts-instruct-flash-realtime	180
qwen3-tts-instruct-flash-realtime-2026-01-22	180

Qwen3-TTS-VD-Realtime

モデル名	1 分あたりのリクエスト数 (RPM)
qwen3-tts-vd-realtime-2026-01-15	180
qwen3-tts-vd-realtime-2025-12-16	180

Qwen3-TTS-VC-Realtime

モデル名	1 分あたりのリクエスト数 (RPM)
qwen3-tts-vc-realtime-2026-01-15	180
qwen3-tts-vc-realtime-2025-11-27	180

Qwen3-TTS-Flash-Realtime

モデル名	1 分あたりのリクエスト数 (RPM)
qwen3-tts-flash-realtime	180
qwen3-tts-flash-realtime-2025-11-27	180
qwen3-tts-flash-realtime-2025-09-18	10

中国本土

「中国本土デプロイメントモード」では、エンドポイントとデータストレージは両方とも 中国 (北京) リージョン に配置されます。モデル推論コンピューティングリソースは、中国本土内に限定されます。

Qwen3-TTS-Instruct-Flash-Realtime

モデル名	1 分あたりのリクエスト数 (RPM)
qwen3-tts-instruct-flash-realtime	180
qwen3-tts-instruct-flash-realtime-2026-01-22	180

Qwen3-TTS-VD-Realtime

モデル名	1 分あたりのリクエスト数 (RPM)
qwen3-tts-vd-realtime-2026-01-15	180
qwen3-tts-vd-realtime-2025-12-16	180

Qwen3-TTS-VC-Realtime

モデル名	1 分あたりのリクエスト数 (RPM)
qwen3-tts-vc-realtime-2026-01-15	180
qwen3-tts-vc-realtime-2025-11-27	180

Qwen3-TTS-Flash-Realtime

モデル名	1 分あたりのリクエスト数 (RPM)
qwen3-tts-flash-realtime	180
qwen3-tts-flash-realtime-2025-11-27	180
qwen3-tts-flash-realtime-2025-09-18	10

Qwen-TTS-Realtime

モデル名	スロットリング条件（いずれかの値を超えるとトリガー）以下は 1 分あたりの制限です。サービスは、1 秒あたりの制限も適用する場合があります。RPS = RPM/60、TPS = TPM/60 です。
	1 分あたりのリクエスト数 (RPM)	1 分あたりのトークン数 (TPM) 入力トークンおよび出力トークンを含む
qwen-tts-realtime	10	100,000
qwen-tts-realtime-latest
qwen-tts-realtime-2025-07-15

Qwen 音声クローン

インターナショナル

「インターナショナルデプロイメントモード」では、エンドポイントとデータストレージは両方とも シンガポールリージョン に配置されます。モデル推論コンピューティングリソースは、グローバルに（中国本土を除く）動的にスケジュールされます。

モデル名	1 分あたりのリクエスト数 (RPM)
qwen-voice-enrollment	180

中国本土

「中国本土デプロイメントモード」では、エンドポイントとデータストレージは両方とも 中国 (北京) リージョン に配置されます。モデル推論コンピューティングリソースは、中国本土内に限定されます。

モデル名	1 分あたりのリクエスト数 (RPM)
qwen-voice-enrollment	180

Qwen 音声デザイン

インターナショナル

「インターナショナルデプロイメントモード」では、エンドポイントとデータストレージは両方とも シンガポールリージョン に配置されます。モデル推論コンピューティングリソースは、グローバルに（中国本土を除く）動的にスケジュールされます。

モデル名	1 分あたりのリクエスト数 (RPM)
qwen-voice-design	180

中国本土

「中国本土デプロイメントモード」では、エンドポイントとデータストレージは両方とも 中国 (北京) リージョン に配置されます。モデル推論コンピューティングリソースは、中国本土内に限定されます。

モデル名	1 分あたりのリクエスト数 (RPM)
qwen-voice-design	180

CosyVoice 音声合成

インターナショナル

「インターナショナルデプロイメントモード」では、エンドポイントとデータストレージは両方とも シンガポールリージョン に配置されます。モデル推論コンピューティングリソースは、グローバルに（中国本土を除く）動的にスケジュールされます。

音声合成

モデル名	ジョブ送信 API の RPS 制限
cosyvoice-v3-plus	3
cosyvoice-v3-flash	3

音声クローン

モデル名

ジョブ送信 API の RPS 制限

cosyvoice-v3-plus

10

音声クローン機能には、すべてのモデルバージョンで合計 10 RPS の同時リクエスト制限があります。これは、次のことを意味します：

v2 のみを呼び出す場合、最大同時リクエスト制限は 10 RPS です。
v2 と v3 の両方を呼び出す場合、それらの合計リクエストは 10 RPS を超えることはできません。たとえば、v2 が 7 RPS を使用する場合、v3 は最大 3 RPS を使用できます。

cosyvoice-v3-flash

中国本土

「中国本土デプロイメントモード」では、エンドポイントとデータストレージは両方とも 中国 (北京) リージョン に配置されます。モデル推論コンピューティングリソースは、中国本土内に限定されます。

音声合成

モデル名	ジョブ送信 API の RPS 制限
cosyvoice-v3-plus	3
cosyvoice-v3-flash
cosyvoice-v2

音声クローン

モデル名	ジョブ送信 API の RPS 制限
cosyvoice-v3-plus	10 音声クローン機能には、すべてのモデルバージョンで合計 10 RPS の同時リクエスト制限があります。これは、次のことを意味します： v2 のみを呼び出す場合、最大同時リクエスト制限は 10 RPS です。 v2 と v3 の両方を呼び出す場合、それらの合計リクエストは 10 RPS を超えることはできません。たとえば、v2 が 7 RPS を使用する場合、v3 は最大 3 RPS を使用できます。
cosyvoice-v3-flash
cosyvoice-v2

音声認識（音声からテキストへ）と翻訳（音声から翻訳へ）

Qwen3-LiveTranslate-Flash

インターナショナル

「インターナショナルデプロイメントモード」では、エンドポイントとデータストレージは シンガポールリージョン に配置されます。モデル推論コンピューティングリソースは、グローバルに（中国本土を除く）動的にスケジュールされます。

モデル名	スロットリング条件（いずれかの値を超えるとトリガー）以下は 1 分あたりの制限です。サービスは、1 秒あたりの制限も適用する場合があります。RPS = RPM/60、TPS = TPM/60 です。
	1 分あたりのリクエスト数 (RPM)	1 分あたりのトークン数 (TPM) 入力トークンおよび出力トークンを含む
qwen3-livetranslate-flash	100	100,000
qwen3-livetranslate-flash-2025-12-01

中国本土

「中国本土デプロイメントモード」では、エンドポイントとデータストレージは 中国 (北京) リージョン に配置されます。モデル推論コンピューティングリソースは、中国本土内に限定されます。

モデル名	スロットリング条件（いずれかの値を超えるとトリガー）以下は 1 分あたりの制限です。サービスは、1 秒あたりの制限も適用する場合があります。RPS = RPM/60、TPS = TPM/60 です。
	1 分あたりのリクエスト数 (RPM)	1 分あたりのトークン数 (TPM) 入力トークンおよび出力トークンを含む
qwen3-livetranslate-flash	100	100,000
qwen3-livetranslate-flash-2025-12-01

Qwen3-LiveTranslate-Flash-Realtime

インターナショナル

「インターナショナルデプロイメントモード」では、エンドポイントとデータストレージは シンガポールリージョン に配置されます。モデル推論コンピューティングリソースは、グローバルに（中国本土を除く）動的にスケジュールされます。

モデル名	スロットリング条件（いずれかの値を超えるとトリガー）以下は 1 分あたりの制限です。サービスは、1 秒あたりの制限も適用する場合があります。RPS = RPM/60、TPS = TPM/60 です。
	1 分あたりのリクエスト数 (RPM)	1 分あたりのトークン数 (TPM) 入力トークンおよび出力トークンを含む
qwen3-livetranslate-flash-realtime	10	100,000
qwen3-livetranslate-flash-realtime-2025-09-22

中国本土

「中国本土デプロイメントモード」では、エンドポイントとデータストレージは 中国 (北京) リージョン に配置されます。モデル推論コンピューティングリソースは、中国本土内に限定されます。

モデル名	スロットリング条件（いずれかの値を超えるとトリガー）以下は 1 分あたりの制限です。サービスは、1 秒あたりの制限も適用する場合があります。RPS = RPM/60、TPS = TPM/60 です。
	1 分あたりのリクエスト数 (RPM)	1 分あたりのトークン数 (TPM) 入力トークンおよび出力トークンを含む
qwen3-livetranslate-flash-realtime	10	100,000
qwen3-livetranslate-flash-realtime-2025-09-22

Qwen 音声ファイル認識

インターナショナル

「インターナショナルデプロイメントモード」では、エンドポイントとデータストレージは シンガポールリージョン に配置されます。モデル推論コンピューティングリソースは、グローバルに（中国本土を除く）動的にスケジュールされます。

Qwen3-ASR-Flash-Filetrans

モデル名	1 分あたりのリクエスト数 (RPM)
qwen3-asr-flash-filetrans	100
qwen3-asr-flash-filetrans-2025-11-17	100

Qwen 3-ASR-Flash

モデル名	1 分あたりのリクエスト数 (RPM)
qwen3-asr-flash	100
qwen3-asr-flash-2025-09-08	100

米国

「米国デプロイメントモード」では、エンドポイントとデータストレージは 米国 (バージニア) リージョン に配置されます。モデル推論コンピューティングリソースは、米国内に限定されます。

モデル名	1 分あたりのリクエスト数 (RPM)
qwen3-asr-flash-us	100
qwen3-asr-flash-2025-09-08-us	100

中国本土

「中国本土デプロイメントモード」では、エンドポイントとデータストレージは 中国 (北京) リージョン に配置されます。モデル推論コンピューティングリソースは、中国本土内に限定されます。

Qwen3-ASR-Flash-Filetrans

モデル名	1 分あたりのリクエスト数 (RPM)
qwen3-asr-flash-filetrans	100
qwen3-asr-flash-filetrans-2025-11-17	100

Qwen3-ASR-Flash

モデル名	1 分あたりのリクエスト数 (RPM)
qwen3-asr-flash	100
qwen3-asr-flash-2025-09-08	100

Qwen リアルタイム音声認識

インターナショナル

「インターナショナルデプロイメントモード」では、エンドポイントとデータストレージは シンガポールリージョン に配置されます。モデル推論コンピューティングリソースは、グローバルに（中国本土を除く）動的にスケジュールされます。

モデル名	1 秒あたりのリクエスト数 (RPS)
qwen3-asr-flash-realtime	20
qwen3-asr-flash-realtime-2026-02-10
qwen3-asr-flash-realtime-2025-10-27

中国本土

「中国本土デプロイメントモード」では、エンドポイントとデータストレージは 中国 (北京) リージョン に配置されます。モデル推論コンピューティングリソースは、中国本土内に限定されます。

モデル名	1 秒あたりのリクエスト数 (RPS)
qwen3-asr-flash-realtime	20
qwen3-asr-flash-realtime-2026-02-10
qwen3-asr-flash-realtime-2025-10-27

Paraformer 音声認識

説明

サポートされているのは中国本土デプロイメントモードのみです。このモードでは、エンドポイントおよびデータストレージは 中国 (北京) リージョン に配置され、推論用コンピューティングリソースは中国本土内に限定されます。

モデル名	ジョブ送信 API の RPS 制限
paraformer-realtime-v2	20
paraformer-realtime-8k-v2	20

モデル名	ジョブ送信 API の RPS 制限	タスククエリ API の RPS 制限
paraformer-v2	20	20
paraformer-8k-v2	20	20

Fun-ASR 音声ファイル認識

インターナショナル

「インターナショナルデプロイメントモード」では、エンドポイントとデータストレージは シンガポールリージョン に配置されます。モデル推論コンピューティングリソースは、グローバルに（中国本土を除く）動的にスケジュールされます。

モデル名	ジョブ送信 API の RPS 制限	タスククエリ API の RPS 制限
fun-asr	10	20
fun-asr-2025-11-07
fun-asr-2025-08-25

モデル名	ジョブ送信 API の RPM 制限	タスククエリ API の RPS 制限
fun-asr-mtl	100	20
fun-asr-mtl-2025-08-25	100	20

中国本土

「中国本土デプロイメントモード」では、エンドポイントとデータストレージは 中国 (北京) リージョン に配置されます。モデル推論コンピューティングリソースは、中国本土内に限定されます。

モデル名	ジョブ送信 API の RPS 制限	タスククエリ API の RPS 制限
fun-asr	10	20
fun-asr-2025-11-07
fun-asr-2025-08-25
fun-asr-mtl
fun-asr-mtl-2025-08-25

Fun-ASR リアルタイム音声認識

インターナショナル

「インターナショナルデプロイメントモード」では、エンドポイントとデータストレージは シンガポールリージョン に配置されます。モデル推論コンピューティングリソースは、グローバルに（中国本土を除く）動的にスケジュールされます。

モデル名	ジョブ送信 API の RPS 制限
fun-asr-realtime	20
fun-asr-realtime-2025-11-07	20

中国本土

「中国本土デプロイメントモード」では、エンドポイントとデータストレージは 中国 (北京) リージョン に配置されます。モデル推論コンピューティングリソースは、中国本土内に限定されます。

モデル名	ジョブ送信 API の RPS 制限
fun-asr-realtime	20
fun-asr-realtime-2025-11-07
fun-asr-realtime-2025-09-15
fun-asr-flash-8k-realtime
fun-asr-flash-8k-realtime-2026-01-28

テキスト埋め込み

インターナショナル

「インターナショナルデプロイメントモード」では、エンドポイントとデータストレージは シンガポールリージョン に配置されます。推論用コンピューティングリソースは、中国本土を除く世界規模で動的にスケジュールされます。

モデル	レート制限（いずれかの値を超えるとトリガー）以下は 1 分あたりの制限です。サービスは、RPS（RPM/60）および TPS（TPM/60）に基づく制限も適用する場合があります。
モデル	RPM	TPM/タスク数入力トークンおよび出力トークンを含む
text-embedding-v4	1,800	1,000,000
text-embedding-v3	6,000	24,000,000

中国本土

「中国本土デプロイメントモード」では、エンドポイントとデータストレージは 中国 (北京) リージョン に配置されます。推論用コンピューティングリソースは、中国本土内に限定されます。

モデル

レート制限（いずれかの値を超えるとトリガー）

RPS

TPM/タスク数

入力トークンおよび出力トークンを含む

text-embedding-v4

30

1,200,000

マルチモーダル埋め込み

説明

サポートされているのは中国本土デプロイメントモードのみです。このモードでは、エンドポイントとデータストレージは 中国 (北京) リージョン に配置され、推論用コンピューティングリソースは中国本土内に限定されます。

モデル	レート制限以下は 1 分あたりの制限です。サービスは、RPS（RPM/60）および TPS（TPM/60）に基づく制限も適用する場合があります。
モデル	RPM	TPM 入力トークンのみ
qwen3-vl-embedding	1,200	600,000
multimodal-embedding-v1	120	200,000

テキストの再ランク付け

説明

サポートされているのは中国本土デプロイメントモードのみです。このモードでは、エンドポイントとデータストレージは 中国 (北京) リージョン に配置され、推論用コンピューティングリソースは中国本土内に限定されます。

モデル

レート制限（いずれかの値を超えるとトリガー）

以下は 1 分あたりの制限です。サービスは、RPS（RPM/60）および TPS（TPM/60）に基づく制限も適用する場合があります。

RPM

TPM

入力トークンおよび出力トークンを含む

gte-rerank-v2

5,040

4,980,000,000

ドメイン固有

意図認識

説明

サポートされているのは中国本土デプロイメントモードのみです。このモードでは、エンドポイントとデータストレージは 中国 (北京) リージョン に配置され、推論用コンピューティングリソースは中国本土内に限定されます。

モデル

レート制限（いずれかの値を超えるとトリガー）

以下は 1 分あたりの制限です。サービスは、RPS（RPM/60）および TPS（TPM/60）に基づく制限も適用する場合があります。

RPM

TPM

入力トークンおよび出力トークンを含む

tongyi-intent-detect-v3

1,200

1,000,000

ロールプレイング

インターナショナル

「インターナショナルデプロイメントモード」では、エンドポイントとデータストレージは シンガポールリージョン に配置されます。推論用コンピューティングリソースは、中国本土を除く世界規模で動的にスケジュールされます。

モデル

レート制限（いずれかの値を超えるとトリガー）

以下は 1 分あたりの制限です。サービスは、RPS（RPM/60）および TPS（TPM/60）に基づく制限も適用する場合があります。

RPM

TPM

入力トークンおよび出力トークンを含む

qwen-plus-character-ja

120

500,000

中国本土

「中国本土デプロイメントモード」では、エンドポイントとデータストレージは 中国 (北京) リージョン に配置されます。推論用コンピューティングリソースは、中国本土内に限定されます。

モデル

レート制限（いずれかの値を超えるとトリガー）

以下は 1 分あたりの制限です。サービスは、RPS（RPM/60）および TPS（TPM/60）に基づく制限も適用する場合があります。

RPM

TPM

入力トークンおよび出力トークンを含む

qwen-plus-character

120

500,000

廃止されたモデル

「モデルの非公開メカニズム」をご参照ください。

2026 年 1 月 30 日に廃止

カテゴリ	モデル	レート制限（いずれかの値を超えるとトリガー）
		RPM	TPM 入力トークンおよび出力トークンを含む
Qwen-Plus	qwen-plus-2024-11-27	0	0
	qwen-plus-2024-11-25
	qwen-plus-2024-09-19
	qwen-plus-2024-08-06
Qwen-Turbo	qwen-turbo-2024-09-19
Qwen-VL	qwen-vl-max-2024-10-30
	qwen-vl-max-2024-08-09
	qwen-vl-plus-2024-08-09

2025 年 8 月 20 日に廃止

カテゴリ	モデル	レート制限（いずれかの値を超えるとトリガー）
		RPM	TPM 入力トークンおよび出力トークンを含む
テキスト生成 - Qwen	qwen2-72b-instruct	0	0
	qwen2-57b-a14b-instruct
	qwen2-7b-instruct
	qwen1.5-110b-chat
	qwen1.5-72b-chat
	qwen1.5-32b-chat
	qwen1.5-14b-chat
	qwen1.5-7b-chat

ルール

よくある質問

レート制限がトリガーされる原因

モデルの呼び出し使用状況の確認方法

レート制限がトリガーされた後、回復するまでの時間

レート制限を回避する方法

テキスト生成 - Qwen

Qwen 言語モデル

グローバル

インターナショナル

米国

中国本土

Qwen-VL（視覚理解／画像からテキストへ）

グローバル

インターナショナル

米国

中国本土

Qwen-Omni（マルチモダリティ）

インターナショナル

中国本土

Qwen-Omni-Realtime（リアルタイムマルチモダリティ）

インターナショナル

中国本土

Qwen-OCR（テキスト抽出）

グローバル

インターナショナル

中国本土

Qwen-Math

Qwen-Coder

グローバル

インターナショナル

中国本土

Qwen-MT

グローバル

インターナショナル

中国本土

Qwen-Doc

Qwen-Deep-Research

テキスト生成 - Qwen - オープンソース

オープンソースの Qwen 言語モデル

グローバル

インターナショナル

中国本土

Qwen-VL（視覚理解／画像からテキストへ）

インターナショナル

中国本土

Qwen3-Omni

インターナショナル

中国本土

Qwen3-Omni-Captioner

インターナショナル

中国本土

Qwen-Math

Qwen-Coder

グローバル

インターナショナル

中国本土

テキスト生成 - サードパーティ

DeepSeek

Kimi

GLM

画像生成

Qwen-Image

インターナショナル

中国本土

テキストから画像へ - Z-Image

インターナショナル

中国本土

Wan

グローバル

インターナショナル

中国本土

OutfitAnyone

ビデオ生成

Wan

グローバル

インターナショナル

米国

中国本土

AnimateAnyone