Models - Alibaba Cloud Model Studio - Alibaba Cloud ドキュメントセンター

フラッグシップモデル

国際 (シンガポール)

フラッグシップモデル	Qwen-Max 複雑なタスクに最適です。最も強力なモデルです。	Qwen-Plus パフォーマンス、速度、コストのバランスが取れています。	Qwen-Flash 単純なジョブに最適です。高速かつ低コストです。	Qwen-Coder ツールの呼び出しと環境との対話に優れた、卓越したコードモデルです。
最大コンテキストウィンドウ (トークン)	262,144	1,000,000	1,000,000	1,000,000
最小入力価格 (100 万トークン)	$1.2	$0.4	$0.05	$0.3
最小出力価格 (100 万トークン)	$6	$1.2	$0.4	$1.5

中国 (北京)

フラッグシップモデル	Qwen-Max 複雑なタスクに最適です。最も強力なモデルです。	Qwen-Plus パフォーマンス、速度、コストのバランスが取れています。	Qwen-Flash 単純なジョブに最適です。高速かつ低コストです。	Qwen-Coder ツールの呼び出しと環境との対話に優れた、卓越したコードモデルです。
最大コンテキストウィンドウ (トークン)	262,144	1,000,000	1,000,000	1,000,000
最小入力価格 (100 万トークン)	$0.459	$0.115	$0.022	$0.144
最小出力価格 (100 万トークン)	$1.836	$0.287	$0.216	$0.574

モデル概要

国際 (シンガポール)

カテゴリ	サブカテゴリ	説明
テキスト生成	汎用大規模言語モデル	Qwen 大規模言語モデル：商用モデル (Qwen-Max、Qwen-Plus、Qwen-Flash)、オープンソースモデル (Qwen3、Qwen2.5)
	マルチモーダルモデル	視覚理解モデル Qwen-VL、視覚推論モデル QVQ、オムニモーダルモデル Qwen-Omni、およびリアルタイムマルチモーダルモデル Qwen-Omni-Realtime
	特定分野向けモデル	コーダーモデル、翻訳モデル、ロールプレイングモデル
画像生成	テキストからの画像生成	Qwen テキストからの画像生成：複雑なテキスト、特に中国語と英語のレンダリングに優れています。 Wan テキストからの画像生成：一文で精巧な画像を生成します。
画像生成	画像編集	Qwen 画像編集：中国語と英語のプロンプトをサポートし、スタイル転送、テキスト修正、オブジェクト編集などの複雑な画像およびテキスト編集操作を実行できます。 Wan 画像編集：画像を生成または編集します。この機能は、証明写真、E コマースのメイン画像、モデル写真、さまざまなスタイル (漫画、中国風、アニメなど) のポートレートの作成に適しています。また、画像切り抜き、背景生成、画像要素の変更などにも使用できます。
音声合成と認識	音声合成 (テキスト読み上げ)	Qwen 音声合成およびQwen リアルタイム音声合成は、インテリジェント音声カスタマーサービス、オーディオブック、車載ナビゲーション、教育指導などのシナリオでテキスト読み上げに使用できます。
音声合成と認識	音声認識・翻訳	Qwen リアルタイム音声認識、Qwen 音声ファイル認識、Qwen3-LiveTranslate-Flash-Realtime、およびFun-ASR 音声認識は、リアルタイム会議記録、リアルタイムライブストリーム字幕、電話カスタマーサービスなどのシナリオで音声テキスト変換を実行できます。
動画生成	テキストからの動画生成	一文で豊かなスタイルの高品質な動画を生成します。
	画像からの動画生成	最初のフレームからの動画生成：入力画像を最初のフレームとして使用し、プロンプトに基づいて動画を生成します。最初と最後のフレームからの動画生成：提供された最初と最後のフレームおよびプロンプトに基づいて、スムーズでダイナミックな動画を生成します。複数画像からの動画生成：1 つ以上の入力画像のエンティティまたは背景を参照し、プロンプトと組み合わせて動画を生成します。
	汎用動画編集	汎用動画編集：入力テキスト、画像、動画に基づいてさまざまな動画編集タスクを実行します。たとえば、入力動画からモーション特徴を抽出し、プロンプトと組み合わせて新しい動画を生成できます。
埋め込み	テキスト埋め込み	テキストを、そのテキストを表す数値のセットに変換します。検索、クラスタリング、推奨、分類タスクに適しています。

中国 (北京)

カテゴリ	サブカテゴリ	説明
テキスト生成	汎用大規模言語モデル	Qwen 大規模言語モデル：商用版 (Qwen-Max、Qwen-Plus、およびQwen-Flash) およびオープンソース版 (Qwen3 および Qwen2.5) サードパーティモデル：DeepSeek、Kimi
	マルチモーダルモデル	視覚理解モデル Qwen-VL、視覚推論モデル QVQ、およびオムニモーダルモデル Qwen-Omni
	特定分野向けモデル	コードモデル、数学モデル、翻訳モデル、データマイニングモデル、研究モデル、意図認識モデル、ロールプレイングモデル
画像生成	テキストからの画像生成	Qwen テキストからの画像生成：複雑なテキスト、特に中国語と英語のテキストのレンダリングに優れています。 Wan テキストからの画像生成：証明写真、E コマースのメイン画像、モデル写真、さまざまなスタイル (漫画、中国風、アニメ風など) のポートレートの生成に適しています。
画像生成	画像編集	汎用モデル： Qwen 画像編集：中国語と英語のプロンプトをサポートし、スタイル転送、テキスト修正、オブジェクト編集などの複雑な画像およびテキスト編集操作を実行できます。 Wan 画像編集：画像を生成または編集します。証明写真、E コマースのメイン画像、モデル写真、さまざまなスタイル (漫画、中国風、アニメなど) のポートレートを作成できます。また、背景の削除、背景の生成、画像要素の変更も可能です。その他のモデル：Qwen 画像翻訳、OutfitAnyone
音声合成と認識	音声合成 (テキスト読み上げ)	Qwen 音声合成、Qwen リアルタイム音声合成、およびCosyVoice 音声合成は、音声ベースのカスタマーサービス、オーディオブック、車載ナビゲーション、教育指導などのシナリオでテキストを音声に変換します。
音声合成と認識	音声認識・翻訳	Qwen リアルタイム音声認識、Qwen 音声ファイル認識、Fun-ASR 音声認識、およびParaformer 音声認識は、リアルタイム会議の文字起こし、リアルタイムライブストリームの字幕、カスタマーサービスの通話などのシナリオで音声をテキストに変換します。
ビデオ編集と生成	テキストからの動画生成	一文で豊かなスタイルの高品質な動画を生成します。
	画像からの動画生成	最初のフレームからの動画生成：最初の画像とプロンプトから動画を生成します。最初と最後のフレームからの動画生成：最初と最後のフレーム画像とプロンプトに基づいて、自然なトランジションを持つ動画を生成します。複数画像からの動画生成：ソース画像内のエンティティまたは背景に基づいて、1 つ以上の画像とテキストプロンプトから動画を生成します。ダンス動画生成：AnimateAnyone は、キャラクター画像とアクション動画からダンス動画を生成します。画像 + 音声からリップシンク動画を生成 Wan-digital human は、人物の画像と音声から動画を生成します。全身、半身、ポートレートなど、さまざまなフレームサイズをサポートし、歌唱やパフォーマンスなどのシナリオに適した、広範囲で自然な動きを提供します。 EMO は、人物の画像と音声を使用して、表現力豊かなリップシンクと顔の表情を持つ動画を生成します。ポートレートと半身ショットをサポートし、クローズアップのシナリオに最適です。 LivePortrait は、ポートレート画像と音声ファイルを使用し、ナレーションのシナリオに最適です。顔文字動画生成：Emoji は、顔画像とプリセットされた動的な顔テンプレートから顔文字動画を生成します。
	汎用動画編集	汎用動画編集：テキストプロンプト、画像、動画に基づいてさまざまな動画編集タスクを実行します。たとえば、入力動画からモーション特徴を抽出し、テキストプロンプトと組み合わせて新しい動画を生成できます。動画リップシンク：VideoRetalk は、人物の動画と音声を使用し、ショート動画制作や動画翻訳などのシナリオに最適です。動画スタイル転送：Video Style Repainting は、動画を日本の漫画やアメリカンコミックなど、さまざまなスタイルに変換します。
埋め込み	テキスト埋め込み	テキストを、そのテキストを表す数値のセットに変換します。検索、クラスタリング、推奨、分類に使用されます。
埋め込み	マルチモーダル埋め込み	テキスト、画像、音声を数値のセットに変換します。音声・動画分類、画像分類、画像・テキスト検索に使用されます。

テキスト生成 - Qwen

以下は Qwen の商用モデルです。オープンソース版と比較して、商用モデルは最新の機能と改善を提供します。

商用モデルのパラメーターサイズは公開されていません。

各モデルは定期的に更新されます。固定バージョンを使用するには、スナップショットバージョンを選択できます。スナップショットバージョンは通常、次のスナップショットバージョンがリリースされてから 1 か月間維持されます。

より緩やかなレート制限条件のために、安定版または最新版を使用することを推奨します。

Qwen-Max

Qwen シリーズで最もパフォーマンスの高いモデルで、複雑で多段階のタスクに適しています。使用方法 | API リファレンス | オンラインで試す

国際 (シンガポール)

モデル	バージョン	モード	コンテキストウィンドウ	最大入力	最大思考連鎖	最大出力	入力コスト	出力コスト	無料クォータ (注)
			(トークン)				(100 万トークン)
qwen3-max 現在、qwen3-max-2025-09-23 と同じ機能を持ちますバッチ呼び出しは半額です	安定	非思考のみ	262,144	258,048	-	65,536	段階的価格設定、以下の説明をご参照ください。		各 100 万トークンアクティベーション後 90 日間有効
qwen3-max-2025-09-23	スナップショット	非思考のみ
qwen3-max-preview	プレビュー	思考			81,920	32,768
		非思考			-	65,536

上記のモデルの課金は、リクエストごとの入力トークン数に基づいた段階的価格設定です。

リクエストごとの入力トークン	入力価格 (100 万トークン) qwen3-max および qwen3-max-preview はコンテキストキャッシュをサポートしています。	出力価格 (100 万トークン)
0 < トークン ≤ 32K	$1.2	$6
32K < トークン ≤ 128K	$2.4	$12
128K < トークン ≤ 252K	$3	$15

その他のモデル

モデル	バージョン	コンテキストウィンドウ	最大入力	最大出力	入力コスト	出力コスト	無料クォータ (注)
		(トークン)			(100 万トークン)
qwen-max 現在、qwen-max-2025-01-25 と同じ機能を持ちます	安定	32,768	30,720	8,192	$1.6 バッチ呼び出しは半額です。	$6.4 バッチ呼び出しは半額です。	入力と出力それぞれ 100 万トークン Model Studio をアクティベートしてから 90 日間有効です。
qwen-max-latest 常に最新のスナップショットバージョンと同じ機能を持ちます	最新				$1.6	$6.4
qwen-max-2025-01-25 qwen-max-0125 または Qwen2.5-Max	スナップショット

中国本土 (北京)

モデル	バージョン	モード	コンテキストウィンドウ	最大入力	最大思考連鎖	最大出力	入力コスト	出力コスト
			(トークン)				(100 万トークン)
qwen3-max 現在、qwen3-max-2025-09-23 と同じ機能を持ちますバッチ呼び出しは半額です	安定	非思考のみ	262,144	258,048	-	65,536	段階的価格設定、以下の説明をご参照ください。
qwen3-max-2025-09-23	スナップショット	非思考のみ
qwen3-max-preview	プレビュー	思考			81,920	32,768
		非思考			-	65,536

上記のモデルの課金は、リクエストごとの入力トークン数に基づいた段階的価格設定です。

モデル	リクエストごとの入力トークン	入力価格 (100 万トークン)	出力価格 (100 万トークン) 思考連鎖 + 応答
qwen3-max バッチ呼び出しは半額ですコンテキストキャッシュ割引	0 < トークン ≤ 32K	$0.459	$1.836
	32K < トークン ≤ 128K	$0.918	$3.672
	128K < トークン ≤ 252K	$1.377	$5.508
qwen3-max-2025-09-23	0 < トークン ≤ 32K	$0.861	$3.441
	32K < トークン ≤ 128K	$1.434	$5.735
	128K < トークン ≤ 252K	$2.151	$8.602
qwen3-max-preview コンテキストキャッシュ割引	0 < トークン ≤ 32K	$0.861	$3.441
	32K < トークン ≤ 128K	$1.434	$5.735
	128K < トークン ≤ 252K	$2.151	$8.602

その他のモデル

モデル	バージョン	コンテキストウィンドウ	最大入力	最大出力	入力コスト	出力コスト
		(トークン)			(100 万トークン)
qwen-max 現在、qwen-max-2024-09-19 と同じ機能を持ちます	安定	32,768	30,720	8,192	$0.345	$1.377
qwen-max-latest 常に最新のスナップショットバージョンと同じ機能を持ちます	最新	131,072	129,024
qwen-max-2025-01-25 qwen-max-0125 または Qwen2.5-Max	スナップショット
qwen-max-2024-09-19 qwen-max-0919 とも呼ばれます		32,768	30,720		$2.868	$8.602
qwen-max-2024-04-28 qwen-max-0428 とも呼ばれます	スナップショット	8,000	6,000	2,000	CNY 0.04	CNY 0.12
qwen-max-2024-04-03 qwen-max-0403 とも呼ばれます

qwen3-max-preview の思考モードは、全体的な推論能力を大幅に向上させ、エージェントプログラミング、常識推論、数学、科学、および一般的なタスクに優れています。

Qwen-Plus

Qwen-Max と Qwen-Flash の中間のパフォーマンス、コスト、速度を提供するバランスの取れたモデルです。中程度の複雑なタスクに適しています。使用方法 | API リファレンス | オンラインで試す | ディープシンキング

国際 (シンガポール)

モデル

バージョン

コンテキストウィンドウ

最大入力

最大出力

入力コスト

出力コスト

無料クォータ

(注)

(トークン)

(100 万トークン)

qwen-plus

現在、qwen-plus-2025-07-28 と同じ機能を持ちます

Qwen3 シリーズの一部

安定

1,000,000

思考モード

995,904

非思考モード

997,952

デフォルトは 262,144 です。この値は max_input_tokens パラメーターを使用して調整できます。

32,768

最大思考連鎖：81,920

段階的価格設定が適用されます。詳細については、表の下の注記をご参照ください。

入力と出力それぞれ 100 万トークン

Model Studio をアクティベートしてから 90 日間有効です。

qwen-plus-latest

現在、qwen-plus-2025-12-01 と同じ機能を持ちます

Qwen3 シリーズの一部

中国本土 (北京)

モデル

バージョン

コンテキストウィンドウ

最大入力

最大出力

入力コスト

出力コスト

(トークン)

(100 万トークン)

qwen-plus

現在、qwen-plus-2025-07-28 と同じ機能を持ちます

Qwen3 シリーズの一部

安定

1,000,000

思考モード

995,904

非思考モード

997,952

デフォルトは 131,072 です。この値は max_input_tokens パラメーターを使用して調整できます。

32,768

最大思考連鎖：81,920

段階的価格設定が適用されます。詳細については、表の下の注記をご参照ください。

qwen-plus-latest

現在、qwen-plus-2025-12-01 と同じ機能を持ちます

Qwen3 シリーズの一部

Qwen-Flash

Qwen シリーズで最も高速かつコスト効率の高いモデルで、単純なジョブに最適です。Qwen-Flash は柔軟な段階的価格設定を採用しており、Qwen-Turbo よりもコスト効率が高くなっています。使用方法 | API リファレンス | オンラインで試す | 思考モード

国際 (シンガポール)

モデル	バージョン	モード	コンテキストウィンドウ	最大入力	最大思考連鎖	最大出力	入力コスト	出力コスト思考連鎖 + 出力	無料クォータ (注)
			(トークン)				(1,000 トークン)
qwen-flash qwen-flash-2025-07-28 と同じ機能を持ちます Qwen3 シリーズの一部です。バッチ呼び出しは標準価格の半額で課金されます。	安定	思考	1,000,000	995,904	81,920	32,768	段階的価格設定。詳細については、表の下の説明をご参照ください。		各 100 万トークン Alibaba Cloud Model Studio をアクティベートしてから 90 日間有効です。
		非思考		997,952	-
qwen-flash-2025-07-28 Qwen3 シリーズの一部です。	スナップショット	思考		995,904	81,920
		非思考		997,952	-

上記のモデルの課金は、リクエストごとの入力トークン数に基づいた段階的価格設定です。qwen-flash はコンテキストキャッシュとバッチ呼び出しをサポートしています。

リクエストごとの入力トークン	入力価格 (100 万トークン)	出力価格 (100 万トークン)
0< トークン ≤256K	$0.05	$0.4
256K< トークン ≤1M	$0.25	$2

中国本土 (北京)

モデル	バージョン	モード	コンテキストウィンドウ	最大入力	最大思考連鎖	最大出力	入力コスト	出力コスト思考連鎖 + 出力
			(トークン)				(1,000 トークン)
qwen-flash qwen-flash-2025-07-28 と同じ機能を持ちます Qwen3 シリーズの一部	安定	思考	1,000,000	995,904	81,920	32,768	段階的価格設定。詳細については、表の下の説明をご参照ください。
		非思考		997,952	-
qwen-flash-2025-07-28 Qwen3 シリーズの一部	スナップショット	思考		995,904	81,920
		非思考		997,952	-

上記のモデルの課金は、リクエストごとの入力トークン数に基づいた段階的価格設定です。qwen-flash はコンテキストキャッシュをサポートしています。

リクエストごとの入力トークン	入力価格 (100 万トークン)	出力価格 (100 万トークン)
0< トークン ≤128K	$0.022	$0.216
128K< トークン ≤256K	$0.087	$0.861
256K< トークン ≤1M	$0.173	$1.721

Qwen-Turbo

Qwen-Turbo は更新されなくなります。Qwen-Flash に置き換えることを推奨します。Qwen-Flash は柔軟な段階的価格設定を使用しており、より詳細な価格モデルを提供します。使用方法 | API リファレンス | オンラインで試す | ディープシンキング

国際 (シンガポール)

モデル	バージョン	コンテキストウィンドウ	最大入力	最大出力	入力コスト	出力コスト	無料クォータ (注)
		(トークン)			(100 万トークン)
qwen-turbo 現在、qwen-turbo-2025-04-28 と同じ機能を持ちます Qwen3 シリーズの一部	安定	思考モード 131,072 非思考モード 1,000,000	思考モード 98,304 非思考モード 1,000,000	16,384 最大思考連鎖は 38,912 です	$0.05 バッチ呼び出しは半額です	思考モード：$0.5 非思考モード：$0.2 バッチ呼び出しは半額です	各 100 万トークン有効期間：Alibaba Cloud Model Studio をアクティベートしてから 90 日後
qwen-turbo-latest 常に最新のスナップショットバージョンと同じ機能を持ちます Qwen3 シリーズの一部	最新				$0.05	思考モード：$0.5 非思考モード：$0.2
qwen-turbo-2025-04-28 qwen-turbo-0428 とも呼ばれます Qwen3 シリーズの一部	スナップショット
qwen-turbo-2024-11-01 qwen-turbo-1101 とも呼ばれます		1,000,000	1,000,000	8,192		$0.2

中国 (北京)

モデル	バージョン	コンテキストウィンドウ	最大入力	最大出力	入力コスト	出力コスト
		(トークン)			(100 万トークン)
qwen-turbo 現在、qwen-turbo-2025-04-28 と同じ機能を持ちます Qwen3 シリーズの一部	安定	思考モード 131,072 非思考モード 1,000,000	思考モード 98,304 非思考モード 1,000,000	16,384 最大思考連鎖は 38,912 です	$0.044	思考モード $0.431 非思考モード $0.087
qwen-turbo-latest 常に最新のスナップショットバージョンと同じ機能を持ちます Qwen3 シリーズの一部	最新
qwen-turbo-2025-07-15 qwen-turbo-0715 とも呼ばれます Qwen3 シリーズの一部	スナップショット
qwen-turbo-2025-04-28 qwen-turbo-0428 とも呼ばれます Qwen3 シリーズの一部

QwQ

QwQ 推論モデルは Qwen2.5 モデルでトレーニングされ、強化学習を使用して推論能力を大幅に向上させています。数学とコードのコアメトリック (AIME 24/25 や LiveCodeBench など) や、一部の汎用メトリック (IFEval や LiveBench など) は、DeepSeek-R1 のフルパフォーマンスバージョンに匹敵します。使用方法

シンガポール

モデル

バージョン

コンテキストウィンドウ

最大入力

最大思考連鎖

最大応答

入力コスト

出力コスト

無料クォータ

(注)

(トークン)

(100 万トークン)

qwq-plus

安定

131,072

98,304

32,768

8,192

$0.8

$2.4

100 万トークン

有効期間：Alibaba Cloud Model Studio をアクティベートしてから 90 日以内。

中国 (北京)

モデル	バージョン	コンテキストウィンドウ	最大入力	最大思考連鎖	最大応答	入力コスト	出力コスト
		(トークン)				(100 万トークン)
qwq-plus qwq-plus-2025-03-05 と同じ機能を持ちます。	安定	131,072	98,304	32,768	8,192	$0.230	$0.574
qwq-plus-latest 常に最新のスナップショットバージョンと同じ機能を持ちます。	最新
qwq-plus-2025-03-05 qwq-plus-0305 とも呼ばれます。	スナップショット

Qwen-Long

Qwen-Long モデルは、Qwen シリーズで最も長いコンテキストウィンドウを持っています。低コストでバランスの取れたパフォーマンスを提供します。このモデルは、長文分析、情報抽出、要約、分類、タグ付けなどのタスクに最適です。使用方法 | オンラインで試す

中国 (北京)

モデル	バージョン	コンテキストウィンドウ	最大入力	最大出力	入力コスト	出力コスト
		(トークン)			(100 万トークン)
qwen-long-latest 常に最新のスナップショットバージョンの機能と一致します。	安定	10,000,000	10,000,000	8,192	$0.072	$0.287
qwen-long-2025-01-25 qwen-long-0125 とも呼ばれます。	スナップショット

Qwen-Omni

Qwen-Omni モデルは、テキスト、画像、音声、動画などの複数のモダリティからの組み合わせ入力を受け付け、テキストまたは音声形式で応答を生成します。表現力豊かで人間らしいさまざまな音声を提供し、複数の言語や方言での音声出力をサポートします。視覚認識、感情分析、教育・トレーニングなどの音声・動画チャットシナリオで使用できます。使用方法 | API リファレンス

シンガポール

モデル	バージョン	モード	コンテキストウィンドウ	最大入力	最大思考連鎖	最大出力	無料クォータ (注)
			(トークン)
qwen3-omni-flash 現在、qwen3-omni-flash-2025-09-15 と同じ機能を持ちます	安定	思考モード	65,536	16,384	32,768	16,384	各 100 万トークン (モダリティ不問) Model Studio をアクティベートしてから 90 日間有効
		非思考モード		49,152	-
qwen3-omni-flash-2025-09-15 qwen3-omni-flash-0915 とも呼ばれます	スナップショット	思考モード	65,536	16,384	32,768	16,384
		非思考モード		49,152	-
qwen3-omni-flash-2025-12-01	スナップショット	思考モード	65,536	16,384	32,768	16,384
		非思考モード		49,152	-

無料クォータを使い切った後は、入力と出力に以下の課金ルールが適用されます。課金は思考モードと非思考モードの両方で同じです。音声出力は思考モードではサポートされていません。

入力	単価 (100 万トークン)
テキスト	$0.43
音声	$3.81
画像/動画	$0.78

出力

単価 (100 万トークン)

テキスト

$1.66 (入力がテキストのみの場合)

$3.06 (入力に画像、動画、または音声が含まれる場合)

テキスト + 音声

この項目は思考モードでは課金されません。

$15.11 (音声)

出力テキストは課金されません。

その他のモデル

モデル	バージョン	コンテキストウィンドウ	最大入力	最大出力	無料クォータ (注)
		(トークン)
qwen-omni-turbo このバージョンは qwen-omni-turbo-2025-03-26 と同じ機能を持ちます。	安定	32,768	30,720	2,048	各 100 万トークン (モダリティ不問) Model Studio をアクティベートしてから 90 日間有効です。
qwen-omni-turbo-latest 常に最新のスナップショットバージョンを指します。同等の機能	最新
qwen-omni-turbo-2025-03-26 qwen-omni-turbo-0326 とも呼ばれます。	スナップショット

無料クォータを使い切った後、商用モデルについては、入力と出力に以下の課金ルールが適用されます：

入力	単価 (100 万トークン)
テキスト	$0.07
音声	$4.44
画像/動画	$0.21

出力

単価 (100 万トークン)

テキスト

$0.27 (入力がテキストのみの場合)

$0.63 (入力に画像、動画、または音声が含まれる場合)

テキスト + 音声

$8.89 (音声)

出力のテキスト部分は課金されません。

中国 (北京)

モデル	バージョン	モード	コンテキストウィンドウ	最大入力	最大思考連鎖	最大出力	無料クォータ (注)
			(トークン)
qwen3-omni-flash 現在、qwen3-omni-flash-2025-09-15 と同じ機能を持ちます	安定	思考モード	65,536	16,384	32,768	16,384	無料クォータなし
		非思考モード		49,152	-
qwen3-omni-flash-2025-09-15 qwen3-omni-flash-0915 とも呼ばれます	スナップショット	思考モード	65,536	16,384	32,768	16,384
		非思考モード		49,152	-
qwen3-omni-flash-2025-12-01	スナップショット	思考モード	65,536	16,384	32,768	16,384
		非思考モード		49,152	-

無料クォータを使い切った後、入力と出力は以下のルールに従って課金されます。課金は思考モードと非思考モードの両方で同じです。音声出力は思考モードではサポートされていません。

入力	単価 (100 万トークン)
テキスト	$0.258
音声	$2.265
画像/動画	$0.473

出力

単価 (100 万トークン)

テキスト

$0.989 (入力がテキストのみの場合)

$1.821 (入力に画像、動画、または音声が含まれる場合)

テキスト + 音声

この項目は思考モードでは課金されません。

$8.974 (音声)

出力テキストは課金されません。

その他のモデル

モデル	バージョン	コンテキストウィンドウ	最大入力	最大出力	無料クォータ (注)
		(トークン)
qwen-omni-turbo このモデルは現在、qwen-omni-turbo-2025-03-26 と同じ機能を持ちます。	安定	32,768	30,720	2,048	無料クォータなし
qwen-omni-turbo-latest 常に最新のスナップショットと一致します同一の機能	最新
qwen-omni-turbo-2025-03-26 qwen-omni-turbo-0326 とも呼ばれます。	スナップショット
qwen-omni-turbo-2025-01-19 qwen-omni-turbo-0119 とも呼ばれます。

入力と出力は、以下のルールに従って課金されます：

入力	単価 (100 万トークン)
テキスト	$0.058
音声	$3.584
画像/動画	$0.216

出力

単価 (100 万トークン)

テキスト

$0.230 (テキストのみの入力の場合)

$0.646 (入力に画像、音声、または動画が含まれる場合)

テキスト + 音声

$7.168 (音声)

出力テキストは課金されません。

たとえば、1,000 のテキスト入力トークン、1,000 の画像入力トークン、1,000 のテキスト出力トークン、および 1,000 の音声出力トークンを持つリクエストのコストは、$0.000058 (テキスト入力) + $0.000216 (画像入力) + $0.007168 (音声出力) です。

Qwen3-Omni-Flash モデルは、更新が停止された Qwen-Omni-Turbo と比較して大幅な改善を提供します：

これは、思考モードと非思考モードの両方をサポートするハイブリッド思考モデルです。enable_thinking パラメーターを使用してモードを切り替えることができます。デフォルトでは、思考モードは無効になっています。
音声出力は思考モードではサポートされていません。非思考モードでは、モデルからの音声出力には以下の特徴があります：
- qwen3-omni-flash-2025-12-01 は 49 の音声をサポートします。qwen3-omni-flash-2025-09-15 と qwen3-omni-flash は 17 の音声をサポートします。Qwen-Omni-Turbo は 4 つの音声のみをサポートします。
- Qwen-Omni-Turbo がサポートしていた 2 言語から増加し、10 言語をサポートします。

Qwen-Omni-Realtime

Qwen Omni と比較して、これらのモデルは音声ストリーム入力をサポートしています。ユーザーの音声の開始と終了を自動的に検出する音声アクティビティ検出 (VAD) 機能を内蔵しています。使用方法 | クライアントイベント | サーバーイベント

国際 (シンガポール)

モデル	バージョン	コンテキストウィンドウ	最大入力	最大出力	無料クォータ (注)
		(トークン)
qwen3-omni-flash-realtime qwen3-omni-flash-realtime-2025-09-15 と同等	安定	65,536	49,152	16,384	モダリティに関係なく、各 100 万トークン Model Studio をアクティベートしてから 90 日間有効
qwen3-omni-flash-realtime-2025-12-01	スナップショット
qwen3-omni-flash-realtime-2025-09-15

無料クォータを使い切った後は、入力と出力に以下の課金ルールが適用されます：

入力	単価 (100 万トークン)
テキスト	$0.52
音声	$4.57
画像	$0.94

出力

単価 (100 万トークン)

テキスト

$1.99 (入力がテキストのみの場合)

$3.67 (入力に画像または音声が含まれる場合)

テキスト + 音声

$18.13 (音声)

テキスト出力は課金されません。

その他のモデル

モデル	バージョン	コンテキストウィンドウ	最大入力	最大出力	無料クォータ (注)
		(トークン)
qwen-omni-turbo-realtime qwen-omni-turbo-realtime-2025-05-08 と同等	安定	32,768	30,720	2,048	モダリティに関係なく 100 万トークン Model Studio をアクティベートしてから 90 日間有効
qwen-omni-turbo-realtime-latest 常に最新のスナップショットバージョンと同等	最新
qwen-omni-turbo-realtime-2025-05-08	スナップショット

無料クォータを使い切った後は、入力と出力に以下の課金ルールが適用されます：

入力	単価 (100 万トークン)
テキスト	$0.270
音声	$4.440
画像	$0.840

出力

単価 (100 万トークン)

テキスト

$1.070 (テキストのみの入力の場合)

$2.520 (入力に画像または音声が含まれる場合)

テキスト + 音声

$8.890 (音声出力の場合)

テキスト出力は課金されません。

中国 (北京)

モデル	バージョン	コンテキストウィンドウ	最大入力	最大出力	無料クォータ (注)
		(トークン)
qwen3-omni-flash-realtime qwen3-omni-flash-realtime-2025-09-15 と同等	安定	65,536	49,152	16,384	無料クォータなし
qwen3-omni-flash-realtime-2025-12-01	スナップショット
qwen3-omni-flash-realtime-2025-09-15

入力と出力には以下の課金ルールが適用されます：

入力	単価 (100万トークンあたり)
テキスト	$0.315
音声	$2.709
画像	$0.559

出力

単価 (100 万トークン)

テキスト

$1.19 (入力がテキストのみの場合)

$2.179 (入力に画像または音声が含まれる場合)

テキスト + 音声

$10.766 (音声)

テキスト出力は課金されません。

その他のモデル

モデル	バージョン	コンテキストウィンドウ	最大入力	最大出力	無料クォータ (注)
		(トークン)
qwen-omni-turbo-realtime qwen-omni-turbo-2025-05-08 と同等	安定	32,768	30,720	2,048	無料クォータなし
qwen-omni-turbo-realtime-latest 常に最新のスナップショットバージョンと同等	最新
qwen-omni-turbo-realtime-2025-05-08	スナップショット

入力と出力には以下の課金ルールが適用されます：

入力	単価 (100 万トークン)
テキスト	$0.230
音声	$3.584
画像	$0.861

出力

単価 (100 万トークン)

テキスト

$0.918 (入力がテキストのみの場合)

$2.581 (入力に画像または音声が含まれる場合)

テキスト + 音声

$7.168 (音声)

テキスト出力は課金されません。

Qwen3-Omni-Flash-Realtime モデルを推奨します。更新が停止される Qwen-Omni-Turbo-Realtime と比較して、機能が大幅に向上しています。モデルからの音声出力について：

qwen3-omni-flash-realtime-2025-12-01 は 49 の音声をサポートします。qwen3-omni-flash-realtime-2025-09-15 と qwen3-omni-realtime-flash は 17 の音声をサポートします。Qwen-Omni-Turbo-Realtime は 4 つの音声のみをサポートします。
10 言語をサポートします。Qwen-Omni-Turbo-Realtime は 2 言語のみをサポートします。

QVQ

QVQ は、視覚入力と思考連鎖出力をサポートする視覚推論モデルです。数学、プログラミング、視覚分析、創造的なタスク、および一般的なタスクで優れたパフォーマンスを発揮します。使用方法 | オンラインで試す

国際 (シンガポール)

モデル	バージョン	コンテキストウィンドウ	最大入力	最大思考連鎖	最大応答	入力コスト	出力コスト	無料クォータ (注)
		(トークン)				(100 万トークン)
qvq-max qvq-max-2025-03-25 と同等です。	安定	131,072	106,496 単一画像あたり最大 16,384 トークン。	16,384	8,192	$1.2	$4.8	各 100 万トークン。 Alibaba Cloud Model Studio をアクティベートしてから 90 日間有効です。
qvq-max-latest 常に最新のスナップショットバージョンと同等です。	最新
qvq-max-2025-03-25 qvq-max-0325 とも呼ばれます。	スナップショット

中国 (北京)

モデル	バージョン	コンテキストウィンドウ	最大入力	最大思考連鎖	最大応答	入力コスト	出力コスト
		(トークン)				(100 万トークン)
qvq-max qvq-plus よりも強力な視覚的推論と命令追従能力を提供し、より複雑なタスクに最適なパフォーマンスを提供します。 qvq-max-2025-03-25 と同じ機能を持ちます。	安定	131,072	106,496 単一画像あたり最大 16,384。	16,384	8,192	$1.147	$4.588
qvq-max-latest 常に最新のスナップショットバージョンと同じ機能を持ちます。	最新
qvq-max-2025-05-15 qvq-max-0515 とも呼ばれます。	スナップショット
qvq-max-2025-03-25 qvq-max-0325 とも呼ばれます。
qvq-plus qvq-plus-2025-05-15 と同じ機能を持ちます。	安定					$0.287	$0.717
qvq-plus-latest 常に最新のスナップショットバージョンと同じ機能を持ちます。	最新
qvq-plus-2025-05-15 qvq-plus-0515 とも呼ばれます。	スナップショット

Qwen-VL

Qwen-VL は、視覚理解 (画像) 機能を備えたテキスト生成モデルです。OCR を実行するだけでなく、製品写真からプロパティを抽出したり、図に示された問題を解決したりするなど、さらなる要約と推論を提供します。使用方法 | API リファレンス | オンラインで試す

Qwen-VL モデルは、入力トークンと出力トークンの合計数に基づいて課金されます。画像トークンの計算方法の詳細については、「視覚理解」をご参照ください。

国際 (シンガポール)

モデル	バージョン	モード	コンテキストウィンドウ	最大入力	最大思考連鎖	最大出力	入力コスト	出力コスト (思考連鎖 + 出力)	無料クォータ (注)
			(トークン)				(100 万トークン)
qwen3-vl-plus qwen3-vl-plus-2025-09-23 と同じ機能を持ちます	安定	思考	262,144	258,048 画像あたり最大 16,384 トークン	81,920	32,768	段階的価格設定。詳細については、表の下の説明をご参照ください。		各 100 万トークン Alibaba Cloud Model Studio をアクティベートしてから 90 日間有効です。
		非思考		260,096 画像あたり最大 16,384 トークン	-
qwen3-vl-plus-2025-09-23	スナップショット	思考		258,048 画像あたり最大 16,384 トークン	81,920
		非思考		260,096 画像あたり最大 16,384 トークン	-
qwen3-vl-flash qwen3-vl-flash-2025-10-15 と同じ機能を持ちます	安定	思考		258,048 画像あたり最大 16,384 トークン	81,920
		非思考		260,096 画像あたり最大 16,384 トークン	-
qwen3-vl-flash-2025-10-15	スナップショット	思考		258,048 画像あたり最大 16,384 トークン	81,920
		非思考		260,096 画像あたり最大 16,384 トークン	-

上記のモデルは、リクエストごとの入力トークン数に基づいた段階的価格設定を使用します。入力価格と出力価格は、思考モードと非思考モードの両方で同じです。

qwen3-vl-plus シリーズ

リクエストごとの入力トークン	入力価格 (100 万トークン)	出力価格 (100 万トークン)
0 < トークン ≤ 32K	$0.20	$1.60
32K < トークン ≤ 128K	$0.30	$2.40
128K < トークン ≤ 256K	$0.60	$4.80

qwen3-vl-flash シリーズ

リクエストごとの入力トークン	入力価格 (100 万トークン)	出力価格 (100 万トークン)
0 < トークン ≤ 32K	$0.05	$0.40
32K < トークン ≤ 128K	$0.075	$0.60
128K < トークン ≤ 256K	$0.12	$0.96

その他のモデル

Qwen-VL-Max

Qwen-VL-Max は Qwen-VL-Plus よりも優れたパフォーマンスを発揮します。以下のモデルは Qwen2.5-VL シリーズに属します。

モデル	バージョン	コンテキストウィンドウ	最大入力	最大出力	入力コスト	出力コスト	無料クォータ (注)
		(トークン)			(100 万トークン)
qwen-vl-max qwen-vl-plus と比較して、視覚的推論と命令追従能力が向上しています。複雑なタスクに最適なパフォーマンスを提供します。 qwen-vl-max-2025-08-13 と同じ機能を持ちます。	安定	131,072	129,024 画像あたり最大 16,384。	8,192	$0.8 バッチ呼び出しは半額	$3.2 バッチ呼び出しは半額	各 100 万トークン。有効期間は Model Studio のアクティベート後 90 日です。
qwen-vl-max-latest 常に最新のスナップショットバージョンと同じ機能を提供します。	最新				$0.8	$3.2
qwen-vl-max-2025-08-13 qwen-vl-max-0813 とも呼ばれます。視覚理解の包括的な改善を提供し、数学、推論、オブジェクト検出、多言語処理の能力が大幅に向上しています。	スナップショット
qwen-vl-max-2025-04-08 qwen-vl-max-0408 とも呼ばれます。 128k のコンテキストウィンドウを拡張し、数学と推論の能力を大幅に向上させた Qwen2.5-VL シリーズモデル。

Qwen-VL-Plus

Qwen-VL-Plus は、パフォーマンスとコストのバランスを提供します。以下のモデルは Qwen2.5-VL シリーズに属します。

モデル	バージョン	コンテキストウィンドウ	最大入力	最大出力	入力コスト	出力コスト	無料クォータ (注)
		(トークン)			(100 万トークン)
qwen-vl-plus qwen-vl-plus-2025-08-15 と同じ機能を持ちます。	安定	131,072	129,024 画像あたり最大 16,384。	8,192	$0.21 バッチ呼び出しは半額	$0.63 バッチ呼び出しは半額	各 100 万トークン Alibaba Cloud Model Studio をアクティベートしてから 90 日間有効です。
qwen-vl-plus-latest 常に最新のスナップショットバージョンと同じ機能を持ちます。	最新				$0.21	$0.63
qwen-vl-plus-2025-08-15 qwen-vl-plus-0815 とも呼ばれます。オブジェクト検出、ローカライズ、多言語処理が大幅に改善されています。	スナップショット
qwen-vl-plus-2025-05-07 qwen-vl-plus-0507 とも呼ばれます。数学、推論、監視ビデオからのコンテンツの理解が大幅に向上しました。
qwen-vl-plus-2025-01-25 qwen-vl-plus-0125 とも呼ばれます。 128k のコンテキストウィンドウを拡張し、画像と動画の理解を大幅に向上させた Qwen2.5-VL シリーズモデル。

中国 (北京)

モデル	バージョン	モード	コンテキストウィンドウ	最大入力	最大思考連鎖	最大出力	入力コスト	出力コスト	無料クォータ (注)
			(トークン)				(100 万トークン)
qwen3-vl-plus qwen3-vl-plus-2025-09-23 と同じ機能を持ちます	安定	思考	262,144	258,048 画像あたり最大 16,384 トークン	81,920	32,768	段階的価格設定。詳細については、表の下の説明をご参照ください。		無料クォータなし
		非思考		260,096 画像あたり最大 16,384 トークン	-
qwen3-vl-plus-2025-09-23	スナップショット	思考		258,048 画像あたり最大 16,384 トークン	81,920
		非思考		260,096 画像あたり最大 16,384 トークン	-
qwen3-vl-flash qwen3-vl-flash-2025-10-15 と同じ機能を持ちます	安定	思考		258,048 画像あたり最大 16,384 トークン	81,920
		非思考		260,096 画像あたり最大 16,384 トークン	-
qwen3-vl-flash-2025-10-15	スナップショット	思考		258,048 画像あたり最大 16,384 トークン	81,920
		非思考		260,096 画像あたり最大 16,384 トークン	-

qwen3-vl-plus シリーズ

リクエストごとの入力トークン	入力価格 (100 万トークン)	出力価格 (100 万トークン)
0 < トークン ≤ 32K	$0.143353	$1.433525
32K < トークン ≤ 128K	$0.215029	$2.150288
128K < トークン ≤ 256K	$0.430058	$4.300576

qwen3-vl-flash シリーズ

リクエストごとの入力トークン	入力価格 (100 万トークンあたり)	出力価格 (100 万トークンあたり)
0 < トークン ≤ 32K	$0.022	$0.215
32K < トークン ≤ 128K	$0.043	$0.43
128K < トークン ≤ 256K	$0.086	$0.859

その他のモデル

Qwen-VL-Max シリーズ

qwen-vl-max-2025-01-25 以降のモデルは Qwen2.5-VL シリーズに属します。

モデル	バージョン	コンテキストウィンドウ	最大入力	最大出力	入力コスト	出力コスト
		(トークン)			(100 万トークン)
qwen-vl-max qwen-vl-plus と比較して、視覚的推論と命令追従能力が向上し、複雑なタスクに対して最適なパフォーマンスを提供します。 qwen-vl-max-2025-08-13 と同じ機能を持ちます。	安定	131,072	129,024 画像あたり最大 16,384	8,192	$0.23	$0.574
qwen-vl-max-latest 最新のスナップショットバージョンと同じ機能を提供します。	最新
qwen-vl-max-2025-08-13 qwen-vl-max-0813 とも呼ばれます。視覚理解の包括的な改善と、数学、推論、オブジェクト検出、多言語処理の能力が大幅に向上しています。	スナップショット
qwen-vl-max-2025-04-08 qwen-vl-max-0408 とも呼ばれます。数学と推論の能力が向上しました。					$0.431	$1.291
qwen-vl-max-2025-04-02 qwen-vl-max-0402 とも呼ばれます。複雑な数学の問題を解く精度が大幅に向上しました。
qwen-vl-max-2025-01-25 qwen-vl-max-0125 とも呼ばれます。このバージョンは Qwen2.5-VL シリーズへのアップグレードで、128k のコンテキストウィンドウを拡張し、画像と動画の理解を大幅に向上させています。
qwen-vl-max-2024-12-30 qwen-vl-max-1230 とも呼ばれます。		32,768	30,720 画像あたり最大 16,384	2,048	$0.431	$1.291
qwen-vl-max-2024-11-19 qwen-vl-max-1119 とも呼ばれます。
qwen-vl-max-2024-10-30 qwen-vl-max-1030 とも呼ばれます。					$2.868
qwen-vl-max-2024-08-09 qwen-vl-max-0809 とも呼ばれます。

Qwen-VL-Plus シリーズ

qwen-vl-plus-2025-01-25 以降のモデルは Qwen2.5-VL シリーズに属します。

モデル	バージョン	コンテキストウィンドウ	最大入力	最大出力	入力コスト	出力コスト
		(トークン)			(100 万トークン)
qwen-vl-plus qwen-vl-plus-2025-08-15 と同じ機能を持ちます。	安定	131,072	129,024 画像あたり最大 16,384 トークン。	8,192	$0.115	$0.287
qwen-vl-plus-latest 常に最新のスナップショットバージョンと同じ機能を持ちます。	最新
qwen-vl-plus-2025-08-15 qwen-vl-plus-0815 とも呼ばれます。オブジェクト検出、ローカライズ、多言語処理が大幅に改善されています。	スナップショット
qwen-vl-plus-2025-07-10 qwen-vl-plus-0710 とも呼ばれます。監視ビデオからのコンテンツの理解をさらに向上させます。		32,768	30,720 画像あたり最大 16,384 トークン。		$0.022	$0.216
qwen-vl-plus-2025-05-07 qwen-vl-plus-0507 とも呼ばれます。数学、推論、監視ビデオからのコンテンツの理解が大幅に向上しました。		131,072	129,024 画像あたり最大 16,384 トークン。		$0.216	$0.646
qwen-vl-plus-2025-01-25 qwen-vl-plus-0125 とも呼ばれます。 Qwen2.5-VL シリーズにアップグレードし、コンテキストウィンドウを 128K に拡張し、画像と動画の理解を大幅に向上させました。
qwen-vl-plus-2025-01-02 qwen-vl-plus-0102 とも呼ばれます。		32,768	30,720 画像あたり最大 16,384 トークン。	2,048
qwen-vl-plus-2024-08-09 qwen-vl-plus-0809 とも呼ばれます。

Qwen-OCR

Qwen-OCR モデルはテキスト抽出用に設計されています。Qwen-VL モデルと比較して、文書、表、試験用紙、手書きの画像からのテキスト抽出に特化しています。英語、フランス語、日本語、韓国語、ドイツ語、ロシア語、イタリア語など、複数の言語を認識できます。使用方法 | API リファレンス | オンラインで試す

国際 (シンガポール)

モデル	バージョン	コンテキストウィンドウ	最大入力	最大出力	入力コスト	出力コスト	無料クォータ (注)
モデル	バージョン	(トークン)			(100 万トークン)		無料クォータ (注)
qwen-vl-ocr	安定	34,096	30,000 画像あたり最大 30,000	4096	$0.72	$0.72	各 100 万トークンアクティベーション後 90 日間有効
qwen-vl-ocr-2025-11-20 qwen-vl-ocr-1120 とも呼ばれます Qwen3-VL に基づいています。文書解析とテキストのローカライズが大幅に改善されています。	スナップショット	38,192	30,000 画像あたり最大 30,000	8,192	$0.07	$0.16	各 100 万トークンアクティベーション後 90 日間有効

中国 (北京)

モデル	バージョン	コンテキストウィンドウ	最大入力	最大出力	入力コスト	出力コスト	無料クォータ (注)
		(トークン)			(100 万トークン)
qwen-vl-ocr 現在、qwen-vl-ocr-2025-08-28 と同じ機能を持ちます	安定	34,096	30,000 画像あたり最大 30,000	4,096	$0.717	$0.717	無料クォータなし
qwen-vl-ocr-latest 常に最新のスナップショットと同じ機能を持ちます	最新	38,192		8,192	$0.043	$0.072
qwen-vl-ocr-2025-11-20 qwen-vl-ocr-1120 とも呼ばれます Qwen3-VL に基づいています。文書解析とテキストのローカライズが大幅に改善されています。	スナップショット
qwen-vl-ocr-2025-08-28 qwen-vl-ocr-0828 とも呼ばれます		34,096		4,096	$0.717	$0.717
qwen-vl-ocr-2025-04-13 qwen-vl-ocr-0413 とも呼ばれます
qwen-vl-ocr-2024-10-28 qwen-vl-ocr-1028 とも呼ばれます

Qwen-Math

Qwen-Math は、数学の問題解決用に設計された言語モデルです。使用方法 | API リファレンス | オンラインで試す

説明

このモデルは中国 (北京) リージョンでのみ利用可能です。

モデル	バージョン	コンテキストウィンドウ	最大入力	最大出力	入力コスト	出力コスト
		(トークン)			(100 万トークン)
qwen-math-plus qwen-math-plus-2024-09-19 と同じ機能を持ちます。	安定	4,096	3,072	3,072	$0.574	$1.721
qwen-math-plus-latest 最新のスナップショットと同じ機能を持ちます。	最新
qwen-math-plus-2024-09-19 qwen-math-plus-0919 とも呼ばれます。	スナップショット
qwen-math-plus-2024-08-16 qwen-math-plus-0816 とも呼ばれます。
qwen-math-turbo qwen-math-turbo-2024-09-19 と同じ機能を持ちます。	安定				$0.287	$0.861
qwen-math-turbo-latest 最新のスナップショットと同じ機能を持ちます。	最新
qwen-math-turbo-2024-09-19 qwen-math-turbo-0919 とも呼ばれます。	スナップショット

Qwen-Coder

最新の Qwen3-Coder-Plus シリーズモデルは、Qwen3 に基づいて構築された Qwen コード生成モデルです。ツールの呼び出しと環境との対話に優れた強力なコーディングエージェントです。これらのモデルは自律的にプログラミングでき、優れたコーディング能力と汎用能力を提供します。使用方法 | API リファレンス | オンラインで試す

国際 (シンガポール)

モデル	バージョン	コンテキストウィンドウ	最大入力	最大出力	入力コスト (100 万トークン)	出力コスト (100 万トークン)	無料クォータ (注)
		トークン			100 万トークンあたり
qwen3-coder-plus 現在、qwen3-coder-plus-2025-07-22 と同等です	安定	1,000,000	997,952	65,536	段階的価格設定。詳細については、表の下の説明をご参照ください。		各 100 万トークン Alibaba Cloud Model Studio をアクティベートしてから 90 日間有効
qwen3-coder-plus-2025-09-23	スナップショット
qwen3-coder-plus-2025-07-22	スナップショット
qwen3-coder-flash 現在、qwen3-coder-flash-2025-07-28 と同等です	安定
qwen3-coder-flash-2025-07-28	スナップショット

これらのモデルは、リクエストごとの入力トークン数に基づいて段階的課金を使用します。

qwen3-coder-plus シリーズ

qwen3-coder-plus、qwen3-coder-plus-2025-09-23、および qwen3-coder-plus-2025-07-22 の価格は以下の通りです。qwen3-coder-plus モデルはコンテキストキャッシュをサポートしています。暗黙的キャッシュにヒットした入力テキストは、単価の 20% で課金されます。明示的キャッシュにヒットした入力テキストは、単価の 10% で課金されます。

リクエストごとの入力トークン	入力コスト (100 万トークン)	出力コスト (100 万トークン)
0 < トークン ≤ 32K	$1	$5
32K < トークン ≤ 128K	$1.8	$9
128K < トークン ≤ 256K	$3	$15
256K < トークン ≤ 1M	$6	$60

qwen3-coder-flash シリーズ

qwen3-coder-flash と qwen3-coder-flash-2025-07-28 の価格は以下の通りです。qwen3-coder-flash モデルはコンテキストキャッシュをサポートしています。暗黙的キャッシュにヒットした入力テキストは、単価の 20% で課金されます。明示的キャッシュにヒットした入力テキストは、単価の 10% で課金されます。

リクエストごとの入力トークン	入力コスト (100 万トークン)	出力コスト (100 万トークン)
0 < トークン ≤ 32K	$0.3	$1.5
32K < トークン ≤ 128K	$0.5	$2.5
128K < トークン ≤ 256K	$0.8	$4
256K < トークン ≤ 1M	$1.6	$9.6

中国 (北京)

モデル	バージョン	コンテキストウィンドウ	最大入力	最大出力	入力コスト	出力コスト
		(トークン)			(100 万トークン)
qwen3-coder-plus qwen3-coder-plus-2025-07-22 と同じ機能を提供します。	安定	1,000,000	997,952	65,536	段階的価格設定。詳細については、表の下の説明をご参照ください。
qwen3-coder-plus-2025-09-23	スナップショット
qwen3-coder-plus-2025-07-22	スナップショット
qwen3-coder-flash 現在、qwen3-coder-flash-2025-07-28 のエイリアスです	安定
qwen3-coder-flash-2025-07-28	スナップショット

これらのモデルは、リクエストごとの入力トークン数に基づいて段階的課金を使用します。

qwen3-coder-plus シリーズ

リクエストごとの入力トークン	入力コスト (100 万トークン)	出力コスト (100 万トークン)
0 < トークン ≤ 32K	$0.574	$2.294
32K < トークン ≤ 128K	$0.861	$3.441
128K < トークン ≤ 256K	$1.434	$5.735
256K < トークン ≤ 1M	$2.868	$28.671

qwen3-coder-flash シリーズ

リクエストごとの入力トークン	入力コスト (100 万トークン)	出力コスト (100 万トークン)
0 < トークン ≤ 32K	$0.144	$0.574
32K < トークン ≤ 128K	$0.216	$0.861
128K < トークン ≤ 256K	$0.359	$1.434
256K < トークン ≤ 1M	$0.717	$3.584

その他のモデル

モデル	バージョン	コンテキストウィンドウ	最大入力	最大出力	入力コスト	出力コスト
		(トークン)			(100 万トークン)
qwen-coder-plus qwen-coder-plus-2024-11-06 と同じ機能	安定	131,072	129,024	8,192	$0.502	$1.004
qwen-coder-plus-latest qwen-coder-plus の最新スナップショットバージョンと同じ機能	最新
qwen-coder-plus-2024-11-06 qwen-coder-plus-1106 とも呼ばれます	スナップショット
qwen-coder-turbo qwen-coder-turbo-2024-09-19 と同じ機能	安定	131,072	129,024	8,192	$0.287	$0.861
qwen-coder-turbo-latest qwen-coder-turbo の最新スナップショットバージョンと同じ機能	最新
qwen-coder-turbo-2024-09-19 qwen-coder-turbo-0919 とも呼ばれます	スナップショット

Qwen-MT

このフラッグシップ大規模翻訳モデルは、Qwen 3 への包括的なアップグレードです。中国語、英語、日本語、韓国語、フランス語、スペイン語、ドイツ語、タイ語、インドネシア語、ベトナム語、アラビア語を含む 92 言語間の翻訳をサポートします。モデルのパフォーマンスと翻訳品質は大幅に向上しています。カスタム用語集、フォーマット保持、特定分野のプロンプトのサポートが強化され、より正確で自然な翻訳が実現します。使用方法。

国際 (シンガポール)

モデル	コンテキストウィンドウ	最大入力	最大出力	入力コスト	出力コスト	無料クォータルールを表示
	(トークン)			(100 万トークン)
qwen-mt-plus Qwen3-MT	16,384	8,192	8,192	$2.46	$7.37	モデルごとに 100 万トークン Alibaba Cloud Model Studio をアクティベートしてから 90 日後に期限切れになります。
qwen-mt-flash Qwen3-MT				$0.16	$0.49
qwen-mt-lite Qwen3-MT				$0.12	$0.36
qwen-mt-turbo Qwen3-MT				$0.16	$0.49

中国 (北京)

モデル	コンテキストウィンドウ	最大入力	最大出力	入力コスト	出力コスト
モデル	(トークン)			(100 万トークン)
qwen-mt-plus Qwen3-MT	16,384	8,192	8,192	$0.259	$0.775
qwen-mt-flash Qwen3-MT				$0.101	$0.280
qwen-mt-lite Qwen3-MT				$0.086	$0.229
qwen-mt-turbo Qwen3-MT				$0.101	$0.280

Qwen データマイニングモデル

Qwen データマイニングモデルは、データ注釈やコンテンツモデレーションなどの分野で使用するために、ドキュメントから構造化情報を抽出します。使用方法 | API リファレンス

説明

中国 (北京) リージョンでのみ利用可能です。

モデル	コンテキストウィンドウ	最大入力	最大出力	入力コスト	出力コスト	無料クォータ
モデル	(トークン)			(100 万トークン)		無料クォータ
qwen-doc-turbo	131,072	129,024	8,192	$0.087	$0.144	無料クォータなし

Qwen ディープリサーチモデル

Qwen ディープリサーチモデルは、複雑な問題を分解し、Web 検索を使用して推論と分析を行い、リサーチレポートを生成します。使用方法 | API リファレンス

説明

中国 (北京) リージョンでのみ利用可能です。

モデル	コンテキストウィンドウ	最大入力	最大出力	入力コスト	出力コスト
モデル	(トークン)			(1,000 トークンあたり)
qwen-deep-research	1,000,000	997,952	32,768	$0.007742	$0.023367

テキスト生成 - Qwen オープンソース版

モデル名では、xxb はパラメーターサイズを示します。たとえば、qwen2-72b-instruct は 720 億 (72B) のパラメーターサイズを示します。
Alibaba Cloud Model Studio は、Qwen のオープンソース版の呼び出しをサポートしています。モデルをローカルにデプロイする必要はありません。オープンソース版では、Qwen3 および Qwen2.5 モデルの使用を推奨します。

Qwen3

2025 年 9 月にリリースされた qwen3-next-80b-a3b-thinking は、思考モードのみをサポートしています。qwen3-235b-a22b-thinking-2507 と比較して、命令追従能力が向上し、より簡潔な要約が可能です。

2025 年 9 月にリリースされた qwen3-next-80b-a3b-instruct は、非思考モードのみをサポートしています。qwen3-235b-a22b-instruct-2507 と比較して、中国語の理解力、論理的推論、テキスト生成能力が向上しています。

2025 年 7 月にリリースされた qwen3-235b-a22b-thinking-2507 および qwen3-30b-a3b-thinking-2507 モデルは、思考モードのみをサポートしています。これらは qwen3-235b-a22b (思考モード) および qwen3-30b-a3b (思考モード) のアップグレード版です。

2025 年 7 月にリリースされた qwen3-235b-a22b-instruct-2507 および qwen3-30b-a3b-instruct-2507 モデルは、非思考モードのみをサポートしています。これらは qwen3-235b-a22b (非思考モード) および qwen3-30b-a3b (非思考モード) のアップグレード版です。

2025 年 4 月にリリースされた Qwen3 モデルは、思考モードと非思考モードの両方をサポートしています。enable_thinking パラメーターを使用してモードを切り替えることができます。Qwen3 モデルは、機能も大幅に強化されています：

推論能力：数学、コード、論理的推論の評価において、モデルは QwQ や同規模の他の非推論モデルを大幅に上回ります。そのパフォーマンスは、その規模のモデルの中で業界トップクラスです。
人間の嗜好との整合性：モデルは、創造的な執筆、ロールプレイング、マルチターン対話、命令追従において大きな改善を示しています。その汎用能力は、同規模の他のモデルよりも大幅に優れています。
エージェント能力：モデルは、思考モードと非思考モードの両方で業界をリードするパフォーマンスを発揮し、正確な外部ツールの呼び出しを実行できます。

多言語能力：モデルは 100 以上の言語と方言をサポートしています。多言語翻訳、命令理解、常識推論において大幅な改善を示しています。

サポートされている言語

英語

簡体字中国語

繁体字中国語

フランス語

スペイン語

アラビア語。アラビア文字を使用し、多くのアラブ諸国の公用語です。

ロシア語。キリル文字を使用し、ロシアおよびその他いくつかの国の公用語です。

ポルトガル語。ラテン文字を使用し、ポルトガル、ブラジル、その他のポルトガル語圏の国の公用語です。

ドイツ語。ラテン文字を使用し、ドイツやオーストリアなどの国の公用語です。

イタリア語。ラテン文字を使用し、イタリア、サンマリノ、スイスの一部の公用語です。

オランダ語。ラテン文字を使用し、オランダ、ベルギーの一部 (フランドル地方)、スリナムの公用語です。

デンマーク語。ラテン文字を使用し、デンマークの公用語です。

アイルランド語。ラテン文字を使用し、アイルランドの公用語の 1 つです。

ウェールズ語。ラテン文字を使用し、ウェールズの公用語の 1 つです。

フィンランド語。ラテン文字を使用し、フィンランドの公用語です。

アイスランド語。ラテン文字を使用し、アイスランドの公用語です。

スウェーデン語。ラテン文字を使用し、スウェーデンの公用語です。

ニーノシュク・ノルウェー語。ラテン文字を使用し、ノルウェー語の 2 つの公式書記標準の 1 つで、ブークモール・ノルウェー語と並行して使用されます。

ブークモール・ノルウェー語。ラテン文字を使用し、ノルウェー語の 2 つの公式書記標準のうち、より広く使用されている方です。

日本語。日本語の文字を使用し、日本の公用語です。

韓国語。ハングルを使用し、韓国と北朝鮮の公用語です。

ベトナム語。ラテン文字を使用し、ベトナムの公用語です。

タイ語。タイ文字を使用し、タイの公用語です。

インドネシア語。ラテン文字を使用し、インドネシアの公用語です。

マレー語。ラテン文字を使用し、マレーシアおよびその他いくつかの国で主要な言語です。

ビルマ語。ミャンマー文字を使用し、ミャンマーの公用語です。

タガログ語。ラテン文字を使用し、フィリピンの主要言語の 1 つです。

クメール語。クメール文字を使用し、カンボジアの公用語です。

ラオ語。ラオ文字を使用し、ラオスの公用語です。

ヒンディー語。デーヴァナーガリー文字を使用し、インドの公用語の 1 つです。

ベンガル語。ベンガル文字を使用し、バングラデシュおよびインドの西ベンガル州の公用語です。

ウルドゥー語。アラビア文字を使用し、パキスタンの公用語であり、インドでも話されています。

ネパール語。デーヴァナーガリー文字を使用し、ネパールの公用語です。

ヘブライ語。ヘブライ文字を使用し、イスラエルの公用語です。

トルコ語。ラテン文字を使用し、トルコおよび北キプロスの公用語です。

ペルシャ語。アラビア文字を使用し、イランやタジキスタンなどの国の公用語です。

ポーランド語。ラテン文字を使用し、ポーランドの公用語です。

ウクライナ語。キリル文字を使用し、ウクライナの公用語です。

チェコ語。ラテン文字を使用し、チェコ共和国の公用語です。

ルーマニア語。ラテン文字を使用し、ルーマニアとモルドバの公用語です。

ブルガリア語。キリル文字を使用し、ブルガリアの公用語です。

スロバキア語。ラテン文字を使用し、スロバキアの公用語です。

ハンガリー語。ラテン文字を使用し、ハンガリーの公用語です。

スロベニア語。ラテン文字を使用し、スロベニアの公用語です。

ラトビア語。ラテン文字を使用し、ラトビアの公用語です。

エストニア語。ラテン文字を使用し、エストニアの公用語です。

リトアニア語。ラテン文字を使用し、リトアニアの公用語です。

ベラルーシ語。キリル文字を使用し、ベラルーシの公用語の 1 つです。

ギリシャ語。ギリシャ文字を使用し、ギリシャとキプロスの公用語です。

クロアチア語。ラテン文字を使用し、クロアチアの公用語です。

マケドニア語。キリル文字を使用し、北マケドニアの公用語です。

マルタ語。ラテン文字を使用し、マルタの公用語です。

セルビア語。キリル文字を使用し、セルビアの公用語です。

ボスニア語。ラテン文字を使用し、ボスニア・ヘルツェゴビナの公用語の 1 つです。

ジョージア語。ジョージア文字を使用し、ジョージアの公用語です。

アルメニア語。アルメニア文字を使用し、アルメニアの公用語です。

北アゼルバイジャン語。ラテン文字を使用し、アゼルバイジャンの公用語です。

カザフ語。キリル文字を使用し、カザフスタンの公用語です。

北ウズベク語。ラテン文字を使用し、ウズベキスタンの公用語です。

タジク語。キリル文字を使用し、タジキスタンの公用語です。

スワヒリ語。ラテン文字を使用し、多くの東アフリカ諸国でリンガフランカまたは公用語です。

アフリカーンス語。ラテン文字を使用し、主に南アフリカとナミビアで話されています。

広東語。繁体字中国語を使用し、広東省、香港、マカオで主に話されている言語です。

ルクセンブルク語。ラテン文字を使用し、ルクセンブルクの公用語です。ドイツの一部でも話されています。

リンブルフ語。ラテン文字を使用し、主にオランダ、ベルギー、ドイツの一部で話されています。

カタルーニャ語。ラテン文字を使用し、カタルーニャおよびスペインの他の地域で話されています。

ガリシア語。ラテン文字を使用し、主にスペインのガリシア地方で話されています。

アストゥリアス語。ラテン文字を使用し、主にスペインのアストゥリアス地方で話されています。

バスク語。ラテン文字を使用します。スペインのバスク自治州の公用語であり、主にスペインとフランスのバスク地方で話されています。

オック語。ラテン文字を使用し、主にフランスの南部地域で話されています。

ヴェネト語。ラテン文字を使用し、主にイタリアのヴェネト州で話されています。

サルデーニャ語。ラテン文字を使用し、主にイタリアのサルデーニャ島で話されています。

シチリア語。ラテン文字を使用し、主にイタリアのシチリア島で話されています。

フリウリ語。ラテン文字を使用し、主にイタリアのフリウリ＝ヴェネツィア・ジュリア州で話されています。

ロンバルド語。ラテン文字を使用し、主にイタリアのロンバルディア州で話されています。

リグリア語。ラテン文字を使用し、主にイタリアのリグーリア州で話されています。

フェロー語。ラテン文字を使用し、フェロー諸島の公用語です。

トスク・アルバニア語。ラテン文字を使用し、アルバニア語の南部方言です。

シレジア語。ラテン文字を使用し、主にポーランドで話されています。

バシキール語。キリル文字を使用し、主にロシアのバシコルトスタン共和国で話されています。

タタール語。キリル文字を使用し、主にロシアのタタールスタン共和国で話されています。

メソポタミア・アラビア語。アラビア文字を使用し、主にイラクで話されています。

ナジュド・アラビア語。アラビア文字を使用し、主にサウジアラビアのナジュド地方で話されています。

エジプト・アラビア語。アラビア文字を使用し、主にエジプトで話されています。

レバント・アラビア語。アラビア文字を使用し、主にシリアとレバノンで話されています。

タイズ・アデン・アラビア語。アラビア文字を使用し、主にイエメンとサウジアラビアのハドラマウト地方で話されています。

ダリー語。アラビア文字を使用し、アフガニスタンの公用語の 1 つです。

チュニジア・アラビア語。アラビア文字を使用し、主にチュニジアで話されています。

モロッコ・アラビア語。アラビア文字を使用し、主にモロッコで話されています。

カーボベルデ・クレオール語。ラテン文字を使用し、主にカーボベルデで話されています。

トク・ピシン。ラテン文字を使用し、パプアニューギニアの主要なリンガフランカです。

東イディッシュ語。ヘブライ文字を使用し、主にユダヤ人コミュニティで話されています。

シンド語。アラビア文字を使用し、パキスタンのシンド州の公用語です。

シンハラ語。シンハラ文字を使用し、スリランカの公用語の 1 つです。

テルグ語。テルグ文字を使用し、インドのアーンドラ・プラデーシュ州とテランガーナ州の公用語です。

パンジャブ語。グルムキー文字を使用し、インドのパンジャブ州で話され、インドの公用語です。

タミル語。タミル文字を使用し、インドのタミル・ナードゥ州とスリランカの公用語です。

グジャラート語。グジャラート文字を使用し、インドのグジャラート州の公用語です。

マラヤーラム語。マラヤーラム文字を使用し、インドのケーララ州の公用語です。

マラーティー語。デーヴァナーガリー文字を使用し、インドのマハーラーシュトラ州の公用語です。

カンナダ語。カンナダ文字を使用し、インドのカルナータカ州の公用語です。

マガヒー語。デーヴァナーガリー文字を使用し、主にインドのビハール州で話されています。

オリヤー語。オリヤー文字を使用し、インドのオリッサ州の公用語の 1 つです。

アワディー語。デーヴァナーガリー文字を使用し、主にインドのウッタル・プラデーシュ州で話されています。

マイティリー語。デーヴァナーガリー文字を使用し、インドのビハール州とネパールのテライ平原で話され、インドの公用語です。

アッサム語。ベンガル文字を使用し、インドのアッサム州の公用語です。

チャッティースガリー語。デーヴァナーガリー文字を使用し、主にインドのチャッティースガル州で話されています。

ボージュプリー語。デーヴァナーガリー文字を使用し、インドとネパールの一部で話されています。

ミナンカバウ語。ラテン文字を使用し、主にインドネシアのスマトラ島で話されています。

バリ語。ラテン文字を使用し、主にインドネシアのバリ島で話されています。

ジャワ語。ラテン文字を使用しますが、伝統的にジャワ文字も使用されます。インドネシアのジャワ島で広く話されています。

バンジャル語。ラテン文字を使用し、主にインドネシアのカリマンタン島で話されています。

スンダ語。ラテン文字を使用しますが、伝統的にスンダ文字も使用されます。主にインドネシアのジャワ島の西部で話されています。

セブアノ語。ラテン文字を使用し、主にフィリピンのセブ地方で話されています。

パンガシナン語。ラテン文字を使用し、主にフィリピンのパンガシナン州で話されています。

イロカノ語。ラテン文字を使用し、主にフィリピンで話されています。

ワライ語 (フィリピン)。ラテン文字を使用し、主にフィリピンで話されています。

ハイチ・クレオール語。ラテン文字を使用し、ハイチの公用語の 1 つです。

パピアメント語。ラテン文字を使用し、主にアルバやキュラソーなどのカリブ海地域で話されています。

応答フォーマットの修正：このアップデートでは、不正な Markdown、切り捨てられた応答、不正なボックス出力など、以前のバージョンの応答フォーマットの問題が修正されています。

2025 年 4 月にリリースされたオープンソースの Qwen3 モデルは、思考モードでの非ストリーミング出力をサポートしていません。

オープンソースの Qwen3 モデルが思考モードにあるが、思考プロセスを出力しない場合、非思考モードのレートで課金されます。

思考モード | 非思考モード | 使用方法

国際 (シンガポール)

モデル	モード	コンテキストウィンドウ	最大入力	最大思考連鎖	最大応答	入力コスト	出力コスト	無料クォータ (注)
モデル	モード	(トークン)				(100 万トークン)		無料クォータ (注)
qwen3-next-80b-a3b-thinking	思考のみ	131,072	126,976	81,920	32,768	$0.15	$1.2	100 万トークン Alibaba Cloud Model Studio をアクティベートしてから 90 日間有効
qwen3-next-80b-a3b-instruct	非思考のみ		129,024	-		$0.15	$1.2
qwen3-235b-a22b-thinking-2507	思考のみ		126,976	81,920		$0.23	$2.3
qwen3-235b-a22b-instruct-2507	非思考のみ		129,024	-		$0.23	$0.92
qwen3-30b-a3b-thinking-2507	思考のみ		126,976	81,920		$0.2	$2.4
qwen3-30b-a3b-instruct-2507	非思考のみ		129,024	-		$0.2	$0.8
qwen3-235b-a22b このモデルと以下のモデルは 2025 年 4 月にリリースされました。	非思考モード		129,024	-	16,384	$0.7	$2.8
qwen3-235b-a22b このモデルと以下のモデルは 2025 年 4 月にリリースされました。	思考モード		98,304	38,912		$0.7	$8.4
qwen3-32b	非思考モード		129,024	-		$0.16	$0.64
qwen3-32b	思考モード		98,304	38,912		$0.16	$0.64
qwen3-30b-a3b	非思考モード		129,024	-		$0.2	$0.8
qwen3-30b-a3b	思考モード		98,304	38,912		$0.2	$2.4
qwen3-14b	非思考モード		129,024	-	8,192	$0.35	$1.4
qwen3-14b	思考モード		98,304	38,912		$0.35	$4.2
qwen3-8b	非思考モード		129,024	-		$0.18	$0.7
qwen3-8b	思考モード		98,304	38,912		$0.18	$2.1
qwen3-4b	非思考モード		129,024	-		$0.11	$0.42
qwen3-4b	思考モード		98,304	38,912			$1.26
qwen3-1.7b	非思考モード	32,768	30,720	-			$0.42
qwen3-1.7b	思考モード		28,672	合計値は 30,720 を超えることはできません。			$1.26
qwen3-0.6b	非思考モード		30,720	-			$0.42
qwen3-0.6b	思考モード		28,672	値と入力の合計は 30,720 を超えることはできません。			$1.26

中国 (北京)

モデル	モード	コンテキストウィンドウ	最大入力	最大思考連鎖	最大応答	入力コスト	出力コスト
モデル	モード	(トークン)				(100 万トークン)
qwen3-next-80b-a3b-thinking	思考のみ	131,072	126,976	81,920	32,768	$0.144	$1.434
qwen3-next-80b-a3b-instruct	非思考のみ		129,024	-		$0.144	$0.574
qwen3-235b-a22b-thinking-2507	思考のみ		126,976	81,920		$0.287	$2.868
qwen3-235b-a22b-instruct-2507	非思考のみ		129,024	-		$0.287	$1.147
qwen3-30b-a3b-thinking-2507	思考のみ		126,976	81,920		$0.108	$1.076
qwen3-30b-a3b-instruct-2507	非思考のみ		129,024	-		$0.108	$0.431
qwen3-235b-a22b	非思考		129,024	-	16,384	$0.287	$1.147
qwen3-235b-a22b	思考		98,304	38,912		$0.287	$2.868
qwen3-32b	非思考		129,024	-		$0.287	$1.147
qwen3-32b	思考		98,304	38,912		$0.287	$2.868
qwen3-30b-a3b	非思考		129,024	-		$0.108	$0.431
qwen3-30b-a3b	思考		98,304	38,912		$0.108	$1.076
qwen3-14b	非思考		129,024	-	8,192	$0.144	$0.574
qwen3-14b	思考		98,304	38,912		$0.144	$1.434
qwen3-8b	非思考		129,024	-		$0.072	$0.287
qwen3-8b	思考		98,304	38,912		$0.072	$0.717
qwen3-4b	非思考		129,024	-		$0.044	$0.173
qwen3-4b	思考		98,304	38,912			$0.431
qwen3-1.7b	非思考	32,768	30,720	-			$0.173
qwen3-1.7b	思考		28,672	入力トークンと思考連鎖トークンの合計は 30,720 を超えてはなりません。			$0.431
qwen3-0.6b	非思考		30,720	-			$0.173
qwen3-0.6b	思考		28,672	入力トークンと思考連鎖トークンの合計は 30,720 を超えてはなりません。			$0.431

QwQ-オープンソース

Qwen2.5-32B でトレーニングされた QwQ 推論モデル。強化学習により、推論能力が大幅に向上しました。数学とコードのコアメトリック (AIME 24/25、LiveCodeBench) と一部の汎用メトリック (IFEval、LiveBench) は、DeepSeek-R1 のフルパワーバージョンと同等です。すべてのメトリックは、同じく Qwen2.5-32B に基づく DeepSeek-R1-Distill-Qwen-32B を大幅に上回ります。使用方法 | API リファレンス

説明

この機能は中国 (北京) リージョンでのみ利用可能です。

モデル	コンテキストウィンドウ	最大入力	最大思考連鎖	最大出力	入力価格	出力価格
モデル	(トークン)				(100 万トークン)
qwq-32b	131,072	98,304	32,768	8,192	$0.287	$0.861

QwQ-Preview

qwq-32b-preview モデルは、2024 年に Qwen チームによって開発された実験的な研究モデルです。特に数学とプログラミングにおける AI の推論能力の向上に焦点を当てています。qwq-32b-preview モデルの制限事項の詳細については、QwQ 公式ブログをご参照ください。使用方法 | API リファレンス | オンラインで試す

説明

この機能は中国 (北京) リージョンでのみ利用可能です。

モデル	コンテキストウィンドウ	最大入力	最大出力	入力コスト	出力コスト
モデル	(トークン)			(100 万トークン)
qwq-32b-preview	32,768	30,720	16,384	$0.287	$0.861

Qwen2.5

Qwen2.5 は Qwen 大規模言語モデルのシリーズです。Qwen2.5 では、70 億から 720 億のパラメーターサイズを持つ一連の基本言語モデルと命令チューニングされた言語モデルをリリースしました。Qwen2.5 には、Qwen2 と比較して以下の改善点が含まれています：

最大 18 兆トークンを含む最新の大規模データセットで事前トレーニングされています。
これらの分野の専門モデルは、モデルの知識を大幅に増やし、コーディングと数学の能力を大幅に向上させました。
命令の追従、長文 (8K トークン以上) の生成、構造化データ (表など) の理解、構造化出力 (特に JSON) の生成において大幅な改善が見られます。システムプロンプトの多様性に対してより回復力があり、チャットボットのロールプレイや条件付き設定の実装が強化されます。
中国語、英語、フランス語、スペイン語、ポルトガル語、ドイツ語、イタリア語、ロシア語、日本語、韓国語、ベトナム語、タイ語、アラビア語を含む 29 以上の言語をサポートしています。

使用方法 | API リファレンス | オンラインで試す

国際 (シンガポール)

モデル	コンテキストウィンドウ	最大入力	最大出力	入力価格	出力価格	無料クォータ
	(トークン)			(100 万トークン)
qwen2.5-14b-instruct-1m	1,008,192	1,000,000	8,192	$0.805	$3.22	入力と出力それぞれ 100 万トークン Alibaba Cloud Model Studio をアクティベートしてから 90 日間有効です。
qwen2.5-7b-instruct-1m				$0.368	$1.47
qwen2.5-72b-instruct	131,072	129,024		$1.40	$5.60
qwen2.5-32b-instruct				$0.70	$2.80
qwen2.5-14b-instruct				$0.35	$1.40
Qwen2.5-7B-Instruct				$0.175	$0.700

中国 (北京)

モデル	コンテキストウィンドウ	最大入力	最大出力	入力コスト	出力コスト
モデル	(トークン)			(100 万トークン)
qwen2.5-14b-instruct-1m	1,000,000	1,000,000	8,192	$0.144	$0.431
qwen2.5-7b-instruct-1m	1,000,000	1,000,000		$0.072	$0.144
qwen2.5-72b-instruct	131,072	129,024		$0.574	$1.721
qwen2.5-32b-instruct				$0.287	$0.861
qwen2.5-14b-instruct				$0.144	$0.431
qwen2.5-7b-instruct				$0.072	$0.144
qwen2.5-3b-instruct	32,768	30,720		$0.044	$0.130
qwen2.5-1.5b-instruct				期間限定で無料
qwen2.5-0.5b-instruct				期間限定で無料

QVQ

qvq-72b-preview モデルは、Qwen チームによって開発された実験的な研究モデルです。特に数学的推論における視覚的推論能力の向上に焦点を当てています。qvq-72b-preview モデルの制限事項の詳細については、QVQ 公式ブログをご参照ください。使用方法 | API リファレンス

モデルに最終的な回答の前に思考プロセスを出力させるには、QVQ モデルの商用版を使用できます。

説明

この機能は中国 (北京) リージョンでのみ利用可能です。

モデル

コンテキストウィンドウ

最大入力

最大出力

入力コスト

出力コスト

トークン

100 万トークンあたり

qvq-72b-preview

32,768

16,384

画像あたり最大 16,384 トークン

16,384

$1.721

$5.161

Qwen-Omni

これは、Qwen2.5 でトレーニングされた新しいマルチモーダル大規模モデルです。テキスト、画像、音声、動画の入力をサポートし、テキストと音声を同時にストリームで生成できます。マルチモーダルコンテンツの理解速度が大幅に向上しました。使用方法 | API リファレンス

国際 (シンガポール)

モデル

コンテキストウィンドウ

最大入力

最大出力

無料クォータ

(注)

(トークン)

qwen2.5-omni-7b

32,768

30,720

2,048

100 万トークン (モダリティに関係なく)

Alibaba Cloud Model Studio をアクティベートしてから 90 日間有効です。

無料クォータを使い切った後は、入力と出力に以下の課金ルールが適用されます：

入力項目	価格 (100 万トークン)
テキスト	$0.10
音声	$6.76
画像/動画	$0.28

出力項目

価格 (100 万トークン)

テキスト

$0.40 (入力がテキストのみの場合)

$0.84 (入力に画像、音声、または動画が含まれる場合)

テキストと音声

$13.51 (音声コンポーネントの場合)

出力のテキスト部分は課金されません。

中国 (北京)

モデル	コンテキストウィンドウ	最大入力	最大出力
モデル	(トークン)
qwen2.5-omni-7b	32,768	30,720	2,048

入力と出力の課金ルールは以下の通りです：

入力	価格 (100 万トークン)
テキスト	$0.087
音声	$5.448
画像または動画	$0.287

出力

価格 (100 万トークン)

テキスト

$0.345 (入力がテキストのみの場合)

$0.861 (入力に画像、音声、または動画が含まれる場合)

テキストと音声

$10.895 (音声部分)

出力のテキスト部分は課金されません。

Qwen3-Omni-Captioner

Qwen3-Omni-Captioner は、Qwen3-Omni に基づくオープンソースモデルです。プロンプトなしで、音声、環境音、音楽、効果音などの複雑な音声に対して、正確で包括的な説明を自動的に生成します。話者の感情、音楽的要素 (スタイルや楽器など)、機密情報を識別できるため、音声コンテンツ分析、セキュリティ監査、意図認識、音声編集などのアプリケーションに適しています。使用方法 | API リファレンス

説明

このモデルはシンガポールリージョンでのみ利用可能です。

モデル

コンテキストウィンドウ

最大入力

最大出力

入力コスト

出力コスト

無料クォータ

(注)

(トークン)

(100 万トークン)

qwen3-omni-30b-a3b-captioner

65,536

32,768

$3.81

$3.06

100 万トークン

有効期間：Alibaba Cloud Model Studio をアクティベートしてから 90 日

Qwen-VL

これは Alibaba Cloud の Qwen-VL のオープンソース版です。使用方法 | API リファレンス

Qwen3-VL モデルは、Qwen2.5-VL と比較して大幅な改善を提供します：

エージェントインタラクション：コンピュータや携帯電話のインターフェースを操作し、グラフィカルユーザーインターフェース (GUI) 要素を検出し、機能を理解し、ツールを呼び出してタスクを実行します。OS World などの評価でトップクラスのパフォーマンスを達成します。
視覚エンコーディング：画像や動画からコードを生成します。この機能を使用して、デザインドラフトやウェブサイトのスクリーンショットから HTML、CSS、JS コードを作成できます。
空間知能：2D および 3D の位置特定をサポートし、オブジェクトの向き、視点の変化、オクルージョン関係を正確に判断します。
長尺動画理解：最大 20 分の動画コンテンツを理解し、秒単位の精度で特定の瞬間を特定できます。
ディープシンキング：詳細のキャプチャと因果関係の分析に優れ、MathVista や MMMU などの評価でトップクラスのパフォーマンスを達成します。
OCR：33 言語をサポートし、複雑な照明、ぼかし、傾きを伴うシナリオでより安定して動作します。また、珍しい文字、古代の文字、専門用語の認識精度も大幅に向上します。
サポートされている言語
このモデルは、中国語、日本語、韓国語、インドネシア語、ベトナム語、タイ語、英語、フランス語、ドイツ語、ロシア語、ポルトガル語、スペイン語、イタリア語、スウェーデン語、デンマーク語、チェコ語、ノルウェー語、オランダ語、フィンランド語、トルコ語、ポーランド語、スワヒリ語、ルーマニア語、セルビア語、ギリシャ語、カザフ語、ウズベク語、セブアノ語、アラビア語、ウルドゥー語、ペルシャ語、ヒンディー語/デーヴァナーガリー文字、ヘブライ語の 33 言語をサポートしています。

国際 (シンガポール)

モデル	モード	コンテキストウィンドウ	最大入力	最大思考連鎖	最大応答	入力コスト	出力コスト CoT + 応答	無料クォータ (注)
モデル	モード	(トークン)				(100 万トークン)		無料クォータ (注)
qwen3-vl-235b-a22b-thinking	思考のみ		126,976	81,920		$0.4	$4	各 100 万トークン Model Studio のアクティベート後 90 日間有効。
qwen3-vl-235b-a22b-instruct	非思考のみ		129,024	-		$0.4	$1.6
qwen3-vl-32b-thinking	思考のみ	131,072	126,976	81,920	32,768	$0.16	$0.64
qwen3-vl-32b-instruct	非思考のみ		129,024	-		$0.16	$0.64
qwen3-vl-30b-a3b-thinking	思考のみ		126,976	81,920		$0.2	$2.4
qwen3-vl-30b-a3b-instruct	非思考のみ		129,024	-		$0.2	$0.8
qwen3-vl-8b-thinking	思考のみ		126,976	81,920		$0.18	$2.1
qwen3-vl-8b-instruct	非思考のみ		129,024	-		$0.18	$0.7

その他のモデル

モデル	コンテキストウィンドウ	最大入力	最大出力	入力コスト	出力コスト	無料クォータ (注)
	(トークン)			(100 万トークン)
qwen2.5-vl-72b-instruct	131,072	129,024 画像あたり最大 16,384	8,192	$2.8	$8.4	100 万トークン Alibaba Cloud Model Studio をアクティベートしてから 90 日間有効です。
qwen2.5-vl-32b-instruct				$1.4	$4.2
qwen2.5-vl-7b-instruct				$0.35	$1.05
qwen2.5-vl-3b-instruct				$0.21	$0.63

中国 (北京)

モデル	モード	コンテキストウィンドウ	最大入力	最大思考連鎖	最大応答	入力コスト	出力コスト CoT + 応答	無料クォータ (注)
モデル	モード	(トークン)				(100 万トークン)		無料クォータ (注)
qwen3-vl-235b-a22b-thinking	思考のみ	131,072	126,976	81,920		$0.286705	$2.867051	無料クォータなし
qwen3-vl-235b-a22b-instruct	非思考のみ	131,072	129,024	-		$0.286705	$1.146820
qwen3-vl-32b-thinking	思考のみ	131,072	126,976	81,920	32,768	$0.287	$2.868
qwen3-vl-32b-instruct	非思考のみ		129,024	-		$0.287	$1.147
qwen3-vl-30b-a3b-thinking	思考のみ		126,976	81,920		$0.108	$1.076
qwen3-vl-30b-a3b-instruct	非思考のみ		129,024	-		$0.108	$0.431
qwen3-vl-8b-thinking	思考のみ		126,976	81,920		$0.072	$0.717
qwen3-vl-8b-instruct	非思考のみ		129,024	-		$0.072	$0.287

その他のモデル

モデル	コンテキストウィンドウ	最大入力	最大出力	入力コスト	出力コスト	無料クォータ (注)
モデル	(トークン)			(100 万トークン)		無料クォータ (注)
qwen2.5-vl-72b-instruct	131,072	129,024 画像あたり最大 16,384	8,192	$2.294	$6.881	無料クォータなし
qwen2.5-vl-32b-instruct				$1.147	$3.441
qwen2.5-vl-7b-instruct				$0.287	$0.717
qwen2.5-vl-3b-instruct				$0.173	$0.517
qwen2-vl-72b-instruct	32,768	30,720 画像あたり最大 16,384	2,048	$2.294	$6.881

Qwen-Math

これは、Qwen モデルに基づいて構築された、数学の問題解決に特化した言語モデルです。Qwen2.5-Math は中国語と英語をサポートし、思考の連鎖 (CoT)、思考のプログラム (PoT)、ツール統合推論 (TIR) など、複数の推論方法を統合しています。使用方法 | API リファレンス | オンラインで試す

説明

この機能は中国 (北京) リージョンでのみ利用可能です。

モデル	コンテキストウィンドウ	最大入力	最大出力	入力コスト	出力コスト
	(トークン)			(100 万トークン)
qwen2.5-math-72b-instruct	4,096	3,072	3,072	$0.574	$1.721
qwen2.5-math-7b-instruct				$0.144	$0.287
qwen2.5-math-1.5b-instruct				期間限定で無料

Qwen-Coder

Qwen-Coder は Qwen のオープンソースコードモデルです。最新の Qwen3-Coder シリーズは強力なコーディングエージェント機能を備えています。ツールの呼び出し、環境との対話、自律的なプログラミングに優れています。このモデルは、優れたコーディングスキルと汎用能力を兼ね備えています。使用方法 | API リファレンス

国際 (シンガポール)

モデル	コンテキストウィンドウ	最大入力	最大出力	入力コスト	出力コスト	無料クォータ (注)
	トークン数
qwen3-coder-480b-a35b-instruct	262,144	204,800	65,536	段階的価格設定。詳細については、表の下の説明をご参照ください。		各 100 万トークン Alibaba Cloud Model Studio をアクティベートしてから 90 日間有効です。
qwen3-coder-30b-a3b-instruct

qwen3-coder-480b-a35b-instruct と qwen3-coder-30b-a3b-instruct の課金は、リクエストごとの入力トークン数に基づいた段階的価格設定です。

モデル	リクエストごとの入力トークン	入力コスト (100 万トークン)	出力コスト (100 万トークン)
qwen3-coder-480b-a35b-instruct	0 < トークン ≤ 32K	$1.50	$7.50
	32K < トークン ≤ 128K	$2.70	$13.50
	128K < トークン ≤ 200K	$4.50	$22.50
qwen3-coder-30b-a3b-instruct	0 < トークン ≤ 32K	$0.45	$2.25
	32K < トークン ≤ 128K	$0.75	$3.75
	128K < トークン ≤ 200K	$1.20	$6.00

中国 (北京)

モデル	コンテキストウィンドウ	最大入力	最大出力	入力コスト	出力コスト
	（トークン）			（百万トークン）
qwen3-coder-480b-a35b-instruct	262,144	204,800	65,536	段階的価格設定。以下の説明をご参照ください。
qwen3-coder-30b-a3b-instruct
qwen2.5-coder-32b-instruct	131,072	129,024	8,192	$0.287	$0.861
qwen2.5-coder-14b-instruct
qwen2.5-coder-7b-instruct				$0.144	$0.287
qwen2.5-coder-3b-instruct	32,768	30,720		期間限定の無料トライアル
qwen2.5-coder-1.5b-instruct
qwen2.5-coder-0.5b-instruct

qwen3-coder-480b-a35b-instruct と qwen3-coder-30b-a3b-instruct の課金は、リクエストあたりの入力トークン数に応じて段階的に設定されます。

モデル	リクエストあたりの入力トークン数	入力コスト (百万トークン)	出力コスト (百万トークン)
qwen3-coder-480b-a35b-instruct	0 < トークン数 ≤ 32K	$0.861	$3.441
	32K < トークン ≤ 128K	$1.291	$5.161
	128K < トークン ≤ 200K	$2.151	$8.602
qwen3-coder-30b-a3b-instruct	0 < トークン ≤ 32K	$0.216	$0.861
	32K < トークン ≤ 128K	$0.323	$1.291
	128K < トークン ≤ 200K	$0.538	$2.151

テキスト生成 - サードパーティモデル

DeepSeek

DeepSeek は DeepSeek AI が発表した大規模言語モデルです。API リファレンス | オンラインで試す

説明

この機能は、中国 (北京) リージョンでのみ利用可能です。

モデル	コンテキストウィンドウ	最大入力	最大思考チェーン	最大応答	入力コスト	出力コスト
	(トークン)				(100 万トークン)
deepseek-v3.2 685B フルパワーバージョン	131,072	98,304	32,768	65,536	$0.287	$0.431
deepseek-v3.2-exp 685B フルパワーバージョン
deepseek-v3.1 685B フルパワーバージョン					$0.574	$1.721
deepseek-r1 685B フルパワーバージョン				16,384		$2.294
deepseek-r1-0528 685B フルパワーバージョン
deepseek-v3 671B フルパワーバージョン		131,072	該当なし		$0.287	$1.147
deepseek-r1-distill-qwen-1.5b Qwen2.5-Math-1.5B に基づく	32,768	32,768	16,384	16,384	期間限定無料トライアル
deepseek-r1-distill-qwen-7b Qwen2.5-Math-7B に基づく					$0.072	$0.144
deepseek-r1-distill-qwen-14b Qwen2.5-14B に基づく					$0.144	$0.431
deepseek-r1-distill-qwen-32b Qwen2.5-32B に基づく					$0.287	$0.861
deepseek-r1-distill-llama-8b Llama-3.1-8B に基づく					期間限定無料トライアル
deepseek-r1-distill-llama-70b Llama-3.3-70B に基づく

Kimi

Kimi-K2 は、Moonshot AI が提供する中国初のオープンソース兆パラメータ混合エキスパート (MoE) モデルです。320 億のパラメーターをアクティブ化し、優れたコーディング機能とツール呼び出し機能を備えています。使用方法 | オンラインで試す

説明

この機能は、中国 (北京) リージョンでのみ利用可能です。

モデル	コンテキストウィンドウ	最大入力	最大思考チェーン	最大応答	入力価格	出力価格
モデル	(トークン)				(100 万トークン)
kimi-k2-thinking	262,144	229,376	32,768	16,384	$0.574	$2.294
Moonshot-Kimi-K2-Instruct	131,072	131,072	-	8,192	$0.574	$2.294

画像生成

Qwen text-to-image

Qwen text-to-image モデルは、特に中国語と英語の複雑なテキストのレンダリングに優れています。現在、qwen-image-plus は qwen-image と同じ機能を持ちますが、qwen-image-plus の方が低価格です。API リファレンス

国際 (シンガポール)

モデル	単価	無料クォータ

qwen-image-plus	$0.03/画像	無料クォータ：各モデル 100 画像有効期間：Alibaba Cloud Model Studio を有効化してから 90 日以内。
qwen-image	$0.035/画像

中国 (北京)

モデル	単価	無料クォータ

qwen-image-plus	$0.028671/画像	無料クォータなし
qwen-image	$0.035/画像

入力プロンプト

出力画像

緑豊かな芝生の上でボール遊びをする 3 匹の子犬をフィーチャーした、癒し系の手描きポスター。鳥や星などの装飾要素が飾られています。メインタイトル「Come Play Ball!」は、太字の青いカートゥーンフォントで上部に目立つように表示されています。その下に、サブタイトル「Come [Show Off Your Skills]!」が緑色のフォントで表示されます。吹き出しには「へへ、次は僕のすごいところを友達に見せてやる！」というテキストがあり、遊び心のある魅力を加えています。下部には、「また友達とボール遊びができるね！」という補足テキストがあります。カラーパレットは、新鮮な緑と青を中心に、明るいピンクと黄色のトーンでアクセントをつけ、陽気で子供らしい雰囲気を強調しています。

Qwen 画像編集

Qwen 画像編集モデルは、中国語と英語の正確なテキスト編集をサポートします。また、色調整、詳細の強調、スタイル転送、オブジェクトの追加または削除、位置と操作の変更などの操作もサポートします。これらの特徴により、画像とテキストの複雑な編集が可能になります。API リファレンス

国際 (シンガポール)

モデル	単価	無料クォータ

qwen-image-edit-plus	$0.03/画像	無料クォータ：各モデル 100 画像有効期間：Alibaba Cloud Model Studio を有効化してから 90 日以内。
qwen-image-edit-plus-2025-10-30	$0.03/画像
qwen-image-edit	$0.045/画像

中国 (北京)

モデル	単価	無料クォータ

qwen-image-edit-plus	$0.028671/画像	無料クォータなし
qwen-image-edit-plus-2025-10-30	$0.028671/画像
qwen-image-edit	$0.043/画像

dog_and_girl (1)

元画像

狗修改图

人物を立たせて、かがんで犬の前足を持つように変更。

元画像

積み木の「HEALTH INSURANCE」というテキストを「明天会更好」に置き換える。

元画像

5out

ドット柄のシャツを水色のシャツに置き換える。

元画像

6out

バックグラウンドを南極に変更。

元画像

7out

人物のカートゥーン風プロフィール画像を生成。

元画像

ディナープレートから髪の毛を削除。

Qwen 画像翻訳

Qwen 画像翻訳モデルは、11 言語の画像内のテキストを中国語または英語に翻訳することをサポートします。元のレイアウトとコンテンツ情報を正確に保持し、用語定義、禁止用語のフィルタリング、画像エンティティ検出などのカスタム機能を提供します。 API リファレンス

説明

この機能は、中国 (北京) リージョンでのみ利用可能です。

モデル	単価	無料クォータ

qwen-mt-image	$0.000431/画像	無料クォータなし

元画像

日本語

ポルトガル語

アラビア語

Wan text-to-image

Wan text-to-image モデルは、テキストから精巧な画像を生成します。API リファレンス | オンラインで試す

国際 (シンガポール)

モデル	説明	単価	無料クォータ(注) _{有効期間：Alibaba Cloud Model Studio を有効化してから 90 日以内。}
wan2.5-t2i-preview `推奨`	Wan 2.5 プレビュー版。片側の長さ制限がなくなりました。総ピクセル面積と縦横比の制約内で、ディメンションを自由に選択できます。	$0.03/画像	50 画像
wan2.2-t2i-plus `推奨`	Wan 2.2 Professional Edition。創造性、安定性、リアルな質感が全面的にスペックアップしました。	$0.05/画像	100 画像
wan2.2-t2i-flash `推奨`	Wan 2.2 Flash Edition。創造性、安定性、リアルな質感が全面的にスペックアップしました。	$0.025/画像	100 画像
wan2.1-t2i-plus	Wan 2.1 Professional Edition。複数のスタイルをサポートし、詳細が豊富な画像を生成します。	$0.05/画像	200 画像
wan2.1-t2i-turbo	Wan 2.1 Turbo Edition。複数のスタイルをサポートし、高速な生成速度を提供します。	$0.025/画像	200 画像

中国 (北京)

モデル	説明	単価	無料クォータ(注) _{有効期間：Alibaba Cloud Model Studio を有効化してから 90 日以内。}
wan2.5-t2i-preview `推奨`	Wan 2.5 プレビュー版。片側の長さ制限がなくなりました。総ピクセル面積と縦横比の制約内で、ディメンションを自由に選択できます。	$0.028671/画像	無料クォータなし
wan2.2-t2i-plus `推奨`	Wan 2.2 Professional Edition。創造性、安定性、リアルな質感が全面的にスペックアップしました。	$0.02007/画像	無料クォータなし
wan2.2-t2i-flash `推奨`	Wan 2.2 Flash Edition。創造性、安定性、リアルな質感が全面的にスペックアップしました。	$0.028671/画像	無料クォータなし
wanx2.1-t2i-plus	Wan 2.1 Professional Edition。複数のスタイルをサポートし、詳細が豊富な画像を生成します。	$0.028671/画像	無料クォータなし
wanx2.1-t2i-turbo	Wan 2.1 Turbo Edition。複数のスタイルをサポートし、高速な生成速度を提供します。	$0.020070/画像	無料クォータなし
wanx2.0-t2i-turbo	Wan 2.0 Turbo Edition。質感のあるポートレートやクリエイティブなデザインに優れており、コストパフォーマンスが高いです。	$0.005735/画像	無料クォータなし

入力プロンプト	出力画像
カラフルなギフトと緑の植物をバックグラウンドに、ギフトを持つニードルフェルトのサンタクロースとその隣に立つ白い猫が、キュートで暖かく、居心地の良いシーンを作り出しています。

Wan2.5 一般画像編集

Wan2.5 一般画像編集モデルは、エンティティの一貫性を保った画像編集と複数画像の融合をサポートします。入力として、テキスト、単一の画像、または複数の画像を受け付けます。API リファレンス

国際 (シンガポール)

モデル

単価

無料クォータ(注)

_{有効期間：Alibaba Cloud Model Studio を有効化してから 90 日以内。}

wan2.5-i2i-preview

$0.03/画像

50 画像

中国 (北京)

モデル	単価	無料クォータ
wan2.5-i2i-preview	$0.028671/画像	無料クォータなし

特徴

入力例

出力画像

単一画像の編集

damotest2023_Portrait_photography_outdoors_fashionable_beauty_409ae3c1-19e8-4515-8e50-b3c9072e1282_2-转换自-png

a26b226d-f044-4e95-a41c-d1c0d301c30b-转换自-png

花柄のドレスを、襟と袖口に精巧な刺繍が施されたヴィンテージスタイルのレースのロングドレスに変更。

複数画像の融合

p1028883

画像 1 の目覚まし時計を、画像 2 の食卓にある花瓶の隣に配置。

Wan2.1 汎用画像編集

Wan2.1 汎用画像編集モデルは、簡単な命令で多様な画像編集を実行します。アウトペインティング、ウォーターマーク除去、スタイル変換、画像修復、イメージエンハンスメントなどのシナリオに適しています。使用方法 | API リファレンス

説明

この機能は、中国 (北京) リージョンでのみ利用可能です。

モデル	単価	無料クォータ
wanx2.1-imageedit	画像あたり $0.020070	無料クォータなし

現在、汎用画像編集モデルは次の機能をサポートしています：

機能	入力画像	入力プロンプト	出力画像
全体的なスタイル変換		フランスの絵本スタイルに変換。
部分的なスタイル変換		家を木板スタイルに変更。
命令ベースの編集		女の子の髪を赤色に変更。
インペインティング	入力画像マスク画像 (白色のエリアがマスクです)	セラミックの花を持つセラミックのウサギ。	出力画像
テキストウォーターマークの除去		画像からテキストを削除。
アウトペインティング		緑の妖精。
画像の超解像	ぼやけた画像	画像の超解像。	鮮明な画像
画像のカラー化		青い背景、黄色い葉。
線画から画像生成		ミニマリストな北欧スタイルのリビングルーム。
プレースホルダー画像		漫画のキャラクターが慎重に顔を出し、部屋の中にある輝く青い宝石を覗き込んでいます。

OutfitAnyone

ベーシックバージョンと比較して、OutfitAnyone-Plus モデルは、画像の鮮明度、服の質感のディテール、ロゴの復元において改善されています。ただし、イメージの生成に時間がかかるため、時間的制約のないシナリオに適しています。API リファレンス | オンラインで試す
OutfitAnyone-Image Parsing は、モデルと服のイメージの解析をサポートしており、OutfitAnyone イメージの前処理と後処理に使用できます。API リファレンス

説明

この機能は、中国 (北京) リージョンでのみ利用可能です。

モデル	説明	入力例	出力例
aitryon-plus	OutfitAnyone-Plus
aitryon-parsing-v1	OutfitAnyone-Image Parsing

OutfitAnyone の料金

モデルサービス	モデル	単価	割引	階層
OutfitAnyone-Plus	aitryon-plus	$0.071677 / イメージ	なし	なし
OutfitAnyone-Image Parsing	aitryon-parsing-v1	$0.000574 / イメージ	なし	なし

ビデオ生成 - Wan

テキストからのビデオ生成

Wan テキストからのビデオ生成モデルは、1つの文からビデオを生成します。生成されるビデオは、豊かな芸術的スタイルと映画のような品質が特徴です。API リファレンス | オンラインで試す

シンガポール (国際)

モデル	説明	単価	無料クォータ (取得) _{Alibaba Cloud Model Studio をアクティベートしてから 90 日間有効}
wan2.5-t2v-preview `推奨`	Wan 2.5 プレビュー版。自動ナレーションとカスタム音声ファイルの入力をサポートします。	480P：$0.05/秒 720P：$0.10/秒 1080P：$0.15/秒	50 秒
wan2.2-t2v-plus `推奨`	Wan 2.2 Professional Edition。画質の詳細とモーションの安定性が大幅に向上しました。	480P：$0.02/秒 1080P：$0.10/秒	50 秒
wan2.1-t2v-turbo	Wan 2.1 Turbo Edition。高速な生成速度とバランスの取れたパフォーマンスが特徴です。	$0.036/秒	200 秒
wan2.1-t2v-plus	Wan 2.1 Professional Edition。豊かなディテールと高品質な画像を生成します。	$0.10/秒	200 秒

中国 (北京)

モデル	説明	単価	無料クォータ
wan2.5-t2v-preview `推奨`	Wan 2.5 プレビュー版。自動ナレーションとカスタム音声ファイルの入力をサポートします。	480P：$0.043006/秒 720P：$0.086012/秒 1080P：$0.143353/秒	無料クォータなし
wan2.2-t2v-plus `推奨`	Wan 2.2 Professional Edition。画質の詳細とモーションの安定性が大幅に向上しました。	480P：$0.02007/秒 1080P：$0.100347/秒	無料クォータなし
wanx2.1-t2v-turbo	高速な生成速度とバランスの取れたパフォーマンスが特徴です。	$0.034405/秒	無料クォータなし
wanx2.1-t2v-plus	豊かなディテールと高品質な画像を生成します。	$0.100347/秒	無料クォータなし

入力例

出力ビデオ (wan2.5)

入力プロンプト：ローアングルからの撮影、ミディアムクローズアップ、暖色系のトーン、混合照明 (デスクランプの実用光と窓からの曇り空の光が混ざり合う)、サイドライティング、中央構図。クラシックな探偵事務所で、木製の本棚には古い事件ファイルと灰皿が並んでいます。緑色のデスクランプが、机の中央に広げられた事件ファイルを照らしています。暗褐色のトレンチコートと薄灰色のフェドーラ帽をかぶったキツネが革張りの椅子に座り、その毛皮は深紅色で、尾は軽く端にかかり、指はゆっくりと黄ばんだページをめくっています。外では、青空の下で絶え間ない霧雨が降り、ガラスに蛇行する筋を残しています。彼はゆっくりと頭を上げ、耳をわずかにひくつかせ、琥珀色の瞳でカメラをまっすぐに見つめ、滑らかで皮肉な声で口をはっきりと動かしながら話します：'The case was cold, colder than a fish in winter. But every chicken has its secrets, and I, for one, intended to find them '。

入力音声：

画像からのビデオ生成 - 最初のフレームに基づく

Wan 画像からのビデオ生成モデルは、入力画像をビデオの最初のフレームとして使用します。その後、プロンプトに基づいてビデオの残りの部分を生成します。生成されるビデオは、豊かな芸術的スタイルと映画のような品質が特徴です。API リファレンス | オンラインで試す

シンガポール (国際)

モデル	説明	単価	無料クォータ (注意事項) _{有効期間：Alibaba Cloud Model Studio をアクティベートしてから 90 日以内}
wan2.5-i2v-preview `推奨`	Wan 2.5 プレビュー版。自動吹き替えとカスタム音声ファイルのアップロードをサポートします。	480P：$0.05/秒 720P：$0.10/秒 1080P：$0.15/秒	50 秒
wan2.2-i2v-flash `推奨`	Wan 2.2 Flash Edition。非常に高速な生成速度を実現し、視覚的な詳細とモーションの安定性が大幅に向上しました。	480P：$0.015/秒 720P：$0.036/秒	50 秒
wan2.2-i2v-plus `推奨`	Wan 2.2 Professional Edition。視覚的な詳細とモーションの安定性が大幅に向上しました。	480P：$0.02/秒 1080P：$0.10/秒	50 秒
wan2.1-i2v-turbo	Wan 2.1 Turbo Edition。高速な生成速度とバランスの取れたパフォーマンスが特徴です。	$0.036/秒	200 秒
wan2.1-i2v-plus	Wan 2.1 Professional Edition。豊かなディテールを生成し、より高品質でテクスチャ感のあるビジュアルを生成します。	$0.10/秒	200 秒

中国 (北京)

モデル	説明	単価	無料クォータ
wan2.5-i2v-preview `推奨`	Wan 2.5 プレビュー版。自動吹き替えとカスタム音声ファイルのアップロードをサポートします。	480P：$0.043006/秒 720P：$0.086012/秒 1080P：$0.143353/秒	無料クォータなし
wan2.2-i2v-plus `推奨`	Wan 2.2 Professional Edition。視覚的な詳細とモーションの安定性が大幅に向上しました。	480P：$0.02007/秒 1080P：$0.100347/秒	無料クォータなし
wanx2.1-i2v-turbo	Wan 2.1 Turbo Edition。高速な生成速度とバランスの取れたパフォーマンスが特徴です。	$0.034405/秒	無料クォータなし
wanx2.1-i2v-plus	Wan 2.1 Professional Edition。豊かなディテールを生成し、より高品質でテクスチャ感のあるビジュアルを生成します。	$0.100347/秒	無料クォータなし

最初のフレームの画像と音声の入力

出力ビデオ (wan2.5)

rap-转换自-png

入力音声：

入力プロンプト：都会のファンタジーアートのシーン。ダイナミックなグラフィティアートのキャラクター。コンクリートの壁からスプレーで描かれた少年が生き生きと動き出します。彼は非常に速いペースで英語のラップソングを歌いながら、クラシックでエネルギッシュなラッパーのポーズをとります。シーンは夜の都市の鉄道橋の下に設定されています。照明は単一の街灯から来ており、高いエネルギーと驚くべきディテールに満ちた映画のような雰囲気を醸し出しています。ビデオの音声は完全に彼のラップで構成されており、他の対話やノイズはありません。

画像からのビデオ生成 - 最初と最後のフレームに基づく

Wan 最初と最後のフレームに基づくビデオモデルは、プロンプトから滑らかで動的なビデオを生成します。最初と最後のフレーム画像を提供するだけで済みます。生成されるビデオは、豊かな芸術的スタイルと映画のような品質が特徴です。API リファレンス | オンラインで試す

シンガポール (国際)

モデル

単価

無料クォータ (注意事項)

wan2.1-kf2v-plus

$0.10/秒

200 秒

有効期間：Model Studio をアクティベートしてから 90 日以内

中国 (北京)

モデル	単価	無料クォータ (注意事項)
wanx2.1-kf2v-plus	$0.100347/秒	無料クォータなし

入力例			出力ビデオ
最初のフレーム	最後のフレーム	プロンプト	出力ビデオ
		リアルなスタイルで、カメラは小さな黒猫が好奇心を持って空を見上げている目線の高さから始まり、徐々に上に移動し、猫の好奇心旺盛な目に焦点を当てたトップダウンショットで終わります。

一般的なビデオ編集

Wan 統合ビデオ編集モデルは、テキスト、画像、ビデオなどのマルチモーダル入力をサポートします。ビデオ生成や一般的な編集タスクを実行できます。API リファレンス | オンラインで試す

シンガポール (国際)

モデル

単価

無料クォータ (注意事項)

wan2.1-vace-plus

$0.1/秒

50 秒

有効期間：Model Studio をアクティベートしてから 90 日間有効。

中国 (北京)

モデル	単価	無料クォータ (注意事項)
wanx2.1-vace-plus	$0.100347/秒	無料クォータなし

統合ビデオ編集モデルは、以下の機能をサポートします：

機能	入力参照画像	入力プロンプト	出力ビデオ
複数画像の参照	参照画像 1 (参照エンティティ) 参照画像 2 (参照バックグラウンド)	ビデオでは、少女が霧のかかった古代の森から優雅に歩き出します。彼女の足取りは軽く、カメラは彼女の軽快な一瞬一瞬を捉えます。少女が立ち止まり、緑豊かな森を見回すと、驚きと喜びの笑みが彼女の顔に咲き誇ります。光と影が交錯するこの瞬間、彼女と自然との素晴らしい出会いが記録されます。	出力ビデオ
ビデオの再描画		ビデオには、紳士が運転する黒いスチームパンクスタイルの車が映っています。車は歯車と銅管で飾られています。バックグラウンドには蒸気動力のキャンディー工場とレトロな要素が描かれ、ヴィンテージで遊び心のあるシーンを作り出しています。
部分編集	入力ビデオ入力マスク画像 (白色のエリアが編集エリアを示します)	ビデオには、パリ風のフレンチカフェでスーツを着たライオンが優雅にコーヒーを飲んでいる様子が映っています。片手にコーヒーカップを持ち、リラックスした表情で優しく一口飲んでいます。カフェは趣味良く装飾され、柔らかな色合いと暖かい照明がライオンのいるエリアを照らしています。	編集エリア内のコンテンツは、プロンプトに基づいて変更されます。
ビデオ拡張	最初のクリップの入力 (1 秒)	サングラスをかけた犬が路上でスケートボードをしている、3D カートゥーン。	出力拡張ビデオ (5 秒)
ビデオのアウトペインティング		優雅な女性が情熱的にバイオリンを弾いており、その後ろにはフルオーケストラがいます。

Wan - デジタルヒューマン

この機能は、1つのキャラクター画像と音声ファイルに基づいて、人が話したり、歌ったり、パフォーマンスしたりする自然なビデオを生成します。この機能を使用するには、以下のモデルを順番に呼び出します。wan2.2-s2v 画像検出 | wan2.2-s2v ビデオ生成

説明

この機能は、中国 (北京) リージョンでのみ利用可能です。

モデル	説明	単価

wan2.2-s2v-detect	入力画像が、解像度、単一人物、正面向きなどの要件を満たしているかどうかを確認します。	$0.000574/画像
wan2.2-s2v	有効な画像と音声クリップから、人物の動的なビデオを生成します。	480P：$0.071677/秒 720P：$0.129018/秒

入力例

出力ビデオ

p1001125-转换自-jpeg

入力音声：

Wan - 画像のアニメーション化

Standard モードと Professional モードで利用可能です。このモデルは、参照ビデオのアクションと表情をキャラクター画像に転送し、画像からキャラクターをアニメーション化するビデオを生成します。API リファレンス。

シンガポール (国際)

モデル	サービス	説明	単価	無料クォータ (表示)
wan2.2-animate-move	Standard モード `wan-std`	高速な生成速度。シンプルなアニメーションデモなどの基本的なニーズに対応します。コスト効率に優れています。	$0.12/秒	2つのサービスで 50 秒を共有
wan2.2-animate-move	Professional モード `wan-pro`	高いアニメーションの滑らかさ。アクションと表情の自然なトランジション。結果は実写ビデオに近いです。	$0.18/秒	2つのサービスで 50 秒を共有

中国 (北京)

モデル	サービス	説明	単価	無料クォータ (表示)
wan2.2-animate-move	Standard モード `wan-std`	高速な生成速度。シンプルなアニメーションデモなどの基本的なニーズに対応します。コスト効率に優れています。	$0.06/秒	無料クォータなし
wan2.2-animate-move	Professional モード `wan-pro`	高いアニメーションの滑らかさ。アクションと表情の自然なトランジション。結果は実写ビデオに近いです。	$0.09/秒	無料クォータなし

キャラクター画像	参照ビデオ	出力ビデオ (Standard)	出力ビデオ (Professional)

Wan - ビデオキャラクターの入れ替え

Standard モードと Professional モードで利用可能です。このモデルは、ビデオの主役キャラクターを画像のキャラクターに置き換えます。元のビデオのシーン、照明、色合いは保持されます。API リファレンス。

シンガポール (国際)

モデル	サービス	説明	単価	無料クォータ (表示)
wan2.2-animate-mix	Standard モード `wan-std`	アニメーションを迅速に生成します。シンプルなデモなどの基本的な要件に最適です。非常にコスト効率が高いです。	$0.18/秒	2つのサービスで 50 秒を共有
wan2.2-animate-mix	Professional モード `wan-pro`	アクションと表情の自然なトランジションを備えた非常に滑らかなアニメーションを生成します。結果は実写ビデオに酷似しています。	$0.26/秒	2つのサービスで 50 秒を共有

中国 (北京)

モデル	サービス	説明	単価	無料クォータ (表示)
wan2.2-animate-mix	Standard モード `wan-std`	アニメーションを迅速に生成します。シンプルなデモなどの基本的な要件に最適です。非常にコスト効率が高いです。	$0.09/秒	無料クォータなし
wan2.2-animate-mix	Professional モード `wan-pro`	アクションと表情の自然なトランジションを備えた非常に滑らかなアニメーションを生成します。結果は実写ビデオに酷似しています。	$0.13/秒	無料クォータなし

キャラクター画像	参照ビデオ	出力ビデオ (Standard)	出力ビデオ (Professional)

AnimateAnyone

この機能は、キャラクター画像とモーションテンプレートに基づいて、キャラクターのモーションビデオを生成します。この機能を使用するには、以下の3つのモデルを順番に呼び出します。AnimateAnyone 画像検出 API の詳細 | AnimateAnyone モーションテンプレートの生成 | AnimateAnyone ビデオ生成 API の詳細

説明

この機能は、中国 (北京) リージョンでのみ利用可能です。

モデル	説明	単価
animate-anyone-detect-gen2	入力画像が必要な仕様を満たしているかを検出します。	$0.000574/画像
animate-anyone-template-gen2	ビデオからキャラクターの動きを抽出し、モーションテンプレートを生成します。	$0.011469/秒
animate-anyone-gen2	キャラクター画像とモーションテンプレートに基づいて、キャラクターのモーションビデオを生成します。	$0.011469/秒

入力：キャラクター画像	入力：モーションビデオ	出力 (画像のバックグラウンド)	出力 (ビデオのバックグラウンド)

説明

前述の例は、AnimateAnyone を統合した Tongyi App によって生成されました。
AnimateAnyone モデルによって生成されるコンテンツはビデオのみで、音声は含まれません。

EMO

この機能は、ポートレート画像と人間の音声ファイルに基づいて、動的なポートレートビデオを生成します。この機能を使用するには、以下のモデルを順番に呼び出します。EMO 画像検出 | EMO ビデオ生成

説明

この機能は、中国 (北京) リージョンでのみ利用可能です。

モデル	説明	単価
emo-detect-v1	入力画像が必要な仕様を満たしているかを検出します。このモデルはデプロイメントなしで直接呼び出すことができます。	$0.000574/画像
emo-v1	動的なポートレートビデオを生成します。このモデルはデプロイメントなしで直接呼び出すことができます。	1:1 の縦横比のビデオを生成：$0.011469/秒 3:4 の縦横比のビデオを生成：$0.022937/秒

入力：ポートレート画像と人間の音声ファイル

出力：動的なポートレートビデオ

ポートレート：

上春山

人間の音声：右側のビデオをご参照ください。

キャラクタービデオ：

アクションスタイルの強度：アクティブ ("style_level": "active")

LivePortrait

これは、ポートレート画像と人間の音声ファイルに基づいて、動的なポートレートビデオを迅速に生成する軽量モデルです。EMO モデルと比較して、ビデオの生成速度が速く、コストも低いですが、品質は劣ります。この機能を使用するには、以下の2つのモデルを順番に呼び出します。LivePortrait 画像検出 | LivePortrait ビデオ生成

説明

この機能は、中国 (北京) リージョンでのみ利用可能です。

モデル	説明	単価
liveportrait-detect	入力画像が要件を満たしているかを検出します。	$0.000574/画像
liveportrait	動的なポートレートビデオを生成します。	$0.002868/秒

入力：ポートレート画像と音声ファイル

出力：アニメーションポートレートビデオ

ポートレート画像：

Emoji男孩

音声：右側のビデオから。

ポートレートビデオ：

絵文字

この機能は、顔画像とプリセットの顔のモーションテンプレートに基づいて、動的な顔ビデオを生成します。この機能は、絵文字の作成やビデオ素材の生成などのシナリオで使用できます。この機能を使用するには、以下のモデルを順番に呼び出します。絵文字画像検出 | 絵文字ビデオ生成

説明

この機能は、中国 (北京) リージョンでのみ利用可能です。

モデル	説明	単価
emoji-detect-v1	入力画像が指定された要件を満たしているかを検出します。	$0.000574/画像
emoji-v1	ポートレート画像と指定された絵文字テンプレートに基づいて、キャラクターの絵文字を生成します。	$0.011469/秒

入力：ポートレート画像	出力：動的なポートレートビデオ
	「happy」絵文字のテンプレートパラメーター：("input.driven_id": "mengwa_kaixin")

VideoRetalk

この機能は、キャラクタービデオと人間の音声ファイルに基づいて、キャラクターの口の動きが入力音声と一致するビデオを生成します。この機能を使用するには、以下のモデルを呼び出します。API リファレンス

説明

この機能は、中国 (北京) リージョンでのみ利用可能です。

モデル	説明	単価
videoretalk	キャラクターの口の動きが入力音声と同期した新しいビデオを生成します。	$0.011469/秒

ビデオのスタイル変換

このモデルは、ユーザーが入力したテキストのセマンティックな記述に一致するさまざまなスタイルのビデオを生成したり、ユーザーが入力したビデオのスタイルを変更したりすることをサポートします。API リファレンス

説明

この機能は、中国 (北京) リージョンでのみ利用可能です。

モデル	説明	単価

video-style-transform	入力ビデオを日本のマンガやアメコミなどのスタイルに変換します。	720p	$0.071677/秒
		540P	$0.028671/秒

入力ビデオ	出力ビデオ (日本のマンガスタイル)

音声合成

Qwen 音声合成

この機能は、多言語混合テキストの入力をサポートし、ストリーミングオーディオ出力を提供します。使用方法｜API リファレンス

シンガポール

モデル	バージョン	単価	最大入力文字数	サポート言語	無料クォータ (注)
qwen3-tts-flash 機能は qwen3-tts-flash-2025-09-18 と同一です。	安定版	$0.1/10,000 文字	600	中国語 (標準語、北京語、上海語、四川語、南京語、陝西語、閩南語、天津語、広東語)、英語、スペイン語、ロシア語、イタリア語、フランス語、韓国語、日本語、ドイツ語、ポルトガル語	2025年11月13日 00:00 より前に Model Studio をアクティベートした場合：2,000 文字 2025年11月13日 00:00 以降に Model Studio をアクティベートした場合：10,000 文字有効期間：Model Studio をアクティベートしてから 90 日間有効です。
qwen3-tts-flash-2025-11-27	スナップショット				10,000 文字有効期間：Model Studio をアクティベートしてから 90 日間有効です。
qwen3-tts-flash-2025-09-18	スナップショット				2025年11月13日 00:00 より前に Model Studio をアクティベートした場合：2,000 文字 2025年11月13日 00:00 以降に Model Studio をアクティベートした場合：10,000 文字有効期間：Model Studio をアクティベートしてから 90 日間有効です。

課金は入力文字数に基づきます。計算ルールは次のとおりです：

各漢字 (簡体字/繁体字中国語、日本の漢字、韓国の漢字を含む) は 2 文字としてカウントされます。
英字、句読点、スペースなどの他の文字は、それぞれ 1 文字としてカウントされます。

中国 (北京)

Qwen3-TTS-Flash

モデル	バージョン	単価	最大入力文字数	サポート言語
qwen3-tts-flash 機能は qwen3-tts-flash-2025-09-18 と同一です	安定版	$0.114682/10,000 文字	600	中国語 (標準語、北京語、上海語、四川語、南京語、陝西語、閩南語、天津語、広東語)、英語、スペイン語、ロシア語、イタリア語、フランス語、韓国語、日本語、ドイツ語、ポルトガル語
qwen3-tts-flash-2025-11-27	スナップショット
qwen3-tts-flash-2025-09-18	スナップショット

課金は入力文字数に基づきます。計算ルールは次のとおりです：

各漢字 (簡体字/繁体字中国語、日本の漢字、韓国の漢字を含む) は 2 文字としてカウントされます。
英字、句読点、スペースなどの他の文字は、それぞれ 1 文字としてカウントされます。

Qwen-TTS

モデル	バージョン	コンテキストウィンドウ	最大入力	最大出力	入力コスト	出力コスト
		(トークン)			(1,000 トークン)
qwen-tts 機能は qwen-tts-2025-04-10 と同一です。	安定版	8,192	512	7,680	$0.230	$1.434
qwen-tts-latest 最新のスナップショットバージョンと同一の機能です。	最新版
qwen-tts-2025-05-22	スナップショット
qwen-tts-2025-04-10

オーディオは 1 秒あたり 50 トークンのレートでトークンに変換されます。1 秒未満のオーディオクリップは 50 トークンとして課金されます。

Qwen リアルタイム音声合成

この機能は、ストリーミングテキスト入力とストリーミングオーディオ出力をサポートしており、テキストの内容や句読点に応じて話速を自動的に調整できます。使い方 | API リファレンス

Qwen3-TTS-VC-Realtime は、クローン音声を使用したリアルタイム音声合成をサポートしていますが、デフォルト音声はサポートしていません。

Qwen3-TTS-Flash-Realtime と Qwen-TTS-Realtime は、デフォルト音声のみをサポートしており、クローン音声はサポートしていません。

海外 (シンガポール)

Qwen3-TTS-VC-Realtime

モデル

バージョン

単価

対応言語

無料クォータ (注)

qwen3-tts-vc-realtime-2025-11-27

スナップショット

$0.13/10,000 文字

中国語、英語、スペイン語、ロシア語、イタリア語、フランス語、韓国語、日本語、ドイツ語、ポルトガル語

10,000 文字

有効期間：Model Studio を有効化してから 90 日間有効

課金は入力文字数に基づきます。計算ルールは以下の通りです：

各漢字 (簡体字/繁体字中国語、日本の漢字、韓国の漢字を含む) は 2 文字としてカウントされます。
その他の各文字 (英字、句読点、スペースなど) は 1 文字としてカウントされます。

Qwen3-TTS-Flash-Realtime

モデル	バージョン	単価	対応言語	無料クォータ (注)
qwen3-tts-flash-realtime qwen3-tts-flash-realtime-2025-09-18 と機能的に同等です	安定版	$0.13/10,000 文字	中国語 (標準語、北京語、上海語、四川語、南京語、陝西語、閩南語、天津語、広東語)、英語、スペイン語、ロシア語、イタリア語、フランス語、韓国語、日本語、ドイツ語、ポルトガル語	2025年11月13日 00:00 より前に Model Studio を有効化した場合：2,000 文字 2025年11月13日 00:00 以降に Model Studio を有効化した場合：10,000 文字有効期間：Model Studio を有効化してから 90 日間有効
qwen3-tts-flash-realtime-2025-11-27	スナップショット			10,000 文字有効期間：Model Studio を有効化してから 90 日間有効
qwen3-tts-flash-realtime-2025-09-18	スナップショット			2025年11月13日 00:00 より前に Model Studio を有効化した場合：2,000 文字 2025年11月13日 00:00 以降に Model Studio を有効化した場合：10,000 文字有効期間：Model Studio を有効化してから 90 日間有効

課金は入力文字数に基づきます。計算ルールは以下の通りです：

各漢字 (簡体字/繁体字中国語、日本の漢字、韓国の漢字を含む) は 2 文字としてカウントされます。
その他の各文字 (英字、句読点、スペースなど) は 1 文字としてカウントされます。

中国 (北京)

Qwen3-TTS-VC-Realtime

モデル	バージョン	単価	対応言語
qwen3-tts-vc-realtime-2025-11-27	スナップショット	$0.143353/10,000 文字	中国語、英語、スペイン語、ロシア語、イタリア語、フランス語、韓国語、日本語、ドイツ語、ポルトガル語

課金は入力文字数に基づきます。計算ルールは以下の通りです：

各漢字 (簡体字/繁体字中国語、日本の漢字、韓国の漢字を含む) は 2 文字としてカウントされます。
その他の各文字 (英字、句読点、スペースなど) は 1 文字としてカウントされます。

Qwen3-TTS-Flash-Realtime

モデル	バージョン	単価	対応言語
qwen3-tts-flash-realtime 機能は qwen3-tts-flash-realtime-2025-09-18 と同等です。	安定版	$0.143353/10,000 文字	中国語 (標準語、および北京語、上海語、四川語、南京語、陝西語、閩南語、天津語、広東語の方言を含む)、英語、スペイン語、ロシア語、イタリア語、フランス語、韓国語、日本語、ドイツ語、ポルトガル語
qwen3-tts-flash-realtime-2025-11-27	スナップショット
qwen3-tts-flash-realtime-2025-09-18	スナップショット

課金は入力文字数に基づきます。計算ルールは以下の通りです：

各漢字 (簡体字/繁体字中国語、日本の漢字、韓国の漢字を含む) は 2 文字としてカウントされます。
その他の各文字 (英字、句読点、スペースなど) は 1 文字としてカウントされます。

Qwen-TTS-Realtime

モデル	バージョン	コンテキストウィンドウ	最大入力	最大出力	入力コスト	出力コスト	対応言語
		(トークン)			(1,000 トークン)
qwen-tts-realtime qwen-tts-realtime-2025-07-15 と同等です	安定版	8,192	512	7,680	$0.345	$1.721	中国語、英語
qwen-tts-realtime-latest qwen-tts-realtime-2025-07-15 と同等です	最新版						中国語、英語
qwen-tts-realtime-2025-07-15	スナップショット						中国語、英語

音声は 1 秒あたり 50 トークンのレートでトークンに変換されます。1 秒未満の音声クリップは 50 トークンとして課金されます。

Qwen 音声クローン

音声クローンでは、大規模モデルを使用して特徴抽出を行い、トレーニングなしで音声のクローンを作成します。わずか 10〜20 秒の音声を提供するだけで、非常に類似性が高く自然なカスタムボイスを生成できます。使用方法 | API リファレンス

シンガポール

モデル

単価

無料クォータ (注)

qwen-voice-enrollment

$0.01/ボイス

1,000 ボイス/アカウント

有効期間：Model Studio を有効化してから 90 日間有効

中国 (北京)

モデル	単価
qwen-voice-enrollment	$0.01/ボイス

CosyVoice の音声合成

CosyVoice は、Tongyi Lab が開発した次世代の生成型音声合成モデルです。大規模事前学習済み言語モデルをベースに構築されており、テキスト理解と音声生成を深く統合し、リアルタイムのストリーミング形式でのテキスト音声合成をサポートします。使用方法 | API リファレンス

説明

この機能は、中国 (北京) リージョンでのみサポートされています。

モデル	単価
cosyvoice-v3-plus	10,000 文字あたり $0.286706
cosyvoice-v3-flash	10,000 文字あたり $0.14335
cosyvoice-v2	10,000 文字あたり $0.286706

文字数の計算ルールは以下の通りです：漢字 (簡体字/繁体字、日本の漢字、韓国の漢字を含む) は、それぞれ 2 文字としてカウントされます。その他すべての文字 (アルファベット、数字、日本の仮名、韓国のハングルなど) は、それぞれ 1 文字としてカウントされます。SSML タグ内のコンテンツは課金対象外です。

音声認識と翻訳 (音声テキスト変換)

Qwen3-LiveTranslate-Flash

Qwen3-LiveTranslate-Flash-Realtime

Qwen3-LiveTranslate-Flash-Realtime は、リアルタイムの音声・動画翻訳のための多言語モデルです。18 言語を認識し、10 言語でリアルタイムの音声翻訳を提供します。

主な特徴：

多言語対応：中国語、英語、フランス語、ドイツ語、ロシア語、日本語、韓国語を含む 18 言語と 6 つの中国語方言をサポートしています。また、北京語、広東語、四川語などの方言もサポートしています。
視覚情報による強化：視覚コンテンツを使用して翻訳の精度を向上させます。このモデルは、唇の動き、動作、画面上のテキストなどの視覚的な手がかりを分析し、騒がしい環境や音声が不明瞭な場合に翻訳の精度を高めます。
3 秒の遅延：最低 3 秒の同時通訳遅延を実現します。
ロスレス同時通訳：意味単位予測技術を使用して、言語間の語順の問題を解決します。リアルタイム翻訳の品質は、オフライン翻訳に匹敵します。
自然な音色：自然な音色で人間のような音声を生成します。モデルは、ソース音声のコンテンツに基づいてトーンと感情を自動的に調整します。

利用方法 | API リファレンス

シンガポール

モデル	バージョン	コンテキストウィンドウ	最大入力	最大出力	無料クォータ (注)
		(トークン)
qwen3-livetranslate-flash-realtime 機能は qwen3-livetranslate-flash-realtime-2025-09-22 と同等です。	安定版	53,248	49,152	4,096	それぞれ 100 万トークン Model Studio を有効化してから 90 日間有効です。
qwen3-livetranslate-flash-realtime-2025-09-22	スナップショット版

無料クォータを使い切った後、入力と出力の課金ルールは以下の通りです：

入力	価格 (100 万トークンあたり)
入力：音声	$10
入力：画像	$1.3

出力	価格 (100 万トークンあたり)
テキスト	$10
音声	$38

トークン計算ルール：

音声：入力または出力音声 1 秒ごとに 12.5 トークンを消費します。
画像：28×28 ピクセルの入力ごとに 0.5 トークンを消費します。

中国 (北京)

モデル	バージョン	コンテキストウィンドウ	最大入力	最大出力
		(トークン)
qwen3-livetranslate-flash-realtime qwen3-livetranslate-flash-realtime-2025-09-22 と同等です	安定版	53,248	49,152	4,096
qwen3-livetranslate-flash-realtime-2025-09-22	スナップショット版

入力と出力の課金ルールは以下の通りです：

入力	価格 (100 万トークンあたり)
入力：音声	$9.175
入力：画像	$1.147

出力	価格 (100 万トークンあたり)
テキスト	$9.175
音声	$34.405

トークン計算ルール：

音声：入力または出力音声 1 秒ごとに 12.5 トークンを消費します。
画像：28×28 ピクセルの入力ごとに 0.5 トークンを消費します。

Qwen 音声ファイル認識

Qwen マルチモーダル基盤モデル上に構築されたこのモデルは、多言語認識、歌声認識、ノイズ除去などの機能をサポートしています。利用方法

シンガポール

モデル

バージョン

対応言語

対応サンプルレート

単価

無料クォータ (注)

qwen3-asr-flash

現在 qwen3-asr-flash-2025-09-08 のエイリアスです

安定版

中国語 (北京語、四川語、閩南語、呉語、広東語を含む)、英語、日本語、ドイツ語、韓国語、ロシア語、フランス語、ポルトガル語、アラビア語、イタリア語、スペイン語

16 kHz

$0.000035/秒

36,000 秒 (10 時間)

Alibaba Cloud Model Studio を有効化してから 90 日間有効です

qwen3-asr-flash-2025-09-08

スナップショット版

中国 (北京)

モデル

バージョン

対応言語

対応サンプルレート

単価

qwen3-asr-flash

qwen3-asr-flash-2025-09-08 のエイリアスです

安定版

中国語 (北京語、四川語、閩南語、呉語、広東語)、英語、日本語、ドイツ語、韓国語、ロシア語、フランス語、ポルトガル語、アラビア語、イタリア語、スペイン語

16 kHz

$0.000032/秒

qwen3-asr-flash-2025-09-08

スナップショット版

Qwen リアルタイム音声認識

Qwen リアルタイム音声認識モデルは、自動言語検出機能を備えています。11 言語を検出し、複雑な環境でも音声を正確に文字起こしできます。利用方法 | API リファレンス

シンガポール

モデル

バージョン

対応言語

対応サンプルレート

単価

無料クォータ (注)

qwen3-asr-flash-realtime

qwen3-asr-flash-realtime-2025-10-27 と同等です。

安定版

中国語 (北京語、四川語、閩南語、呉語)、広東語、英語、日本語、ドイツ語、韓国語、ロシア語、フランス語、ポルトガル語、アラビア語、イタリア語、スペイン語、ヒンディー語、インドネシア語、タイ語、トルコ語、ウクライナ語、ベトナム語

8 kHz, 16 kHz

$0.000090/秒

36,000 秒 (10 時間)

Model Studio を有効化してから 90 日間有効です。

qwen3-asr-flash-realtime-2025-10-27

スナップショット版

中国 (北京)

モデル

バージョン

サポート言語

サポートされているサンプルレート

単価

qwen3-asr-flash-realtime

このモデルは qwen3-asr-flash-realtime-2025-10-27 のエイリアスです。

安定版

8 kHz、16 kHz

$0.000047/秒

qwen3-asr-flash-realtime-2025-10-27

スナップショット

Paraformer 音声認識

Paraformer は Tongyi Lab の音声認識モデルです。音声ファイル認識とリアルタイム音声認識の 2 つのバージョンが利用可能です。

音声ファイル認識

利用方法 | API リファレンス

説明

この機能は、中国 (北京) リージョンでのみサポートされています。

モデル	対応言語	対応サンプルレート	利用シーン	対応音声フォーマット	単価
paraformer-v2	中国語 (北京語、広東語、呉語、閩南語、東北、甘粛、貴州、河南、湖北、湖南、寧夏、山西、陝西、山東、四川、天津、江西、雲南、上海の方言)、英語、日本語、韓国語、ドイツ語、フランス語、ロシア語	任意	ApsaraVideo Live	aac、amr、avi、flac、flv、m4a、mkv、mov、mp3、mp4、mpeg、ogg、opus、wav、webm、wma、wmv	$0.000012/秒
paraformer-8k-v2	中国語 (北京語)	8 kHz	電話		$0.000012/秒

リアルタイム音声認識

利用方法 | API リファレンス

説明

この機能は、中国 (北京) リージョンでのみサポートされています。

モデル

対応言語

対応サンプルレート

利用シーン

対応音声フォーマット

単価

paraformer-realtime-v2

中国語 (北京語、広東語、呉語、閩南語、東北、甘粛、貴州、河南、湖北、湖南、寧夏、山西、陝西、山東、四川、天津、江西、雲南、上海の方言)、英語、日本語、韓国語、ドイツ語、フランス語、ロシア語

言語の切り替えをサポートしています。

任意

ApsaraVideo Live、会議など。

pcm、wav、mp3、opus、speex、aac、amr

$0.000035/秒

paraformer-realtime-8k-v2

8 kHz

コールセンターなど。

Fun-ASR 音声認識

Fun-ASR は Tongyi Fun の音声認識モデルです。音声ファイル認識とリアルタイム音声認識の 2 つのバージョンが利用可能です。

音声ファイル認識

利用方法 | API リファレンス

国際（シンガポール）

モデル	バージョン	対応言語	対応サンプルレート	利用シーン	対応音声フォーマット	単価	無料クォータ (注)
fun-asr 現在 fun-asr-2025-11-07 と同等です	安定版	中国語 (北京語、広東語、呉語、閩南語、客家語、贛語、湘語、晋語)、英語、日本語。このモデルは、中原、西南、冀魯、江淮、蘭銀、膠遼、東北、北京、香港/台湾など、中国のさまざまな地域や省の北京語アクセントもサポートしています。これには、河南、陝西、湖北、四川、重慶、雲南、貴州、広東、広西、河北、天津、山東、安徽、南京、江蘇、杭州、甘粛、寧夏のアクセントが含まれます。	任意	ApsaraVideo Live、電話、会議通訳など	aac、amr、avi、flac、flv、m4a、mkv、mov、mp3、mp4、mpeg、ogg、opus、wav、webm、wma、wmv	$0.000035/秒	36,000 秒 (10 時間) 有効期間：90 日
fun-asr-2025-11-07 fun-asr-2025-08-25 と比較して、このバージョンは遠距離音声アクティビティ検出 (VAD) に最適化されており、より高い認識精度を実現します。	スナップショット版
fun-asr-2025-08-25		中国語 (北京語)、英語
fun-asr-mtl 現在 fun-asr-mtl-2025-08-25 と同等です	安定版	中国語 (北京語、広東語)、英語、日本語、タイ語、ベトナム語、インドネシア語
fun-asr-mtl-2025-08-25	スナップショット版

中国 (北京)

モデル	バージョン	対応言語	対応サンプルレート	利用シーン	対応音声フォーマット	単価
fun-asr fun-asr-2025-11-07 と同等です。	安定版	中国語 (北京語、広東語、呉語、閩南語、客家語、贛語、湘語、晋語。このモデルは、中原、西南、冀魯、江淮、蘭銀、膠遼、東北、北京、香港/台湾などの地域の北京語アクセントもサポートしており、河南、陝西、湖北、四川、重慶、雲南、貴州、広東、広西、河北、天津、山東、安徽、南京、江蘇、杭州、甘粛、寧夏のアクセントも含まれます)、英語、日本語	任意	ApsaraVideo Live、電話、会議通訳など	aac、amr、avi、flac、flv、m4a、mkv、mov、mp3、mp4、mpeg、ogg、opus、wav、webm、wma、wmv	$0.000032/秒
fun-asr-2025-11-07 このバージョンは、遠距離音声アクティビティ検出 (VAD) に最適化されており、fun-asr-2025-08-25 よりも高い認識精度を提供します。	スナップショット版
fun-asr-2025-08-25		中国語 (北京語) と英語
fun-asr-mtl fun-asr-mtl-2025-08-25 と同等です。	安定版	中国語 (北京語、広東語)、英語、日本語、タイ語、ベトナム語、インドネシア語
fun-asr-mtl-2025-08-25	スナップショット版

リアルタイム音声認識

利用方法 | API リファレンス

国際 (シンガポール)

モデル

バージョン

対応言語

対応サンプルレート

利用シーン

対応音声フォーマット

単価

無料クォータ (注)

fun-asr-realtime

このモデルは fun-asr-realtime-2025-11-07 のエイリアスです。

安定版

中国語 (北京語、広東語、呉語、閩南語、客家語、贛語、湘語、晋語)、英語、日本語。このモデルは、中原、西南、冀魯、江淮、蘭銀、膠遼、東北、北京、香港/台湾などの地域の北京語アクセントもサポートしています。サポートされているアクセントには、河南、陝西、湖北、四川、重慶、雲南、貴州、広東、広西、河北、天津、山東、安徽、南京、江蘇、杭州、甘粛、寧夏のものが含まれます。

16 kHz

ApsaraVideo Live、会議、コールセンターなど

pcm、wav、mp3、opus、speex、aac、amr

$0.00009/秒

36,000 秒 (10 時間)

有効期間：90 日

fun-asr-realtime-2025-11-07

スナップショット版

中国 (北京)

モデル	バージョン	対応言語	対応サンプルレート	利用シーン	対応音声フォーマット	単価
fun-asr-realtime このモデルは fun-asr-realtime-2025-11-07 のエイリアスです。	安定版	中国語 (北京語、広東語、呉語、閩南語、客家語、贛語、湘語、晋語)、英語、日本語。このモデルは、中原、西南、冀魯、江淮、蘭銀、膠遼、東北、北京、香港/台湾などの地域の北京語アクセントもサポートしています。サポートされているアクセントには、河南、陝西、湖北、四川、重慶、雲南、貴州、広東、広西、河北、天津、山東、安徽、南京、江蘇、杭州、甘粛、寧夏のものが含まれます。	16 kHz	ApsaraVideo Live、会議、コールセンターなど	pcm、wav、mp3、opus、speex、aac、amr	$0.000047/秒
fun-asr-realtime-2025-11-07 fun-asr-realtime-2025-09-15 と比較して、このバージョンは遠距離音声アクティビティ検出 (VAD) に最適化されており、より高い認識精度を提供します。	スナップショット版
fun-asr-realtime-2025-09-15		中国語 (北京語) と英語

テキスト埋め込み

テキスト埋め込みモデルは、テキストを数値表現に変換し、検索、クラスタリング、レコメンデーション、分類などのタスクに利用されます。これらのモデルの課金は、入力トークンの数に基づきます。API リファレンス

国際 (シンガポール)

モデル

埋め込みディメンション

バッチサイズ

1行あたりの最大トークン数

サポート言語

価格

(100万入力トークンあたり)

無料クォータ

注記

text-embedding-v4

この投稿は Qwen3-Embedding シリーズの一部です。

2,048、1,536、1,024 (デフォルト)、768、512、256、128、または 64

8,192

中国語、英語、スペイン語、フランス語、ポルトガル語、インドネシア語、日本語、韓国語、ドイツ語、ロシア語を含む 100 以上の言語、およびさまざまなプログラミング言語

$0.07

1,000,000 トークン

Model Studio をアクティブ化してから 90 日間有効です。

text-embedding-v3

1,024 (デフォルト)、768、または 512

8,192

中国語、英語、スペイン語、フランス語、ポルトガル語、インドネシア語、日本語、韓国語、ドイツ語、ロシア語など 50 以上の言語

500,000 トークン

Model Studio をアクティブ化してから 90 日間有効です。

中国 (北京)

モデル

埋め込みディメンション

バッチサイズ

1行あたりの最大トークン数

サポート言語

価格

(100万入力トークンあたり)

無料クォータ

(注記)

text-embedding-v4

この投稿は Qwen3-Embedding シリーズの一部です。

2,048、1,536、1,024 (デフォルト)、768、512、256、128、または 64

8,192

中国語、英語、スペイン語、フランス語、ポルトガル語、インドネシア語、日本語、韓国語、ドイツ語、ロシア語、その他 100 以上の主要言語、およびさまざまなプログラミング言語

$0.072

無料クォータなし

マルチモーダル埋め込み

マルチモーダル埋め込みモデルは、テキスト、イメージ、ビデオなどのデータを浮動小数点数のベクターに変換します。このモデルにより、ビデオ分類、イメージ分類、イメージテキスト検索などのアプリケーションが可能になります。API リファレンス

シンガポール (国際)

モデル

データフォーマット

埋め込みディメンション

単価 (100 万入力トークンあたり)

無料クォータ (表示)

tongyi-embedding-vision-plus

float(32)

1,152

$0.09

1,000,000 トークン

Model Studio をアクティベートしてから 90 日間有効です。

tongyi-embedding-vision-flash

float(32)

768

イメージ/ビデオ：$0.03

テキスト：$0.09

中国 (北京)

モデル	データ型	埋め込みディメンション	単価 (1,000 入力トークンあたり)	無料クォータ (注)
multimodal-embedding-v1	float(32)	1,024	無料トライアル	トークンクォータ制限なし

テキストリランキング

この機能は、通常、セマンティック検索に使用されます。クエリを指定すると、候補となるドキュメントのリストがセマンティック関連性の高い順 (降順) にソートされます。API リファレンス。

説明

この機能は、中国 (北京) リージョンでのみ利用可能です。

モデル

最大ドキュメント数

アイテムあたりの最大入力トークン数

最大入力トークン数

サポート言語

価格 (100 万入力トークンあたり)

gte-rerank-v2

500

4,000

30,000

中国語、英語、日本語、韓国語、タイ語、スペイン語、フランス語、ポルトガル語、ドイツ語、インドネシア語、アラビア語など、50 以上の言語

$0.115

アイテムあたりの最大入力トークン数：各クエリまたはドキュメントは 4,000 トークンに制限されます。この制限を超える入力は切り捨てられます。
最大ドキュメント数：各リクエストは 500 ドキュメントに制限されます。
最大入力トークン数：1 つのリクエストに含まれるすべてのクエリとドキュメントの合計トークン数は 30,000 に制限されます。

ドメイン固有

意図認識

Qwen の意図認識モデルは、ユーザーの意図をミリ秒単位で迅速かつ正確に解析し、ユーザーの問題を解決するための適切なツールを選択できます。API リファレンス | 利用方法

説明

この機能は、中国 (北京) リージョンでのみ利用可能です。

モデル	コンテキストウィンドウ	最大入力	最大出力	入力コスト	出力コスト
モデル	(トークン)			(100 万トークン)
tongyi-intent-detect-v3	8,192	8,192	1,024	$0.058	$0.144

ロールプレイング

Qwen のロールプレイングモデルは、仮想的なソーシャルインタラクション、ゲームの NPC、IP キャラクターのレプリケーション、ハードウェア、おもちゃ、車載システムなど、人間のような会話が求められるシナリオに最適です。このモデルは、他の Qwen モデルに比べ、キャラクターの忠実度、会話の進行、共感的な傾聴の各機能が強化されています。利用方法

国際 (シンガポール)

モデル	コンテキストウィンドウ	最大入力	最大出力	入力コスト	出力コスト
モデル	(トークン)			(100 万トークン)
qwen-plus-character-ja	8,192	7,680	512	$0.5	$1.4

中国 (北京)

モデル	コンテキストウィンドウ	最大入力	最大出力	入力コスト	出力コスト
モデル	(トークン)			(100 万トークン)
qwen-plus-character	32,768	32,000	4,096	$0.115	$0.287

提供終了モデル

2025 年 8 月 20 日に提供終了

Qwen2

これは Alibaba Cloud のオープンソースモデル Qwen2 です。使用方法 | API リファレンス | オンラインで試す

モデル	コンテキストウィンドウ	最大入力	最大出力	入力価格	出力価格	代替モデル
	(トークン)			(100 万トークン)
qwen2-72b-instruct	131,072	128,000	6,144	期間限定で無料		Qwen3、DeepSeek、Kimi など
qwen2-57b-a14b-instruct	65,536	63,488
qwen2-7b-instruct	131,072	128,000

Qwen1.5

これは Alibaba Cloud のオープンソースモデル Qwen1.5 です。使用方法 | API リファレンス | オンラインで試す

モデル	コンテキストウィンドウ	最大入力	最大出力	入力価格	出力価格	代替モデル
	トークン			(100 万トークン)
qwen1.5-110b-chat	8,000	6,000	2,000	期間限定で無料		Qwen3、DeepSeek、Kimi など
qwen1.5-72b-chat
qwen1.5-32b-chat
qwen1.5-14b-chat
qwen1.5-7b-chat