すべてのプロダクト
Search
ドキュメントセンター

Alibaba Cloud Model Studio:Models

最終更新日:Dec 06, 2025

フラッグシップモデル

国際 (シンガポール)

フラッグシップモデル

通义new Qwen-Max

複雑なタスクに最適です。最も強力なモデルです。

通义new Qwen-Plus

パフォーマンス、速度、コストのバランスが取れています。

通义new Qwen-Flash

単純なジョブに最適です。高速かつ低コストです。

通义new Qwen-Coder

ツールの呼び出しと環境との対話に優れた、卓越したコードモデルです。

最大コンテキストウィンドウ

(トークン)

262,144

1,000,000

1,000,000

1,000,000

最小入力価格

(100 万トークン)

$1.2

$0.4

$0.05

$0.3

最小出力価格

(100 万トークン)

$6

$1.2

$0.4

$1.5

中国 (北京)

フラッグシップモデル

通义new Qwen-Max

複雑なタスクに最適です。最も強力なモデルです。

通义new Qwen-Plus

パフォーマンス、速度、コストのバランスが取れています。

通义new Qwen-Flash

単純なジョブに最適です。高速かつ低コストです。

通义new Qwen-Coder

ツールの呼び出しと環境との対話に優れた、卓越したコードモデルです。

最大コンテキストウィンドウ

(トークン)

262,144

1,000,000

1,000,000

1,000,000

最小入力価格

(100 万トークン)

$0.459

$0.115

$0.022

$0.144

最小出力価格

(100 万トークン)

$1.836

$0.287

$0.216

$0.574

モデル概要

国際 (シンガポール)

カテゴリ

サブカテゴリ

説明

テキスト生成

汎用大規模言語モデル

Qwen 大規模言語モデル:商用モデル (Qwen-MaxQwen-PlusQwen-Flash)、オープンソースモデル (Qwen3Qwen2.5)

マルチモーダルモデル

視覚理解モデル Qwen-VL、視覚推論モデル QVQ、オムニモーダルモデル Qwen-Omni、およびリアルタイムマルチモーダルモデル Qwen-Omni-Realtime

特定分野向けモデル

コーダーモデル翻訳モデルロールプレイングモデル

画像生成

テキストからの画像生成

画像編集

  • Qwen 画像編集:中国語と英語のプロンプトをサポートし、スタイル転送、テキスト修正、オブジェクト編集などの複雑な画像およびテキスト編集操作を実行できます。

  • Wan 画像編集:画像を生成または編集します。この機能は、証明写真、E コマースのメイン画像、モデル写真、さまざまなスタイル (漫画、中国風、アニメなど) のポートレートの作成に適しています。また、画像切り抜き、背景生成、画像要素の変更などにも使用できます。

音声合成と認識

音声合成 (テキスト読み上げ)

Qwen 音声合成およびQwen リアルタイム音声合成は、インテリジェント音声カスタマーサービス、オーディオブック、車載ナビゲーション、教育指導などのシナリオでテキスト読み上げに使用できます。

音声認識・翻訳

Qwen リアルタイム音声認識Qwen 音声ファイル認識Qwen3-LiveTranslate-Flash-Realtime、およびFun-ASR 音声認識は、リアルタイム会議記録、リアルタイムライブストリーム字幕、電話カスタマーサービスなどのシナリオで音声テキスト変換を実行できます。

動画生成

テキストからの動画生成

一文で豊かなスタイルの高品質な動画を生成します。

画像からの動画生成

汎用動画編集

汎用動画編集:入力テキスト、画像、動画に基づいてさまざまな動画編集タスクを実行します。たとえば、入力動画からモーション特徴を抽出し、プロンプトと組み合わせて新しい動画を生成できます。

埋め込み

テキスト埋め込み

テキストを、そのテキストを表す数値のセットに変換します。検索、クラスタリング、推奨、分類タスクに適しています。

中国 (北京)

カテゴリ

サブカテゴリ

説明

テキスト生成

汎用大規模言語モデル

マルチモーダルモデル

視覚理解モデル Qwen-VL、視覚推論モデル QVQ、およびオムニモーダルモデル Qwen-Omni

特定分野向けモデル

コードモデル数学モデル翻訳モデルデータマイニングモデル研究モデル意図認識モデルロールプレイングモデル

画像生成

テキストからの画像生成

  • Qwen テキストからの画像生成:複雑なテキスト、特に中国語と英語のテキストのレンダリングに優れています。

  • Wan テキストからの画像生成:証明写真、E コマースのメイン画像、モデル写真、さまざまなスタイル (漫画、中国風、アニメ風など) のポートレートの生成に適しています。

画像編集

汎用モデル:

  • Qwen 画像編集:中国語と英語のプロンプトをサポートし、スタイル転送、テキスト修正、オブジェクト編集などの複雑な画像およびテキスト編集操作を実行できます。

  • Wan 画像編集:画像を生成または編集します。証明写真、E コマースのメイン画像、モデル写真、さまざまなスタイル (漫画、中国風、アニメなど) のポートレートを作成できます。また、背景の削除、背景の生成、画像要素の変更も可能です。

その他のモデル:Qwen 画像翻訳OutfitAnyone

音声合成と認識

音声合成 (テキスト読み上げ)

Qwen 音声合成Qwen リアルタイム音声合成、およびCosyVoice 音声合成は、音声ベースのカスタマーサービス、オーディオブック、車載ナビゲーション、教育指導などのシナリオでテキストを音声に変換します。

音声認識・翻訳

Qwen リアルタイム音声認識Qwen 音声ファイル認識Fun-ASR 音声認識、およびParaformer 音声認識は、リアルタイム会議の文字起こし、リアルタイムライブストリームの字幕、カスタマーサービスの通話などのシナリオで音声をテキストに変換します。

ビデオ編集と生成

テキストからの動画生成

一文で豊かなスタイルの高品質な動画を生成します。

画像からの動画生成

  • 最初のフレームからの動画生成:最初の画像とプロンプトから動画を生成します。

  • 最初と最後のフレームからの動画生成:最初と最後のフレーム画像とプロンプトに基づいて、自然なトランジションを持つ動画を生成します。

  • 複数画像からの動画生成:ソース画像内のエンティティまたは背景に基づいて、1 つ以上の画像とテキストプロンプトから動画を生成します。

  • ダンス動画生成:AnimateAnyone は、キャラクター画像とアクション動画からダンス動画を生成します。

  • 画像 + 音声からリップシンク動画を生成

    • Wan-digital human は、人物の画像と音声から動画を生成します。全身、半身、ポートレートなど、さまざまなフレームサイズをサポートし、歌唱やパフォーマンスなどのシナリオに適した、広範囲で自然な動きを提供します。

    • EMO は、人物の画像と音声を使用して、表現力豊かなリップシンクと顔の表情を持つ動画を生成します。ポートレートと半身ショットをサポートし、クローズアップのシナリオに最適です。

    • LivePortrait は、ポートレート画像と音声ファイルを使用し、ナレーションのシナリオに最適です。

  • 顔文字動画生成:Emoji は、顔画像とプリセットされた動的な顔テンプレートから顔文字動画を生成します。

汎用動画編集

  • 汎用動画編集:テキストプロンプト、画像、動画に基づいてさまざまな動画編集タスクを実行します。たとえば、入力動画からモーション特徴を抽出し、テキストプロンプトと組み合わせて新しい動画を生成できます。

  • 動画リップシンク:VideoRetalk は、人物の動画と音声を使用し、ショート動画制作や動画翻訳などのシナリオに最適です。

  • 動画スタイル転送:Video Style Repainting は、動画を日本の漫画やアメリカンコミックなど、さまざまなスタイルに変換します。

埋め込み

テキスト埋め込み

テキストを、そのテキストを表す数値のセットに変換します。検索、クラスタリング、推奨、分類に使用されます。

マルチモーダル埋め込み

テキスト、画像、音声を数値のセットに変換します。音声・動画分類、画像分類、画像・テキスト検索に使用されます。

テキスト生成 - Qwen

以下は Qwen の商用モデルです。オープンソース版と比較して、商用モデルは最新の機能と改善を提供します。

商用モデルのパラメーターサイズは公開されていません。
各モデルは定期的に更新されます。固定バージョンを使用するには、スナップショットバージョンを選択できます。スナップショットバージョンは通常、次のスナップショットバージョンがリリースされてから 1 か月間維持されます。
より緩やかなレート制限条件のために、安定版または最新版を使用することを推奨します。

Qwen-Max

Qwen シリーズで最もパフォーマンスの高いモデルで、複雑で多段階のタスクに適しています。使用方法 | API リファレンス | オンラインで試す

国際 (シンガポール)

モデル

バージョン

モード

コンテキストウィンドウ

最大入力

最大思考連鎖

最大出力

入力コスト

出力コスト

無料クォータ

(注)

(トークン)

(100 万トークン)

qwen3-max

現在、qwen3-max-2025-09-23 と同じ機能を持ちます
バッチ呼び出しは半額です

安定

非思考のみ

262,144

258,048

-

65,536

段階的価格設定、以下の説明をご参照ください。

各 100 万トークン

アクティベーション後 90 日間有効

qwen3-max-2025-09-23

スナップショット

非思考のみ

qwen3-max-preview

プレビュー

思考

81,920

32,768

非思考

-

65,536

上記のモデルの課金は、リクエストごとの入力トークン数に基づいた段階的価格設定です。

リクエストごとの入力トークン

入力価格 (100 万トークン)

qwen3-max および qwen3-max-preview はコンテキストキャッシュをサポートしています。

出力価格 (100 万トークン)

0 < トークン ≤ 32K

$1.2

$6

32K < トークン ≤ 128K

$2.4

$12

128K < トークン ≤ 252K

$3

$15

その他のモデル

モデル

バージョン

コンテキストウィンドウ

最大入力

最大出力

入力コスト

出力コスト

無料クォータ

(注)

(トークン)

(100 万トークン)

qwen-max

現在、qwen-max-2025-01-25 と同じ機能を持ちます

安定

32,768

30,720

8,192

$1.6

バッチ呼び出しは半額です。

$6.4

バッチ呼び出しは半額です。

入力と出力それぞれ 100 万トークン

Model Studio をアクティベートしてから 90 日間有効です。

qwen-max-latest

常に最新のスナップショットバージョンと同じ機能を持ちます

最新

$1.6

$6.4

qwen-max-2025-01-25

qwen-max-0125 または Qwen2.5-Max

スナップショット

中国本土 (北京)

モデル

バージョン

モード

コンテキストウィンドウ

最大入力

最大思考連鎖

最大出力

入力コスト

出力コスト

(トークン)

(100 万トークン)

qwen3-max

現在、qwen3-max-2025-09-23 と同じ機能を持ちます
バッチ呼び出しは半額です

安定

非思考のみ

262,144

258,048

-

65,536

段階的価格設定、以下の説明をご参照ください。

qwen3-max-2025-09-23

スナップショット

非思考のみ

qwen3-max-preview

プレビュー

思考

81,920

32,768

非思考

-

65,536

上記のモデルの課金は、リクエストごとの入力トークン数に基づいた段階的価格設定です。

モデル

リクエストごとの入力トークン

入力価格 (100 万トークン)

出力価格 (100 万トークン)

思考連鎖 + 応答

qwen3-max

バッチ呼び出しは半額です
コンテキストキャッシュ割引

0 < トークン ≤ 32K

$0.459

$1.836

32K < トークン ≤ 128K

$0.918

$3.672

128K < トークン ≤ 252K

$1.377

$5.508

qwen3-max-2025-09-23

0 < トークン ≤ 32K

$0.861

$3.441

32K < トークン ≤ 128K

$1.434

$5.735

128K < トークン ≤ 252K

$2.151

$8.602

qwen3-max-preview

コンテキストキャッシュ割引

0 < トークン ≤ 32K

$0.861

$3.441

32K < トークン ≤ 128K

$1.434

$5.735

128K < トークン ≤ 252K

$2.151

$8.602

その他のモデル

モデル

バージョン

コンテキストウィンドウ

最大入力

最大出力

入力コスト

出力コスト

(トークン)

(100 万トークン)

qwen-max

現在、qwen-max-2024-09-19 と同じ機能を持ちます

安定

32,768

30,720

8,192

$0.345

$1.377

qwen-max-latest

常に最新のスナップショットバージョンと同じ機能を持ちます

最新

131,072

129,024

qwen-max-2025-01-25

qwen-max-0125 または Qwen2.5-Max

スナップショット

qwen-max-2024-09-19

qwen-max-0919 とも呼ばれます

32,768

30,720

$2.868

$8.602

qwen-max-2024-04-28

qwen-max-0428 とも呼ばれます

スナップショット

8,000

6,000

2,000

CNY 0.04

CNY 0.12

qwen-max-2024-04-03

qwen-max-0403 とも呼ばれます
qwen3-max-preview の思考モードは、全体的な推論能力を大幅に向上させ、エージェントプログラミング、常識推論、数学、科学、および一般的なタスクに優れています。

Qwen-Plus

Qwen-Max と Qwen-Flash の中間のパフォーマンス、コスト、速度を提供するバランスの取れたモデルです。中程度の複雑なタスクに適しています。使用方法 | API リファレンス | オンラインで試す | ディープシンキング

国際 (シンガポール)

モデル

バージョン

コンテキストウィンドウ

最大入力

最大出力

入力コスト

出力コスト

無料クォータ

(注)

(トークン)

(100 万トークン)

qwen-plus

現在、qwen-plus-2025-07-28 と同じ機能を持ちます
Qwen3 シリーズの一部

安定

1,000,000

思考モード

995,904

非思考モード

997,952

デフォルトは 262,144 です。この値は max_input_tokens パラメーターを使用して調整できます。

32,768

最大思考連鎖:81,920

段階的価格設定が適用されます。詳細については、表の下の注記をご参照ください。

入力と出力それぞれ 100 万トークン

Model Studio をアクティベートしてから 90 日間有効です。

qwen-plus-latest

現在、qwen-plus-2025-12-01 と同じ機能を持ちます
Qwen3 シリーズの一部

最新

思考モード

995,904

非思考モード

997,952

qwen-plus-2025-12-01

Qwen3 シリーズの一部

スナップショット

思考モード

995,904

非思考モード

997,952

qwen-plus-2025-09-11

Qwen3 シリーズの一部。

qwen-plus-2025-07-28

qwen-plus-0728 とも呼ばれます
Qwen3 シリーズの一部

qwen-plus-2025-07-14

qwen-plus-0714 とも呼ばれます
Qwen3 シリーズの一部

131,072

思考モード

98,304

非思考モード

129,024

16,384

最大思考連鎖:38,912

$0.4

思考モード

$4

非思考モード

$1.2

qwen-plus-2025-04-28

qwen-plus-0428 とも呼ばれます
Qwen3 シリーズの一部

qwen-plus-2025-01-25

qwen-plus-0125 とも呼ばれます

129,024

8,192

$1.2

qwen-plus、qwen-plus-latest、qwen-plus-2025-12-01、qwen-plus-2025-09-11、および qwen-plus-2025-07-28 の課金は、リクエストごとの入力トークン数に基づいた段階的価格設定です。

リクエストごとの入力トークン

入力価格 (100 万トークン)

モード

出力価格 (100 万トークン)

0 < トークン ≤ 256K

$0.4

非思考モード

$1.2

思考モード

$4

256K < トークン ≤ 1M

$1.2

非思考モード

$3.6

思考モード

$12

中国本土 (北京)

モデル

バージョン

コンテキストウィンドウ

最大入力

最大出力

入力コスト

出力コスト

(トークン)

(100 万トークン)

qwen-plus

現在、qwen-plus-2025-07-28 と同じ機能を持ちます
Qwen3 シリーズの一部

安定

1,000,000

思考モード

995,904

非思考モード

997,952

デフォルトは 131,072 です。この値は max_input_tokens パラメーターを使用して調整できます。

32,768

最大思考連鎖:81,920

段階的価格設定が適用されます。詳細については、表の下の注記をご参照ください。

qwen-plus-latest

現在、qwen-plus-2025-12-01 と同じ機能を持ちます
Qwen3 シリーズの一部

最新

思考モード

995,904

非思考モード

997,952

qwen-plus-2025-12-01

Qwen3 シリーズの一部

スナップショット

思考モード

995,904

非思考モード

997,952

qwen-plus-2025-09-11

Qwen3 シリーズの一部

qwen-plus-2025-07-28

qwen-plus-0728 とも呼ばれます
Qwen3 シリーズの一部

qwen-plus-2025-07-14

qwen-plus-0714 とも呼ばれます
Qwen3 シリーズの一部

131,072

思考モード

98,304

非思考モード

129,024

16,384

最大思考連鎖:38,912

$0.115

思考モード

$1.147

非思考モード

$0.287

qwen-plus-2025-04-28

qwen-plus-0428 とも呼ばれます
Qwen3 シリーズの一部

qwen-plus、qwen-plus-latest、qwen-plus-2025-12-01、qwen-plus-2025-09-11、および qwen-plus-2025-07-28 の課金は、リクエストごとの入力トークン数に基づいた段階的価格設定です。

リクエストごとの入力トークン

入力価格 (100 万トークン)

モード

出力価格 (100 万トークン)

0 < トークン ≤ 128K

$0.115

非思考モード

$0.287

思考モード

$1.147

128K < トークン ≤ 256K

$0.345

非思考モード

$2.868

思考モード

$3.441

256K < トークン ≤ 1M

$0.689

非思考モード

$6.881

思考モード

$9.175

これらのモデルは、思考モードと非思考モードの両方をサポートしています。enable_thinking パラメーターを使用して切り替えることができます。さらに、モデルの機能は大幅に向上しています:

  1. 推論能力:数学、コード、論理的推論の評価において、このモデルは QwQ や同規模の他の推論モードを持たないモデルを大幅に上回ります。その規模のモデルの中でトップクラスのパフォーマンスを達成しています。

  2. 人間の嗜好との整合性:このモデルは、創造的な執筆、ロールプレイング、マルチターン対話、命令の追従において大幅な改善を示しています。その汎用能力は、同規模の他のモデルよりも大幅に優れています。

  3. エージェント能力:このモデルは、思考モードと非思考モードの両方で業界をリードするパフォーマンスを発揮し、外部ツールを正確に呼び出すことができます。

  4. 多言語能力:このモデルは、100 以上の言語と方言をサポートしています。多言語翻訳、命令理解、常識推論の能力が大幅に向上しています。

  5. 応答フォーマット:このバージョンでは、不正な Markdown フォーマット、早期の切り捨て、不正なボックス出力など、以前のバージョンの応答フォーマットの問題が修正されています。

上記のモデルについて、思考モードを有効にしても思考プロセスが生成されない場合は、非思考モードの価格設定に基づいて課金されます。

その他のモデル

モデル

バージョン

コンテキストウィンドウ

最大入力

最大出力

入力コスト

出力コスト

(トークン)

(100 万トークン)

qwen-plus-2025-01-25

qwen-plus-0125 とも呼ばれます

スナップショット

131,072

129,024

8,192

$0.115

$0.287

qwen-plus-2025-01-12

qwen-plus-0112 とも呼ばれます

qwen-plus-2024-12-20

qwen-plus-1220 とも呼ばれます

qwen-plus-2024-11-27

qwen-plus-1127 とも呼ばれます

qwen-plus-2024-11-25

qwen-plus-1125 とも呼ばれます

qwen-plus-2024-09-19

qwen-plus-0919 とも呼ばれます

qwen-plus-2024-08-06

qwen-plus-0806 とも呼ばれます

128,000

$0.574

$1.721

Qwen-Flash

Qwen シリーズで最も高速かつコスト効率の高いモデルで、単純なジョブに最適です。Qwen-Flash は柔軟な段階的価格設定を採用しており、Qwen-Turbo よりもコスト効率が高くなっています。使用方法 | API リファレンス | オンラインで試す | 思考モード

国際 (シンガポール)

モデル

バージョン

モード

コンテキストウィンドウ

最大入力

最大思考連鎖

最大出力

入力コスト

出力コスト

思考連鎖 + 出力

無料クォータ

(注)

(トークン)

(1,000 トークン)

qwen-flash

qwen-flash-2025-07-28 と同じ機能を持ちます
Qwen3 シリーズの一部です。
バッチ呼び出しは標準価格の半額で課金されます。

安定

思考

1,000,000

995,904

81,920

32,768

段階的価格設定。詳細については、表の下の説明をご参照ください。

各 100 万トークン

Alibaba Cloud Model Studio をアクティベートしてから 90 日間有効です。

非思考

997,952

-

qwen-flash-2025-07-28

Qwen3 シリーズの一部です。

スナップショット

思考

995,904

81,920

非思考

997,952

-

上記のモデルの課金は、リクエストごとの入力トークン数に基づいた段階的価格設定です。qwen-flash はコンテキストキャッシュバッチ呼び出しをサポートしています。

リクエストごとの入力トークン

入力価格 (100 万トークン)

出力価格 (100 万トークン)

0< トークン ≤256K

$0.05

$0.4

256K< トークン ≤1M

$0.25

$2

中国本土 (北京)

モデル

バージョン

モード

コンテキストウィンドウ

最大入力

最大思考連鎖

最大出力

入力コスト

出力コスト

思考連鎖 + 出力

(トークン)

(1,000 トークン)

qwen-flash

qwen-flash-2025-07-28 と同じ機能を持ちます
Qwen3 シリーズの一部

安定

思考

1,000,000

995,904

81,920

32,768

段階的価格設定。詳細については、表の下の説明をご参照ください。

非思考

997,952

-

qwen-flash-2025-07-28

Qwen3 シリーズの一部

スナップショット

思考

995,904

81,920

非思考

997,952

-

上記のモデルの課金は、リクエストごとの入力トークン数に基づいた段階的価格設定です。qwen-flash はコンテキストキャッシュをサポートしています。

リクエストごとの入力トークン

入力価格 (100 万トークン)

出力価格 (100 万トークン)

0< トークン ≤128K

$0.022

$0.216

128K< トークン ≤256K

$0.087

$0.861

256K< トークン ≤1M

$0.173

$1.721

Qwen-Turbo

Qwen-Turbo は更新されなくなります。Qwen-Flash に置き換えることを推奨します。Qwen-Flash は柔軟な段階的価格設定を使用しており、より詳細な価格モデルを提供します。使用方法 | API リファレンス | オンラインで試す | ディープシンキング

国際 (シンガポール)

モデル

バージョン

コンテキストウィンドウ

最大入力

最大出力

入力コスト

出力コスト

無料クォータ

(注)

(トークン)

(100 万トークン)

qwen-turbo

現在、qwen-turbo-2025-04-28 と同じ機能を持ちます
Qwen3 シリーズの一部

安定

思考モード

131,072

非思考モード

1,000,000

思考モード

98,304

非思考モード

1,000,000

16,384

最大思考連鎖は 38,912 です

$0.05

バッチ呼び出しは半額です

思考モード:$0.5

非思考モード:$0.2

バッチ呼び出しは半額です

各 100 万トークン

有効期間:Alibaba Cloud Model Studio をアクティベートしてから 90 日後

qwen-turbo-latest

常に最新のスナップショットバージョンと同じ機能を持ちます
Qwen3 シリーズの一部

最新

$0.05

思考モード:$0.5

非思考モード:$0.2

qwen-turbo-2025-04-28

qwen-turbo-0428 とも呼ばれます
Qwen3 シリーズの一部

スナップショット

qwen-turbo-2024-11-01

qwen-turbo-1101 とも呼ばれます

1,000,000

1,000,000

8,192

$0.2

中国 (北京)

モデル

バージョン

コンテキストウィンドウ

最大入力

最大出力

入力コスト

出力コスト

(トークン)

(100 万トークン)

qwen-turbo

現在、qwen-turbo-2025-04-28 と同じ機能を持ちます
Qwen3 シリーズの一部

安定

思考モード

131,072

非思考モード

1,000,000

思考モード

98,304

非思考モード

1,000,000

16,384

最大思考連鎖は 38,912 です

$0.044

思考モード

$0.431

非思考モード

$0.087

qwen-turbo-latest

常に最新のスナップショットバージョンと同じ機能を持ちます
Qwen3 シリーズの一部

最新

qwen-turbo-2025-07-15

qwen-turbo-0715 とも呼ばれます
Qwen3 シリーズの一部

スナップショット

qwen-turbo-2025-04-28

qwen-turbo-0428 とも呼ばれます
Qwen3 シリーズの一部

QwQ

QwQ 推論モデルは Qwen2.5 モデルでトレーニングされ、強化学習を使用して推論能力を大幅に向上させています。数学とコードのコアメトリック (AIME 24/25 や LiveCodeBench など) や、一部の汎用メトリック (IFEval や LiveBench など) は、DeepSeek-R1 のフルパフォーマンスバージョンに匹敵します。使用方法

シンガポール

モデル

バージョン

コンテキストウィンドウ

最大入力

最大思考連鎖

最大応答

入力コスト

出力コスト

無料クォータ

(注)

(トークン)

(100 万トークン)

qwq-plus

安定

131,072

98,304

32,768

8,192

$0.8

$2.4

100 万トークン

有効期間:Alibaba Cloud Model Studio をアクティベートしてから 90 日以内。

中国 (北京)

モデル

バージョン

コンテキストウィンドウ

最大入力

最大思考連鎖

最大応答

入力コスト

出力コスト

(トークン)

(100 万トークン)

qwq-plus

qwq-plus-2025-03-05 と同じ機能を持ちます。

安定

131,072

98,304

32,768

8,192

$0.230

$0.574

qwq-plus-latest

常に最新のスナップショットバージョンと同じ機能を持ちます。

最新

qwq-plus-2025-03-05

qwq-plus-0305 とも呼ばれます。

スナップショット

Qwen-Long

Qwen-Long モデルは、Qwen シリーズで最も長いコンテキストウィンドウを持っています。低コストでバランスの取れたパフォーマンスを提供します。このモデルは、長文分析、情報抽出、要約、分類、タグ付けなどのタスクに最適です。使用方法 | オンラインで試す

中国 (北京)

モデル

バージョン

コンテキストウィンドウ

最大入力

最大出力

入力コスト

出力コスト

(トークン)

(100 万トークン)

qwen-long-latest

常に最新のスナップショットバージョンの機能と一致します。

安定

10,000,000

10,000,000

8,192

$0.072

$0.287

qwen-long-2025-01-25

qwen-long-0125 とも呼ばれます。

スナップショット

Qwen-Omni

Qwen-Omni モデルは、テキスト、画像、音声、動画などの複数のモダリティからの組み合わせ入力を受け付け、テキストまたは音声形式で応答を生成します。表現力豊かで人間らしいさまざまな音声を提供し、複数の言語や方言での音声出力をサポートします。視覚認識、感情分析、教育・トレーニングなどの音声・動画チャットシナリオで使用できます。使用方法 | API リファレンス

シンガポール

モデル

バージョン

モード

コンテキストウィンドウ

最大入力

最大思考連鎖

最大出力

無料クォータ

(注)

(トークン)

qwen3-omni-flash

現在、qwen3-omni-flash-2025-09-15 と同じ機能を持ちます

安定

思考モード

65,536

16,384

32,768

16,384

各 100 万トークン (モダリティ不問)

Model Studio をアクティベートしてから 90 日間有効

非思考モード

49,152

-

qwen3-omni-flash-2025-09-15

qwen3-omni-flash-0915 とも呼ばれます

スナップショット

思考モード

65,536

16,384

32,768

16,384

非思考モード

49,152

-

qwen3-omni-flash-2025-12-01

スナップショット

思考モード

65,536

16,384

32,768

16,384

非思考モード

49,152

-

無料クォータを使い切った後は、入力と出力に以下の課金ルールが適用されます。課金は思考モードと非思考モードの両方で同じです。音声出力は思考モードではサポートされていません。

入力

単価 (100 万トークン)

テキスト

$0.43

音声

$3.81

画像/動画

$0.78

出力

単価 (100 万トークン)

テキスト

$1.66 (入力がテキストのみの場合)

$3.06 (入力に画像、動画、または音声が含まれる場合)

テキスト + 音声

この項目は思考モードでは課金されません。

$15.11 (音声)

出力テキストは課金されません。

その他のモデル

モデル

バージョン

コンテキストウィンドウ

最大入力

最大出力

無料クォータ

(注)

(トークン)

qwen-omni-turbo

このバージョンは qwen-omni-turbo-2025-03-26 と同じ機能を持ちます。

安定

32,768

30,720

2,048

各 100 万トークン (モダリティ不問)

Model Studio をアクティベートしてから 90 日間有効です。

qwen-omni-turbo-latest

常に最新のスナップショットバージョンを指します。
同等の機能

最新

qwen-omni-turbo-2025-03-26

qwen-omni-turbo-0326 とも呼ばれます。

スナップショット

無料クォータを使い切った後、商用モデルについては、入力と出力に以下の課金ルールが適用されます:

入力

単価 (100 万トークン)

テキスト

$0.07

音声

$4.44

画像/動画

$0.21

出力

単価 (100 万トークン)

テキスト

$0.27 (入力がテキストのみの場合)

$0.63 (入力に画像、動画、または音声が含まれる場合)

テキスト + 音声

$8.89 (音声)

出力のテキスト部分は課金されません。

中国 (北京)

モデル

バージョン

モード

コンテキストウィンドウ

最大入力

最大思考連鎖

最大出力

無料クォータ

(注)

(トークン)

qwen3-omni-flash

現在、qwen3-omni-flash-2025-09-15 と同じ機能を持ちます

安定

思考モード

65,536

16,384

32,768

16,384

無料クォータなし

非思考モード

49,152

-

qwen3-omni-flash-2025-09-15

qwen3-omni-flash-0915 とも呼ばれます

スナップショット

思考モード

65,536

16,384

32,768

16,384

非思考モード

49,152

-

qwen3-omni-flash-2025-12-01

スナップショット

思考モード

65,536

16,384

32,768

16,384

非思考モード

49,152

-

無料クォータを使い切った後、入力と出力は以下のルールに従って課金されます。課金は思考モードと非思考モードの両方で同じです。音声出力は思考モードではサポートされていません。

入力

単価 (100 万トークン)

テキスト

$0.258

音声

$2.265

画像/動画

$0.473

出力

単価 (100 万トークン)

テキスト

$0.989 (入力がテキストのみの場合)

$1.821 (入力に画像、動画、または音声が含まれる場合)

テキスト + 音声

この項目は思考モードでは課金されません。

$8.974 (音声)

出力テキストは課金されません。

その他のモデル

モデル

バージョン

コンテキストウィンドウ

最大入力

最大出力

無料クォータ

(注)

(トークン)

qwen-omni-turbo

このモデルは現在、qwen-omni-turbo-2025-03-26 と同じ機能を持ちます。

安定

32,768

30,720

2,048

無料クォータなし

qwen-omni-turbo-latest

常に最新のスナップショットと一致します
同一の機能

最新

qwen-omni-turbo-2025-03-26

qwen-omni-turbo-0326 とも呼ばれます。

スナップショット

qwen-omni-turbo-2025-01-19

qwen-omni-turbo-0119 とも呼ばれます。

入力と出力は、以下のルールに従って課金されます:

入力

単価 (100 万トークン)

テキスト

$0.058

音声

$3.584

画像/動画

$0.216

出力

単価 (100 万トークン)

テキスト

$0.230 (テキストのみの入力の場合)

$0.646 (入力に画像、音声、または動画が含まれる場合)

テキスト + 音声

$7.168 (音声)

出力テキストは課金されません。

たとえば、1,000 のテキスト入力トークン、1,000 の画像入力トークン、1,000 のテキスト出力トークン、および 1,000 の音声出力トークンを持つリクエストのコストは、$0.000058 (テキスト入力) + $0.000216 (画像入力) + $0.007168 (音声出力) です。

Qwen3-Omni-Flash モデルは、更新が停止された Qwen-Omni-Turbo と比較して大幅な改善を提供します

  • これは、思考モードと非思考モードの両方をサポートするハイブリッド思考モデルです。enable_thinking パラメーターを使用してモードを切り替えることができます。デフォルトでは、思考モードは無効になっています。

  • 音声出力は思考モードではサポートされていません。非思考モードでは、モデルからの音声出力には以下の特徴があります:

    • qwen3-omni-flash-2025-12-01 は 49 の音声をサポートします。qwen3-omni-flash-2025-09-15 と qwen3-omni-flash は 17 の音声をサポートします。Qwen-Omni-Turbo は 4 つの音声のみをサポートします。

    • Qwen-Omni-Turbo がサポートしていた 2 言語から増加し、10 言語をサポートします。

Qwen-Omni-Realtime

Qwen Omni と比較して、これらのモデルは音声ストリーム入力をサポートしています。ユーザーの音声の開始と終了を自動的に検出する音声アクティビティ検出 (VAD) 機能を内蔵しています。使用方法 | クライアントイベント | サーバーイベント

国際 (シンガポール)

モデル

バージョン

コンテキストウィンドウ

最大入力

最大出力

無料クォータ

(注)

(トークン)

qwen3-omni-flash-realtime

qwen3-omni-flash-realtime-2025-09-15 と同等

安定

65,536

49,152

16,384

モダリティに関係なく、各 100 万トークン

Model Studio をアクティベートしてから 90 日間有効

qwen3-omni-flash-realtime-2025-12-01

スナップショット

qwen3-omni-flash-realtime-2025-09-15

無料クォータを使い切った後は、入力と出力に以下の課金ルールが適用されます:

入力

単価 (100 万トークン)

テキスト

$0.52

音声

$4.57

画像

$0.94

出力

単価 (100 万トークン)

テキスト

$1.99 (入力がテキストのみの場合)

$3.67 (入力に画像または音声が含まれる場合)

テキスト + 音声

$18.13 (音声)

テキスト出力は課金されません。

その他のモデル

モデル

バージョン

コンテキストウィンドウ

最大入力

最大出力

無料クォータ

(注)

(トークン)

qwen-omni-turbo-realtime

qwen-omni-turbo-realtime-2025-05-08 と同等

安定

32,768

30,720

2,048

モダリティに関係なく 100 万トークン

Model Studio をアクティベートしてから 90 日間有効

qwen-omni-turbo-realtime-latest

常に最新のスナップショットバージョンと同等

最新

qwen-omni-turbo-realtime-2025-05-08

スナップショット

無料クォータを使い切った後は、入力と出力に以下の課金ルールが適用されます:

入力

単価 (100 万トークン)

テキスト

$0.270

音声

$4.440

画像

$0.840

出力

単価 (100 万トークン)

テキスト

$1.070 (テキストのみの入力の場合)

$2.520 (入力に画像または音声が含まれる場合)

テキスト + 音声

$8.890 (音声出力の場合)

テキスト出力は課金されません。

中国 (北京)

モデル

バージョン

コンテキストウィンドウ

最大入力

最大出力

無料クォータ

(注)

(トークン)

qwen3-omni-flash-realtime

qwen3-omni-flash-realtime-2025-09-15 と同等

安定

65,536

49,152

16,384

無料クォータなし

qwen3-omni-flash-realtime-2025-12-01

スナップショット

qwen3-omni-flash-realtime-2025-09-15

入力と出力には以下の課金ルールが適用されます:

入力

単価 (100万トークンあたり)

テキスト

$0.315

音声

$2.709

画像

$0.559

出力

単価 (100 万トークン)

テキスト

$1.19 (入力がテキストのみの場合)

$2.179 (入力に画像または音声が含まれる場合)

テキスト + 音声

$10.766 (音声)

テキスト出力は課金されません。

その他のモデル

モデル

バージョン

コンテキストウィンドウ

最大入力

最大出力

無料クォータ

(注)

(トークン)

qwen-omni-turbo-realtime

qwen-omni-turbo-2025-05-08 と同等

安定

32,768

30,720

2,048

無料クォータなし

qwen-omni-turbo-realtime-latest

常に最新のスナップショットバージョンと同等

最新

qwen-omni-turbo-realtime-2025-05-08

スナップショット

入力と出力には以下の課金ルールが適用されます:

入力

単価 (100 万トークン)

テキスト

$0.230

音声

$3.584

画像

$0.861

出力

単価 (100 万トークン)

テキスト

$0.918 (入力がテキストのみの場合)

$2.581 (入力に画像または音声が含まれる場合)

テキスト + 音声

$7.168 (音声)

テキスト出力は課金されません。

Qwen3-Omni-Flash-Realtime モデルを推奨します。更新が停止される Qwen-Omni-Turbo-Realtime と比較して、機能が大幅に向上しています。モデルからの音声出力について:

  • qwen3-omni-flash-realtime-2025-12-01 は 49 の音声をサポートします。qwen3-omni-flash-realtime-2025-09-15 と qwen3-omni-realtime-flash は 17 の音声をサポートします。Qwen-Omni-Turbo-Realtime は 4 つの音声のみをサポートします。

  • 10 言語をサポートします。Qwen-Omni-Turbo-Realtime は 2 言語のみをサポートします。

QVQ

QVQ は、視覚入力と思考連鎖出力をサポートする視覚推論モデルです。数学、プログラミング、視覚分析、創造的なタスク、および一般的なタスクで優れたパフォーマンスを発揮します。使用方法 | オンラインで試す

国際 (シンガポール)

モデル

バージョン

コンテキストウィンドウ

最大入力

最大思考連鎖

最大応答

入力コスト

出力コスト

無料クォータ

(注)

(トークン)

(100 万トークン)

qvq-max

qvq-max-2025-03-25 と同等です。

安定

131,072

106,496

単一画像あたり最大 16,384 トークン。

16,384

8,192

$1.2

$4.8

各 100 万トークン。

Alibaba Cloud Model Studio をアクティベートしてから 90 日間有効です。

qvq-max-latest

常に最新のスナップショットバージョンと同等です。

最新

qvq-max-2025-03-25

qvq-max-0325 とも呼ばれます。

スナップショット

中国 (北京)

モデル

バージョン

コンテキストウィンドウ

最大入力

最大思考連鎖

最大応答

入力コスト

出力コスト

(トークン)

(100 万トークン)

qvq-max

qvq-plus よりも強力な視覚的推論と命令追従能力を提供し、より複雑なタスクに最適なパフォーマンスを提供します。
qvq-max-2025-03-25 と同じ機能を持ちます。

安定

131,072

106,496

単一画像あたり最大 16,384。

16,384

8,192

$1.147

$4.588

qvq-max-latest

常に最新のスナップショットバージョンと同じ機能を持ちます。

最新

qvq-max-2025-05-15

qvq-max-0515 とも呼ばれます。

スナップショット

qvq-max-2025-03-25

qvq-max-0325 とも呼ばれます。

qvq-plus

qvq-plus-2025-05-15 と同じ機能を持ちます。

安定

$0.287

$0.717

qvq-plus-latest

常に最新のスナップショットバージョンと同じ機能を持ちます。

最新

qvq-plus-2025-05-15

qvq-plus-0515 とも呼ばれます。

スナップショット

Qwen-VL

Qwen-VL は、視覚理解 (画像) 機能を備えたテキスト生成モデルです。OCR を実行するだけでなく、製品写真からプロパティを抽出したり、図に示された問題を解決したりするなど、さらなる要約と推論を提供します。使用方法 | API リファレンス | オンラインで試す

Qwen-VL モデルは、入力トークンと出力トークンの合計数に基づいて課金されます。画像トークンの計算方法の詳細については、「視覚理解」をご参照ください。

国際 (シンガポール)

モデル

バージョン

モード

コンテキストウィンドウ

最大入力

最大思考連鎖

最大出力

入力コスト

出力コスト

(思考連鎖 + 出力)

無料クォータ

(注)

(トークン)

(100 万トークン)

qwen3-vl-plus

qwen3-vl-plus-2025-09-23 と同じ機能を持ちます

安定

思考

262,144

258,048

画像あたり最大 16,384 トークン

81,920

32,768

段階的価格設定。詳細については、表の下の説明をご参照ください。

各 100 万トークン

Alibaba Cloud Model Studio をアクティベートしてから 90 日間有効です。

非思考

260,096

画像あたり最大 16,384 トークン

-

qwen3-vl-plus-2025-09-23

スナップショット

思考

258,048

画像あたり最大 16,384 トークン

81,920

非思考

260,096

画像あたり最大 16,384 トークン

-

qwen3-vl-flash

qwen3-vl-flash-2025-10-15 と同じ機能を持ちます

安定

思考

258,048

画像あたり最大 16,384 トークン

81,920

非思考

260,096

画像あたり最大 16,384 トークン

-

qwen3-vl-flash-2025-10-15

スナップショット

思考

258,048

画像あたり最大 16,384 トークン

81,920

非思考

260,096

画像あたり最大 16,384 トークン

-

上記のモデルは、リクエストごとの入力トークン数に基づいた段階的価格設定を使用します。入力価格と出力価格は、思考モードと非思考モードの両方で同じです。

qwen3-vl-plus シリーズ

リクエストごとの入力トークン

入力価格 (100 万トークン)

出力価格 (100 万トークン)

0 < トークン ≤ 32K

$0.20

$1.60

32K < トークン ≤ 128K

$0.30

$2.40

128K < トークン ≤ 256K

$0.60

$4.80

qwen3-vl-flash シリーズ

リクエストごとの入力トークン

入力価格 (100 万トークン)

出力価格 (100 万トークン)

0 < トークン ≤ 32K

$0.05

$0.40

32K < トークン ≤ 128K

$0.075

$0.60

128K < トークン ≤ 256K

$0.12

$0.96

その他のモデル

Qwen-VL-Max

Qwen-VL-Max は Qwen-VL-Plus よりも優れたパフォーマンスを発揮します。以下のモデルは Qwen2.5-VL シリーズに属します。

モデル

バージョン

コンテキストウィンドウ

最大入力

最大出力

入力コスト

出力コスト

無料クォータ

(注)

(トークン)

(100 万トークン)

qwen-vl-max

qwen-vl-plus と比較して、視覚的推論と命令追従能力が向上しています。複雑なタスクに最適なパフォーマンスを提供します。
qwen-vl-max-2025-08-13 と同じ機能を持ちます。

安定

131,072

129,024

画像あたり最大 16,384。

8,192

$0.8

バッチ呼び出しは半額

$3.2

バッチ呼び出しは半額

各 100 万トークン。

有効期間は Model Studio のアクティベート後 90 日です。

qwen-vl-max-latest

常に最新のスナップショットバージョンと同じ機能を提供します。

最新

$0.8

$3.2

qwen-vl-max-2025-08-13

qwen-vl-max-0813 とも呼ばれます。
視覚理解の包括的な改善を提供し、数学、推論、オブジェクト検出、多言語処理の能力が大幅に向上しています。

スナップショット

qwen-vl-max-2025-04-08

qwen-vl-max-0408 とも呼ばれます。
128k のコンテキストウィンドウを拡張し、数学と推論の能力を大幅に向上させた Qwen2.5-VL シリーズモデル。
Qwen-VL-Plus

Qwen-VL-Plus は、パフォーマンスとコストのバランスを提供します。以下のモデルは Qwen2.5-VL シリーズに属します。

モデル

バージョン

コンテキストウィンドウ

最大入力

最大出力

入力コスト

出力コスト

無料クォータ

(注)

(トークン)

(100 万トークン)

qwen-vl-plus

qwen-vl-plus-2025-08-15 と同じ機能を持ちます。

安定

131,072

129,024

画像あたり最大 16,384。

8,192

$0.21

バッチ呼び出しは半額

$0.63

バッチ呼び出しは半額

各 100 万トークン

Alibaba Cloud Model Studio をアクティベートしてから 90 日間有効です。

qwen-vl-plus-latest

常に最新のスナップショットバージョンと同じ機能を持ちます。

最新

$0.21

$0.63

qwen-vl-plus-2025-08-15

qwen-vl-plus-0815 とも呼ばれます。
オブジェクト検出、ローカライズ、多言語処理が大幅に改善されています。

スナップショット

qwen-vl-plus-2025-05-07

qwen-vl-plus-0507 とも呼ばれます。
数学、推論、監視ビデオからのコンテンツの理解が大幅に向上しました。

qwen-vl-plus-2025-01-25

qwen-vl-plus-0125 とも呼ばれます。
128k のコンテキストウィンドウを拡張し、画像と動画の理解を大幅に向上させた Qwen2.5-VL シリーズモデル。

中国 (北京)

モデル

バージョン

モード

コンテキストウィンドウ

最大入力

最大思考連鎖

最大出力

入力コスト

出力コスト

無料クォータ

(注)

(トークン)

(100 万トークン)

qwen3-vl-plus

qwen3-vl-plus-2025-09-23 と同じ機能を持ちます

安定

思考

262,144

258,048

画像あたり最大 16,384 トークン

81,920

32,768

段階的価格設定。詳細については、表の下の説明をご参照ください。

無料クォータなし

非思考

260,096

画像あたり最大 16,384 トークン

-

qwen3-vl-plus-2025-09-23

スナップショット

思考

258,048

画像あたり最大 16,384 トークン

81,920

非思考

260,096

画像あたり最大 16,384 トークン

-

qwen3-vl-flash

qwen3-vl-flash-2025-10-15 と同じ機能を持ちます

安定

思考

258,048

画像あたり最大 16,384 トークン

81,920

非思考

260,096

画像あたり最大 16,384 トークン

-

qwen3-vl-flash-2025-10-15

スナップショット

思考

258,048

画像あたり最大 16,384 トークン

81,920

非思考

260,096

画像あたり最大 16,384 トークン

-

上記のモデルは、リクエストごとの入力トークン数に基づいた段階的価格設定を使用します。入力価格と出力価格は、思考モードと非思考モードの両方で同じです。

qwen3-vl-plus シリーズ

リクエストごとの入力トークン

入力価格 (100 万トークン)

出力価格 (100 万トークン)

0 < トークン ≤ 32K

$0.143353

$1.433525

32K < トークン ≤ 128K

$0.215029

$2.150288

128K < トークン ≤ 256K

$0.430058

$4.300576

qwen3-vl-flash シリーズ

リクエストごとの入力トークン

入力価格 (100 万トークンあたり)

出力価格 (100 万トークンあたり)

0 < トークン ≤ 32K

$0.022

$0.215

32K < トークン ≤ 128K

$0.043

$0.43

128K < トークン ≤ 256K

$0.086

$0.859

その他のモデル

Qwen-VL-Max シリーズ
qwen-vl-max-2025-01-25 以降のモデルは Qwen2.5-VL シリーズに属します。

モデル

バージョン

コンテキストウィンドウ

最大入力

最大出力

入力コスト

出力コスト

(トークン)

(100 万トークン)

qwen-vl-max

qwen-vl-plus と比較して、視覚的推論と命令追従能力が向上し、複雑なタスクに対して最適なパフォーマンスを提供します。
qwen-vl-max-2025-08-13 と同じ機能を持ちます。

安定

131,072

129,024

画像あたり最大 16,384

8,192

$0.23

$0.574

qwen-vl-max-latest

最新のスナップショットバージョンと同じ機能を提供します。

最新

qwen-vl-max-2025-08-13

qwen-vl-max-0813 とも呼ばれます。
視覚理解の包括的な改善と、数学、推論、オブジェクト検出、多言語処理の能力が大幅に向上しています。

スナップショット

qwen-vl-max-2025-04-08

qwen-vl-max-0408 とも呼ばれます。
数学と推論の能力が向上しました。

$0.431

$1.291

qwen-vl-max-2025-04-02

qwen-vl-max-0402 とも呼ばれます。
複雑な数学の問題を解く精度が大幅に向上しました。

qwen-vl-max-2025-01-25

qwen-vl-max-0125 とも呼ばれます。

このバージョンは Qwen2.5-VL シリーズへのアップグレードで、128k のコンテキストウィンドウを拡張し、画像と動画の理解を大幅に向上させています。

qwen-vl-max-2024-12-30

qwen-vl-max-1230 とも呼ばれます。

32,768

30,720

画像あたり最大 16,384

2,048

$0.431

$1.291

qwen-vl-max-2024-11-19

qwen-vl-max-1119 とも呼ばれます。

qwen-vl-max-2024-10-30

qwen-vl-max-1030 とも呼ばれます。

$2.868

qwen-vl-max-2024-08-09

qwen-vl-max-0809 とも呼ばれます。
Qwen-VL-Plus シリーズ
qwen-vl-plus-2025-01-25 以降のモデルは Qwen2.5-VL シリーズに属します。

モデル

バージョン

コンテキストウィンドウ

最大入力

最大出力

入力コスト

出力コスト

(トークン)

(100 万トークン)

qwen-vl-plus

qwen-vl-plus-2025-08-15 と同じ機能を持ちます。

安定

131,072

129,024

画像あたり最大 16,384 トークン。

8,192

$0.115

$0.287

qwen-vl-plus-latest

常に最新のスナップショットバージョンと同じ機能を持ちます。

最新

qwen-vl-plus-2025-08-15

qwen-vl-plus-0815 とも呼ばれます。
オブジェクト検出、ローカライズ、多言語処理が大幅に改善されています。

スナップショット

qwen-vl-plus-2025-07-10

qwen-vl-plus-0710 とも呼ばれます。
監視ビデオからのコンテンツの理解をさらに向上させます。

32,768

30,720

画像あたり最大 16,384 トークン。

$0.022

$0.216

qwen-vl-plus-2025-05-07

qwen-vl-plus-0507 とも呼ばれます。
数学、推論、監視ビデオからのコンテンツの理解が大幅に向上しました。

131,072

129,024

画像あたり最大 16,384 トークン。

$0.216

$0.646

qwen-vl-plus-2025-01-25

qwen-vl-plus-0125 とも呼ばれます。

Qwen2.5-VL シリーズにアップグレードし、コンテキストウィンドウを 128K に拡張し、画像と動画の理解を大幅に向上させました。

qwen-vl-plus-2025-01-02

qwen-vl-plus-0102 とも呼ばれます。

32,768

30,720

画像あたり最大 16,384 トークン。

2,048

qwen-vl-plus-2024-08-09

qwen-vl-plus-0809 とも呼ばれます。

Qwen-OCR

Qwen-OCR モデルはテキスト抽出用に設計されています。Qwen-VL モデルと比較して、文書、表、試験用紙、手書きの画像からのテキスト抽出に特化しています。英語、フランス語、日本語、韓国語、ドイツ語、ロシア語、イタリア語など、複数の言語を認識できます。使用方法 | API リファレンス | オンラインで試す

国際 (シンガポール)

モデル

バージョン

コンテキストウィンドウ

最大入力

最大出力

入力コスト

出力コスト

無料クォータ

(注)

(トークン)

(100 万トークン)

qwen-vl-ocr

安定

34,096

30,000

画像あたり最大 30,000

4096

$0.72

$0.72

各 100 万トークン

アクティベーション後 90 日間有効

qwen-vl-ocr-2025-11-20

qwen-vl-ocr-1120 とも呼ばれます
Qwen3-VL に基づいています。文書解析とテキストのローカライズが大幅に改善されています。

スナップショット

38,192

8,192

$0.07

$0.16

中国 (北京)

モデル

バージョン

コンテキストウィンドウ

最大入力

最大出力

入力コスト

出力コスト

無料クォータ

(注)

(トークン)

(100 万トークン)

qwen-vl-ocr

現在、qwen-vl-ocr-2025-08-28 と同じ機能を持ちます

安定

34,096

30,000

画像あたり最大 30,000

4,096

$0.717

$0.717

無料クォータなし

qwen-vl-ocr-latest

常に最新のスナップショットと同じ機能を持ちます

最新

38,192

8,192

$0.043

$0.072

qwen-vl-ocr-2025-11-20

qwen-vl-ocr-1120 とも呼ばれます
Qwen3-VL に基づいています。文書解析とテキストのローカライズが大幅に改善されています。

スナップショット

qwen-vl-ocr-2025-08-28

qwen-vl-ocr-0828 とも呼ばれます

34,096

4,096

$0.717

$0.717

qwen-vl-ocr-2025-04-13

qwen-vl-ocr-0413 とも呼ばれます

qwen-vl-ocr-2024-10-28

qwen-vl-ocr-1028 とも呼ばれます

Qwen-Math

Qwen-Math は、数学の問題解決用に設計された言語モデルです。使用方法 | API リファレンス | オンラインで試す

説明

このモデルは中国 (北京) リージョンでのみ利用可能です。

モデル

バージョン

コンテキストウィンドウ

最大入力

最大出力

入力コスト

出力コスト

(トークン)

(100 万トークン)

qwen-math-plus

qwen-math-plus-2024-09-19 と同じ機能を持ちます。

安定

4,096

3,072

3,072

$0.574

$1.721

qwen-math-plus-latest

最新のスナップショットと同じ機能を持ちます。

最新

qwen-math-plus-2024-09-19

qwen-math-plus-0919 とも呼ばれます。

スナップショット

qwen-math-plus-2024-08-16

qwen-math-plus-0816 とも呼ばれます。

qwen-math-turbo

qwen-math-turbo-2024-09-19 と同じ機能を持ちます。

安定

$0.287

$0.861

qwen-math-turbo-latest

最新のスナップショットと同じ機能を持ちます。

最新

qwen-math-turbo-2024-09-19

qwen-math-turbo-0919 とも呼ばれます。

スナップショット

Qwen-Coder

最新の Qwen3-Coder-Plus シリーズモデルは、Qwen3 に基づいて構築された Qwen コード生成モデルです。ツールの呼び出しと環境との対話に優れた強力なコーディングエージェントです。これらのモデルは自律的にプログラミングでき、優れたコーディング能力と汎用能力を提供します。使用方法 | API リファレンス | オンラインで試す

国際 (シンガポール)

モデル

バージョン

コンテキストウィンドウ

最大入力

最大出力

入力コスト (100 万トークン)

出力コスト (100 万トークン)

無料クォータ

(注)

トークン

100 万トークンあたり

qwen3-coder-plus

現在、qwen3-coder-plus-2025-07-22 と同等です

安定

1,000,000

997,952

65,536

段階的価格設定。詳細については、表の下の説明をご参照ください。

各 100 万トークン

Alibaba Cloud Model Studio をアクティベートしてから 90 日間有効

qwen3-coder-plus-2025-09-23

スナップショット

qwen3-coder-plus-2025-07-22

スナップショット

qwen3-coder-flash

現在、qwen3-coder-flash-2025-07-28 と同等です

安定

qwen3-coder-flash-2025-07-28

スナップショット

これらのモデルは、リクエストごとの入力トークン数に基づいて段階的課金を使用します。

qwen3-coder-plus シリーズ

qwen3-coder-plus、qwen3-coder-plus-2025-09-23、および qwen3-coder-plus-2025-07-22 の価格は以下の通りです。qwen3-coder-plus モデルはコンテキストキャッシュをサポートしています。暗黙的キャッシュにヒットした入力テキストは、単価の 20% で課金されます。明示的キャッシュにヒットした入力テキストは、単価の 10% で課金されます。

リクエストごとの入力トークン

入力コスト (100 万トークン)

出力コスト (100 万トークン)

0 < トークン ≤ 32K

$1

$5

32K < トークン ≤ 128K

$1.8

$9

128K < トークン ≤ 256K

$3

$15

256K < トークン ≤ 1M

$6

$60

qwen3-coder-flash シリーズ

qwen3-coder-flash と qwen3-coder-flash-2025-07-28 の価格は以下の通りです。qwen3-coder-flash モデルはコンテキストキャッシュをサポートしています。暗黙的キャッシュにヒットした入力テキストは、単価の 20% で課金されます。明示的キャッシュにヒットした入力テキストは、単価の 10% で課金されます。

リクエストごとの入力トークン

入力コスト (100 万トークン)

出力コスト (100 万トークン)

0 < トークン ≤ 32K

$0.3

$1.5

32K < トークン ≤ 128K

$0.5

$2.5

128K < トークン ≤ 256K

$0.8

$4

256K < トークン ≤ 1M

$1.6

$9.6

中国 (北京)

モデル

バージョン

コンテキストウィンドウ

最大入力

最大出力

入力コスト

出力コスト

(トークン)

(100 万トークン)

qwen3-coder-plus

qwen3-coder-plus-2025-07-22 と同じ機能を提供します。

安定

1,000,000

997,952

65,536

段階的価格設定。詳細については、表の下の説明をご参照ください。

qwen3-coder-plus-2025-09-23

スナップショット

qwen3-coder-plus-2025-07-22

スナップショット

qwen3-coder-flash

現在、qwen3-coder-flash-2025-07-28 のエイリアスです

安定

qwen3-coder-flash-2025-07-28

スナップショット

これらのモデルは、リクエストごとの入力トークン数に基づいて段階的課金を使用します。

qwen3-coder-plus シリーズ

qwen3-coder-plus、qwen3-coder-plus-2025-09-23、および qwen3-coder-plus-2025-07-22 の価格は以下の通りです。qwen3-coder-plus モデルはコンテキストキャッシュをサポートしています。暗黙的キャッシュにヒットした入力テキストは、単価の 20% で課金されます。明示的キャッシュにヒットした入力テキストは、単価の 10% で課金されます。

リクエストごとの入力トークン

入力コスト (100 万トークン)

出力コスト (100 万トークン)

0 < トークン ≤ 32K

$0.574

$2.294

32K < トークン ≤ 128K

$0.861

$3.441

128K < トークン ≤ 256K

$1.434

$5.735

256K < トークン ≤ 1M

$2.868

$28.671

qwen3-coder-flash シリーズ

qwen3-coder-flash と qwen3-coder-flash-2025-07-28 の価格は以下の通りです。qwen3-coder-flash モデルはコンテキストキャッシュをサポートしています。暗黙的キャッシュにヒットした入力テキストは、単価の 20% で課金されます。明示的キャッシュにヒットした入力テキストは、単価の 10% で課金されます。

リクエストごとの入力トークン

入力コスト (100 万トークン)

出力コスト (100 万トークン)

0 < トークン ≤ 32K

$0.144

$0.574

32K < トークン ≤ 128K

$0.216

$0.861

128K < トークン ≤ 256K

$0.359

$1.434

256K < トークン ≤ 1M

$0.717

$3.584

その他のモデル

モデル

バージョン

コンテキストウィンドウ

最大入力

最大出力

入力コスト

出力コスト

(トークン)

(100 万トークン)

qwen-coder-plus

qwen-coder-plus-2024-11-06 と同じ機能

安定

131,072

129,024

8,192

$0.502

$1.004

qwen-coder-plus-latest

qwen-coder-plus の最新スナップショットバージョンと同じ機能

最新

qwen-coder-plus-2024-11-06

qwen-coder-plus-1106 とも呼ばれます

スナップショット

qwen-coder-turbo

qwen-coder-turbo-2024-09-19 と同じ機能

安定

131,072

129,024

8,192

$0.287

$0.861

qwen-coder-turbo-latest

qwen-coder-turbo の最新スナップショットバージョンと同じ機能

最新

qwen-coder-turbo-2024-09-19

qwen-coder-turbo-0919 とも呼ばれます

スナップショット

Qwen-MT

このフラッグシップ大規模翻訳モデルは、Qwen 3 への包括的なアップグレードです。中国語、英語、日本語、韓国語、フランス語、スペイン語、ドイツ語、タイ語、インドネシア語、ベトナム語、アラビア語を含む 92 言語間の翻訳をサポートします。モデルのパフォーマンスと翻訳品質は大幅に向上しています。カスタム用語集、フォーマット保持、特定分野のプロンプトのサポートが強化され、より正確で自然な翻訳が実現します。使用方法

国際 (シンガポール)

モデル

コンテキストウィンドウ

最大入力

最大出力

入力コスト

出力コスト

無料クォータ

ルールを表示

(トークン)

(100 万トークン)

qwen-mt-plus

Qwen3-MT

16,384

8,192

8,192

$2.46

$7.37

モデルごとに 100 万トークン

Alibaba Cloud Model Studio をアクティベートしてから 90 日後に期限切れになります。

qwen-mt-flash

Qwen3-MT

$0.16

$0.49

qwen-mt-lite

Qwen3-MT

$0.12

$0.36

qwen-mt-turbo

Qwen3-MT

$0.16

$0.49

中国 (北京)

モデル

コンテキストウィンドウ

最大入力

最大出力

入力コスト

出力コスト

(トークン)

(100 万トークン)

qwen-mt-plus

Qwen3-MT

16,384

8,192

8,192

$0.259

$0.775

qwen-mt-flash

Qwen3-MT

$0.101

$0.280

qwen-mt-lite

Qwen3-MT

$0.086

$0.229

qwen-mt-turbo

Qwen3-MT

$0.101

$0.280

Qwen データマイニングモデル

Qwen データマイニングモデルは、データ注釈やコンテンツモデレーションなどの分野で使用するために、ドキュメントから構造化情報を抽出します。使用方法 | API リファレンス

説明

中国 (北京) リージョンでのみ利用可能です。

モデル

コンテキストウィンドウ

最大入力

最大出力

入力コスト

出力コスト

無料クォータ

(トークン)

(100 万トークン)

qwen-doc-turbo

131,072

129,024

8,192

$0.087

$0.144

無料クォータなし

Qwen ディープリサーチモデル

Qwen ディープリサーチモデルは、複雑な問題を分解し、Web 検索を使用して推論と分析を行い、リサーチレポートを生成します。使用方法 | API リファレンス

説明

中国 (北京) リージョンでのみ利用可能です。

モデル

コンテキストウィンドウ

最大入力

最大出力

入力コスト

出力コスト

(トークン)

(1,000 トークンあたり)

qwen-deep-research

1,000,000

997,952

32,768

$0.007742

$0.023367

テキスト生成 - Qwen オープンソース版

  • モデル名では、xxb はパラメーターサイズを示します。たとえば、qwen2-72b-instruct は 720 億 (72B) のパラメーターサイズを示します。

  • Alibaba Cloud Model Studio は、Qwen のオープンソース版の呼び出しをサポートしています。モデルをローカルにデプロイする必要はありません。オープンソース版では、Qwen3 および Qwen2.5 モデルの使用を推奨します。

Qwen3

2025 年 9 月にリリースされた qwen3-next-80b-a3b-thinking は、思考モードのみをサポートしています。qwen3-235b-a22b-thinking-2507 と比較して、命令追従能力が向上し、より簡潔な要約が可能です。

2025 年 9 月にリリースされた qwen3-next-80b-a3b-instruct は、非思考モードのみをサポートしています。qwen3-235b-a22b-instruct-2507 と比較して、中国語の理解力、論理的推論、テキスト生成能力が向上しています。

2025 年 7 月にリリースされた qwen3-235b-a22b-thinking-2507 および qwen3-30b-a3b-thinking-2507 モデルは、思考モードのみをサポートしています。これらは qwen3-235b-a22b (思考モード) および qwen3-30b-a3b (思考モード) のアップグレード版です。

2025 年 7 月にリリースされた qwen3-235b-a22b-instruct-2507 および qwen3-30b-a3b-instruct-2507 モデルは、非思考モードのみをサポートしています。これらは qwen3-235b-a22b (非思考モード) および qwen3-30b-a3b (非思考モード) のアップグレード版です。

2025 年 4 月にリリースされた Qwen3 モデルは、思考モードと非思考モードの両方をサポートしています。enable_thinking パラメーターを使用してモードを切り替えることができます。Qwen3 モデルは、機能も大幅に強化されています:

  1. 推論能力:数学、コード、論理的推論の評価において、モデルは QwQ や同規模の他の非推論モデルを大幅に上回ります。そのパフォーマンスは、その規模のモデルの中で業界トップクラスです。

  2. 人間の嗜好との整合性:モデルは、創造的な執筆、ロールプレイング、マルチターン対話、命令追従において大きな改善を示しています。その汎用能力は、同規模の他のモデルよりも大幅に優れています。

  3. エージェント能力:モデルは、思考モードと非思考モードの両方で業界をリードするパフォーマンスを発揮し、正確な外部ツールの呼び出しを実行できます。

  4. 多言語能力:モデルは 100 以上の言語と方言をサポートしています。多言語翻訳、命令理解、常識推論において大幅な改善を示しています。

    サポートされている言語

    英語

    簡体字中国語

    繁体字中国語

    フランス語

    スペイン語

    アラビア語。アラビア文字を使用し、多くのアラブ諸国の公用語です。

    ロシア語。キリル文字を使用し、ロシアおよびその他いくつかの国の公用語です。

    ポルトガル語。ラテン文字を使用し、ポルトガル、ブラジル、その他のポルトガル語圏の国の公用語です。

    ドイツ語。ラテン文字を使用し、ドイツやオーストリアなどの国の公用語です。

    イタリア語。ラテン文字を使用し、イタリア、サンマリノ、スイスの一部の公用語です。

    オランダ語。ラテン文字を使用し、オランダ、ベルギーの一部 (フランドル地方)、スリナムの公用語です。

    デンマーク語。ラテン文字を使用し、デンマークの公用語です。

    アイルランド語。ラテン文字を使用し、アイルランドの公用語の 1 つです。

    ウェールズ語。ラテン文字を使用し、ウェールズの公用語の 1 つです。

    フィンランド語。ラテン文字を使用し、フィンランドの公用語です。

    アイスランド語。ラテン文字を使用し、アイスランドの公用語です。

    スウェーデン語。ラテン文字を使用し、スウェーデンの公用語です。

    ニーノシュク・ノルウェー語。ラテン文字を使用し、ノルウェー語の 2 つの公式書記標準の 1 つで、ブークモール・ノルウェー語と並行して使用されます。

    ブークモール・ノルウェー語。ラテン文字を使用し、ノルウェー語の 2 つの公式書記標準のうち、より広く使用されている方です。

    日本語。日本語の文字を使用し、日本の公用語です。

    韓国語。ハングルを使用し、韓国と北朝鮮の公用語です。

    ベトナム語。ラテン文字を使用し、ベトナムの公用語です。

    タイ語。タイ文字を使用し、タイの公用語です。

    インドネシア語。ラテン文字を使用し、インドネシアの公用語です。

    マレー語。ラテン文字を使用し、マレーシアおよびその他いくつかの国で主要な言語です。

    ビルマ語。ミャンマー文字を使用し、ミャンマーの公用語です。

    タガログ語。ラテン文字を使用し、フィリピンの主要言語の 1 つです。

    クメール語。クメール文字を使用し、カンボジアの公用語です。

    ラオ語。ラオ文字を使用し、ラオスの公用語です。

    ヒンディー語。デーヴァナーガリー文字を使用し、インドの公用語の 1 つです。

    ベンガル語。ベンガル文字を使用し、バングラデシュおよびインドの西ベンガル州の公用語です。

    ウルドゥー語。アラビア文字を使用し、パキスタンの公用語であり、インドでも話されています。

    ネパール語。デーヴァナーガリー文字を使用し、ネパールの公用語です。

    ヘブライ語。ヘブライ文字を使用し、イスラエルの公用語です。

    トルコ語。ラテン文字を使用し、トルコおよび北キプロスの公用語です。

    ペルシャ語。アラビア文字を使用し、イランやタジキスタンなどの国の公用語です。

    ポーランド語。ラテン文字を使用し、ポーランドの公用語です。

    ウクライナ語。キリル文字を使用し、ウクライナの公用語です。

    チェコ語。ラテン文字を使用し、チェコ共和国の公用語です。

    ルーマニア語。ラテン文字を使用し、ルーマニアとモルドバの公用語です。

    ブルガリア語。キリル文字を使用し、ブルガリアの公用語です。

    スロバキア語。ラテン文字を使用し、スロバキアの公用語です。

    ハンガリー語。ラテン文字を使用し、ハンガリーの公用語です。

    スロベニア語。ラテン文字を使用し、スロベニアの公用語です。

    ラトビア語。ラテン文字を使用し、ラトビアの公用語です。

    エストニア語。ラテン文字を使用し、エストニアの公用語です。

    リトアニア語。ラテン文字を使用し、リトアニアの公用語です。

    ベラルーシ語。キリル文字を使用し、ベラルーシの公用語の 1 つです。

    ギリシャ語。ギリシャ文字を使用し、ギリシャとキプロスの公用語です。

    クロアチア語。ラテン文字を使用し、クロアチアの公用語です。

    マケドニア語。キリル文字を使用し、北マケドニアの公用語です。

    マルタ語。ラテン文字を使用し、マルタの公用語です。

    セルビア語。キリル文字を使用し、セルビアの公用語です。

    ボスニア語。ラテン文字を使用し、ボスニア・ヘルツェゴビナの公用語の 1 つです。

    ジョージア語。ジョージア文字を使用し、ジョージアの公用語です。

    アルメニア語。アルメニア文字を使用し、アルメニアの公用語です。

    北アゼルバイジャン語。ラテン文字を使用し、アゼルバイジャンの公用語です。

    カザフ語。キリル文字を使用し、カザフスタンの公用語です。

    北ウズベク語。ラテン文字を使用し、ウズベキスタンの公用語です。

    タジク語。キリル文字を使用し、タジキスタンの公用語です。

    スワヒリ語。ラテン文字を使用し、多くの東アフリカ諸国でリンガフランカまたは公用語です。

    アフリカーンス語。ラテン文字を使用し、主に南アフリカとナミビアで話されています。

    広東語。繁体字中国語を使用し、広東省、香港、マカオで主に話されている言語です。

    ルクセンブルク語。ラテン文字を使用し、ルクセンブルクの公用語です。ドイツの一部でも話されています。

    リンブルフ語。ラテン文字を使用し、主にオランダ、ベルギー、ドイツの一部で話されています。

    カタルーニャ語。ラテン文字を使用し、カタルーニャおよびスペインの他の地域で話されています。

    ガリシア語。ラテン文字を使用し、主にスペインのガリシア地方で話されています。

    アストゥリアス語。ラテン文字を使用し、主にスペインのアストゥリアス地方で話されています。

    バスク語。ラテン文字を使用します。スペインのバスク自治州の公用語であり、主にスペインとフランスのバスク地方で話されています。

    オック語。ラテン文字を使用し、主にフランスの南部地域で話されています。

    ヴェネト語。ラテン文字を使用し、主にイタリアのヴェネト州で話されています。

    サルデーニャ語。ラテン文字を使用し、主にイタリアのサルデーニャ島で話されています。

    シチリア語。ラテン文字を使用し、主にイタリアのシチリア島で話されています。

    フリウリ語。ラテン文字を使用し、主にイタリアのフリウリ=ヴェネツィア・ジュリア州で話されています。

    ロンバルド語。ラテン文字を使用し、主にイタリアのロンバルディア州で話されています。

    リグリア語。ラテン文字を使用し、主にイタリアのリグーリア州で話されています。

    フェロー語。ラテン文字を使用し、フェロー諸島の公用語です。

    トスク・アルバニア語。ラテン文字を使用し、アルバニア語の南部方言です。

    シレジア語。ラテン文字を使用し、主にポーランドで話されています。

    バシキール語。キリル文字を使用し、主にロシアのバシコルトスタン共和国で話されています。

    タタール語。キリル文字を使用し、主にロシアのタタールスタン共和国で話されています。

    メソポタミア・アラビア語。アラビア文字を使用し、主にイラクで話されています。

    ナジュド・アラビア語。アラビア文字を使用し、主にサウジアラビアのナジュド地方で話されています。

    エジプト・アラビア語。アラビア文字を使用し、主にエジプトで話されています。

    レバント・アラビア語。アラビア文字を使用し、主にシリアとレバノンで話されています。

    タイズ・アデン・アラビア語。アラビア文字を使用し、主にイエメンとサウジアラビアのハドラマウト地方で話されています。

    ダリー語。アラビア文字を使用し、アフガニスタンの公用語の 1 つです。

    チュニジア・アラビア語。アラビア文字を使用し、主にチュニジアで話されています。

    モロッコ・アラビア語。アラビア文字を使用し、主にモロッコで話されています。

    カーボベルデ・クレオール語。ラテン文字を使用し、主にカーボベルデで話されています。

    トク・ピシン。ラテン文字を使用し、パプアニューギニアの主要なリンガフランカです。

    東イディッシュ語。ヘブライ文字を使用し、主にユダヤ人コミュニティで話されています。

    シンド語。アラビア文字を使用し、パキスタンのシンド州の公用語です。

    シンハラ語。シンハラ文字を使用し、スリランカの公用語の 1 つです。

    テルグ語。テルグ文字を使用し、インドのアーンドラ・プラデーシュ州とテランガーナ州の公用語です。

    パンジャブ語。グルムキー文字を使用し、インドのパンジャブ州で話され、インドの公用語です。

    タミル語。タミル文字を使用し、インドのタミル・ナードゥ州とスリランカの公用語です。

    グジャラート語。グジャラート文字を使用し、インドのグジャラート州の公用語です。

    マラヤーラム語。マラヤーラム文字を使用し、インドのケーララ州の公用語です。

    マラーティー語。デーヴァナーガリー文字を使用し、インドのマハーラーシュトラ州の公用語です。

    カンナダ語。カンナダ文字を使用し、インドのカルナータカ州の公用語です。

    マガヒー語。デーヴァナーガリー文字を使用し、主にインドのビハール州で話されています。

    オリヤー語。オリヤー文字を使用し、インドのオリッサ州の公用語の 1 つです。

    アワディー語。デーヴァナーガリー文字を使用し、主にインドのウッタル・プラデーシュ州で話されています。

    マイティリー語。デーヴァナーガリー文字を使用し、インドのビハール州とネパールのテライ平原で話され、インドの公用語です。

    アッサム語。ベンガル文字を使用し、インドのアッサム州の公用語です。

    チャッティースガリー語。デーヴァナーガリー文字を使用し、主にインドのチャッティースガル州で話されています。

    ボージュプリー語。デーヴァナーガリー文字を使用し、インドとネパールの一部で話されています。

    ミナンカバウ語。ラテン文字を使用し、主にインドネシアのスマトラ島で話されています。

    バリ語。ラテン文字を使用し、主にインドネシアのバリ島で話されています。

    ジャワ語。ラテン文字を使用しますが、伝統的にジャワ文字も使用されます。インドネシアのジャワ島で広く話されています。

    バンジャル語。ラテン文字を使用し、主にインドネシアのカリマンタン島で話されています。

    スンダ語。ラテン文字を使用しますが、伝統的にスンダ文字も使用されます。主にインドネシアのジャワ島の西部で話されています。

    セブアノ語。ラテン文字を使用し、主にフィリピンのセブ地方で話されています。

    パンガシナン語。ラテン文字を使用し、主にフィリピンのパンガシナン州で話されています。

    イロカノ語。ラテン文字を使用し、主にフィリピンで話されています。

    ワライ語 (フィリピン)。ラテン文字を使用し、主にフィリピンで話されています。

    ハイチ・クレオール語。ラテン文字を使用し、ハイチの公用語の 1 つです。

    パピアメント語。ラテン文字を使用し、主にアルバやキュラソーなどのカリブ海地域で話されています。

  5. 応答フォーマットの修正:このアップデートでは、不正な Markdown、切り捨てられた応答、不正なボックス出力など、以前のバージョンの応答フォーマットの問題が修正されています。

2025 年 4 月にリリースされたオープンソースの Qwen3 モデルは、思考モードでの非ストリーミング出力をサポートしていません。
オープンソースの Qwen3 モデルが思考モードにあるが、思考プロセスを出力しない場合、非思考モードのレートで課金されます。

思考モード | 非思考モード | 使用方法

国際 (シンガポール)

モデル

モード

コンテキストウィンドウ

最大入力

最大思考連鎖

最大応答

入力コスト

出力コスト

無料クォータ

(注)

(トークン)

(100 万トークン)

qwen3-next-80b-a3b-thinking

思考のみ

131,072

126,976

81,920

32,768

$0.15

$1.2

100 万トークン

Alibaba Cloud Model Studio をアクティベートしてから 90 日間有効

qwen3-next-80b-a3b-instruct

非思考のみ

129,024

-

qwen3-235b-a22b-thinking-2507

思考のみ

126,976

81,920

$0.23

$2.3

qwen3-235b-a22b-instruct-2507

非思考のみ

129,024

-

$0.92

qwen3-30b-a3b-thinking-2507

思考のみ

126,976

81,920

$0.2

$2.4

qwen3-30b-a3b-instruct-2507

非思考のみ

129,024

-

$0.8

qwen3-235b-a22b

このモデルと以下のモデルは 2025 年 4 月にリリースされました。

非思考モード

129,024

-

16,384

$0.7

$2.8

思考モード

98,304

38,912

$8.4

qwen3-32b

非思考モード

129,024

-

$0.16

$0.64

思考モード

98,304

38,912

qwen3-30b-a3b

非思考モード

129,024

-

$0.2

$0.8

思考モード

98,304

38,912

$2.4

qwen3-14b

非思考モード

129,024

-

8,192

$0.35

$1.4

思考モード

98,304

38,912

$4.2

qwen3-8b

非思考モード

129,024

-

$0.18

$0.7

思考モード

98,304

38,912

$2.1

qwen3-4b

非思考モード

129,024

-

$0.11

$0.42

思考モード

98,304

38,912

$1.26

qwen3-1.7b

非思考モード

32,768

30,720

-

$0.42

思考モード

28,672

合計値は 30,720 を超えることはできません。

$1.26

qwen3-0.6b

非思考モード

30,720

-

$0.42

思考モード

28,672

値と入力の合計は 30,720 を超えることはできません。

$1.26

中国 (北京)

モデル

モード

コンテキストウィンドウ

最大入力

最大思考連鎖

最大応答

入力コスト

出力コスト

(トークン)

(100 万トークン)

qwen3-next-80b-a3b-thinking

思考のみ

131,072

126,976

81,920

32,768

$0.144

$1.434

qwen3-next-80b-a3b-instruct

非思考のみ

129,024

-

$0.574

qwen3-235b-a22b-thinking-2507

思考のみ

126,976

81,920

$0.287

$2.868

qwen3-235b-a22b-instruct-2507

非思考のみ

129,024

-

$1.147

qwen3-30b-a3b-thinking-2507

思考のみ

126,976

81,920

$0.108

$1.076

qwen3-30b-a3b-instruct-2507

非思考のみ

129,024

-

$0.431

qwen3-235b-a22b

非思考

129,024

-

16,384

$0.287

$1.147

思考

98,304

38,912

$2.868

qwen3-32b

非思考

129,024

-

$0.287

$1.147

思考

98,304

38,912

$2.868

qwen3-30b-a3b

非思考

129,024

-

$0.108

$0.431

思考

98,304

38,912

$1.076

qwen3-14b

非思考

129,024

-

8,192

$0.144

$0.574

思考

98,304

38,912

$1.434

qwen3-8b

非思考

129,024

-

$0.072

$0.287

思考

98,304

38,912

$0.717

qwen3-4b

非思考

129,024

-

$0.044

$0.173

思考

98,304

38,912

$0.431

qwen3-1.7b

非思考

32,768

30,720

-

$0.173

思考

28,672

入力トークンと思考連鎖トークンの合計は 30,720 を超えてはなりません。

$0.431

qwen3-0.6b

非思考

30,720

-

$0.173

思考

28,672

入力トークンと思考連鎖トークンの合計は 30,720 を超えてはなりません。

$0.431

QwQ-オープンソース

Qwen2.5-32B でトレーニングされた QwQ 推論モデル。強化学習により、推論能力が大幅に向上しました。数学とコードのコアメトリック (AIME 24/25、LiveCodeBench) と一部の汎用メトリック (IFEval、LiveBench) は、DeepSeek-R1 のフルパワーバージョンと同等です。すべてのメトリックは、同じく Qwen2.5-32B に基づく DeepSeek-R1-Distill-Qwen-32B を大幅に上回ります。使用方法 | API リファレンス

説明

この機能は中国 (北京) リージョンでのみ利用可能です。

モデル

コンテキストウィンドウ

最大入力

最大思考連鎖

最大出力

入力価格

出力価格

(トークン)

(100 万トークン)

qwq-32b

131,072

98,304

32,768

8,192

$0.287

$0.861

QwQ-Preview

qwq-32b-preview モデルは、2024 年に Qwen チームによって開発された実験的な研究モデルです。特に数学とプログラミングにおける AI の推論能力の向上に焦点を当てています。qwq-32b-preview モデルの制限事項の詳細については、QwQ 公式ブログをご参照ください。使用方法 | API リファレンス | オンラインで試す

説明

この機能は中国 (北京) リージョンでのみ利用可能です。

モデル

コンテキストウィンドウ

最大入力

最大出力

入力コスト

出力コスト

(トークン)

(100 万トークン)

qwq-32b-preview

32,768

30,720

16,384

$0.287

$0.861

Qwen2.5

Qwen2.5 は Qwen 大規模言語モデルのシリーズです。Qwen2.5 では、70 億から 720 億のパラメーターサイズを持つ一連の基本言語モデルと命令チューニングされた言語モデルをリリースしました。Qwen2.5 には、Qwen2 と比較して以下の改善点が含まれています:

  • 最大 18 兆トークンを含む最新の大規模データセットで事前トレーニングされています。

  • これらの分野の専門モデルは、モデルの知識を大幅に増やし、コーディングと数学の能力を大幅に向上させました。

  • 命令の追従、長文 (8K トークン以上) の生成、構造化データ (表など) の理解、構造化出力 (特に JSON) の生成において大幅な改善が見られます。システムプロンプトの多様性に対してより回復力があり、チャットボットのロールプレイや条件付き設定の実装が強化されます。

  • 中国語、英語、フランス語、スペイン語、ポルトガル語、ドイツ語、イタリア語、ロシア語、日本語、韓国語、ベトナム語、タイ語、アラビア語を含む 29 以上の言語をサポートしています。

使用方法API リファレンスオンラインで試す

国際 (シンガポール)

モデル

コンテキストウィンドウ

最大入力

最大出力

入力価格

出力価格

無料クォータ

(トークン)

(100 万トークン)

qwen2.5-14b-instruct-1m

1,008,192

1,000,000

8,192

$0.805

$3.22

入力と出力それぞれ 100 万トークン

Alibaba Cloud Model Studio をアクティベートしてから 90 日間有効です。

qwen2.5-7b-instruct-1m

$0.368

$1.47

qwen2.5-72b-instruct

131,072

129,024

$1.40

$5.60

qwen2.5-32b-instruct

$0.70

$2.80

qwen2.5-14b-instruct

$0.35

$1.40

Qwen2.5-7B-Instruct

$0.175

$0.700

中国 (北京)

モデル

コンテキストウィンドウ

最大入力

最大出力

入力コスト

出力コスト

(トークン)

(100 万トークン)

qwen2.5-14b-instruct-1m

1,000,000

1,000,000

8,192

$0.144

$0.431

qwen2.5-7b-instruct-1m

$0.072

$0.144

qwen2.5-72b-instruct

131,072

129,024

$0.574

$1.721

qwen2.5-32b-instruct

$0.287

$0.861

qwen2.5-14b-instruct

$0.144

$0.431

qwen2.5-7b-instruct

$0.072

$0.144

qwen2.5-3b-instruct

32,768

30,720

$0.044

$0.130

qwen2.5-1.5b-instruct

期間限定で無料

qwen2.5-0.5b-instruct

QVQ

qvq-72b-preview モデルは、Qwen チームによって開発された実験的な研究モデルです。特に数学的推論における視覚的推論能力の向上に焦点を当てています。qvq-72b-preview モデルの制限事項の詳細については、QVQ 公式ブログをご参照ください。使用方法 | API リファレンス

モデルに最終的な回答の前に思考プロセスを出力させるには、QVQ モデルの商用版を使用できます。
説明

この機能は中国 (北京) リージョンでのみ利用可能です。

モデル

コンテキストウィンドウ

最大入力

最大出力

入力コスト

出力コスト

トークン

100 万トークンあたり

qvq-72b-preview

32,768

16,384

画像あたり最大 16,384 トークン

16,384

$1.721

$5.161

Qwen-Omni

これは、Qwen2.5 でトレーニングされた新しいマルチモーダル大規模モデルです。テキスト、画像、音声、動画の入力をサポートし、テキストと音声を同時にストリームで生成できます。マルチモーダルコンテンツの理解速度が大幅に向上しました。使用方法 | API リファレンス

国際 (シンガポール)

モデル

コンテキストウィンドウ

最大入力

最大出力

無料クォータ

(注)

(トークン)

qwen2.5-omni-7b

32,768

30,720

2,048

100 万トークン (モダリティに関係なく)

Alibaba Cloud Model Studio をアクティベートしてから 90 日間有効です。

無料クォータを使い切った後は、入力と出力に以下の課金ルールが適用されます:

入力項目

価格 (100 万トークン)

テキスト

$0.10

音声

$6.76

画像/動画

$0.28

出力項目

価格 (100 万トークン)

テキスト

$0.40 (入力がテキストのみの場合)

$0.84 (入力に画像、音声、または動画が含まれる場合)

テキストと音声

$13.51 (音声コンポーネントの場合)

出力のテキスト部分は課金されません。

中国 (北京)

モデル

コンテキストウィンドウ

最大入力

最大出力

(トークン)

qwen2.5-omni-7b

32,768

30,720

2,048

入力と出力の課金ルールは以下の通りです:

入力

価格 (100 万トークン)

テキスト

$0.087

音声

$5.448

画像または動画

$0.287

出力

価格 (100 万トークン)

テキスト

$0.345 (入力がテキストのみの場合)

$0.861 (入力に画像、音声、または動画が含まれる場合)

テキストと音声

$10.895 (音声部分)

出力のテキスト部分は課金されません。

Qwen3-Omni-Captioner

Qwen3-Omni-Captioner は、Qwen3-Omni に基づくオープンソースモデルです。プロンプトなしで、音声、環境音、音楽、効果音などの複雑な音声に対して、正確で包括的な説明を自動的に生成します。話者の感情、音楽的要素 (スタイルや楽器など)、機密情報を識別できるため、音声コンテンツ分析、セキュリティ監査、意図認識、音声編集などのアプリケーションに適しています。使用方法 | API リファレンス

説明

このモデルはシンガポールリージョンでのみ利用可能です。

モデル

コンテキストウィンドウ

最大入力

最大出力

入力コスト

出力コスト

無料クォータ

(注)

(トークン)

(100 万トークン)

qwen3-omni-30b-a3b-captioner

65,536

32,768

32,768

$3.81

$3.06

100 万トークン

有効期間:Alibaba Cloud Model Studio をアクティベートしてから 90 日

Qwen-VL

これは Alibaba Cloud の Qwen-VL のオープンソース版です。使用方法 | API リファレンス

Qwen3-VL モデルは、Qwen2.5-VL と比較して大幅な改善を提供します:

  • エージェントインタラクション:コンピュータや携帯電話のインターフェースを操作し、グラフィカルユーザーインターフェース (GUI) 要素を検出し、機能を理解し、ツールを呼び出してタスクを実行します。OS World などの評価でトップクラスのパフォーマンスを達成します。

  • 視覚エンコーディング:画像や動画からコードを生成します。この機能を使用して、デザインドラフトやウェブサイトのスクリーンショットから HTML、CSS、JS コードを作成できます。

  • 空間知能:2D および 3D の位置特定をサポートし、オブジェクトの向き、視点の変化、オクルージョン関係を正確に判断します。

  • 長尺動画理解:最大 20 分の動画コンテンツを理解し、秒単位の精度で特定の瞬間を特定できます。

  • ディープシンキング:詳細のキャプチャと因果関係の分析に優れ、MathVista や MMMU などの評価でトップクラスのパフォーマンスを達成します。

  • OCR:33 言語をサポートし、複雑な照明、ぼかし、傾きを伴うシナリオでより安定して動作します。また、珍しい文字、古代の文字、専門用語の認識精度も大幅に向上します。

    サポートされている言語

    このモデルは、中国語、日本語、韓国語、インドネシア語、ベトナム語、タイ語、英語、フランス語、ドイツ語、ロシア語、ポルトガル語、スペイン語、イタリア語、スウェーデン語、デンマーク語、チェコ語、ノルウェー語、オランダ語、フィンランド語、トルコ語、ポーランド語、スワヒリ語、ルーマニア語、セルビア語、ギリシャ語、カザフ語、ウズベク語、セブアノ語、アラビア語、ウルドゥー語、ペルシャ語、ヒンディー語/デーヴァナーガリー文字、ヘブライ語の 33 言語をサポートしています。

国際 (シンガポール)

モデル

モード

コンテキストウィンドウ

最大入力

最大思考連鎖

最大応答

入力コスト

出力コスト

CoT + 応答

無料クォータ

(注)

(トークン)

(100 万トークン)

qwen3-vl-235b-a22b-thinking

思考のみ

126,976

81,920

$0.4

$4

各 100 万トークン

Model Studio のアクティベート後 90 日間有効。

qwen3-vl-235b-a22b-instruct

非思考のみ

129,024

-

$1.6

qwen3-vl-32b-thinking

思考のみ

131,072

126,976

81,920

32,768

$0.16

$0.64

qwen3-vl-32b-instruct

非思考のみ

129,024

-

qwen3-vl-30b-a3b-thinking

思考のみ

126,976

81,920

$0.2

$2.4

qwen3-vl-30b-a3b-instruct

非思考のみ

129,024

-

$0.8

qwen3-vl-8b-thinking

思考のみ

126,976

81,920

$0.18

$2.1

qwen3-vl-8b-instruct

非思考のみ

129,024

-

$0.7

その他のモデル

モデル

コンテキストウィンドウ

最大入力

最大出力

入力コスト

出力コスト

無料クォータ

(注)

(トークン)

(100 万トークン)

qwen2.5-vl-72b-instruct 

131,072

129,024

画像あたり最大 16,384

8,192

$2.8

$8.4

100 万トークン

Alibaba Cloud Model Studio をアクティベートしてから 90 日間有効です。

qwen2.5-vl-32b-instruct

$1.4

$4.2

qwen2.5-vl-7b-instruct

$0.35

$1.05

qwen2.5-vl-3b-instruct

$0.21

$0.63

中国 (北京)

モデル

モード

コンテキストウィンドウ

最大入力

最大思考連鎖

最大応答

入力コスト

出力コスト

CoT + 応答

無料クォータ

(注)

(トークン)

(100 万トークン)

qwen3-vl-235b-a22b-thinking

思考のみ

131,072

126,976

81,920

$0.286705

$2.867051

無料クォータなし

qwen3-vl-235b-a22b-instruct

非思考のみ

129,024

-

$1.146820

qwen3-vl-32b-thinking

思考のみ

131,072

126,976

81,920

32,768

$0.287

$2.868

qwen3-vl-32b-instruct

非思考のみ

129,024

-

$1.147

qwen3-vl-30b-a3b-thinking

思考のみ

126,976

81,920

$0.108

$1.076

qwen3-vl-30b-a3b-instruct

非思考のみ

129,024

-

$0.431

qwen3-vl-8b-thinking

思考のみ

126,976

81,920

$0.072

$0.717

qwen3-vl-8b-instruct

非思考のみ

129,024

-

$0.287

その他のモデル

モデル

コンテキストウィンドウ

最大入力

最大出力

入力コスト

出力コスト

無料クォータ

(注)

(トークン)

(100 万トークン)

qwen2.5-vl-72b-instruct 

131,072

129,024

画像あたり最大 16,384

8,192

$2.294

$6.881

無料クォータなし

qwen2.5-vl-32b-instruct

$1.147

$3.441

qwen2.5-vl-7b-instruct

$0.287

$0.717

qwen2.5-vl-3b-instruct

$0.173

$0.517

qwen2-vl-72b-instruct

32,768

30,720

画像あたり最大 16,384

2,048

$2.294

$6.881

Qwen-Math

これは、Qwen モデルに基づいて構築された、数学の問題解決に特化した言語モデルです。Qwen2.5-Math は中国語英語をサポートし、思考の連鎖 (CoT)、思考のプログラム (PoT)、ツール統合推論 (TIR) など、複数の推論方法を統合しています。使用方法 | API リファレンス | オンラインで試す

説明

この機能は中国 (北京) リージョンでのみ利用可能です。

モデル

コンテキストウィンドウ

最大入力

最大出力

入力コスト

出力コスト

(トークン)

(100 万トークン)

qwen2.5-math-72b-instruct

4,096

3,072

3,072

$0.574

$1.721

qwen2.5-math-7b-instruct

$0.144

$0.287

qwen2.5-math-1.5b-instruct

期間限定で無料

Qwen-Coder

Qwen-Coder は Qwen のオープンソースコードモデルです。最新の Qwen3-Coder シリーズは強力なコーディングエージェント機能を備えています。ツールの呼び出し、環境との対話、自律的なプログラミングに優れています。このモデルは、優れたコーディングスキルと汎用能力を兼ね備えています。使用方法 | API リファレンス

国際 (シンガポール)

モデル

コンテキストウィンドウ

最大入力

最大出力

入力コスト

出力コスト

無料クォータ

(注)

トークン数

qwen3-coder-480b-a35b-instruct

262,144

204,800

65,536

段階的価格設定。詳細については、表の下の説明をご参照ください。

各 100 万トークン

Alibaba Cloud Model Studio をアクティベートしてから 90 日間有効です。

qwen3-coder-30b-a3b-instruct

qwen3-coder-480b-a35b-instruct と qwen3-coder-30b-a3b-instruct の課金は、リクエストごとの入力トークン数に基づいた段階的価格設定です。

モデル

リクエストごとの入力トークン

入力コスト (100 万トークン)

出力コスト (100 万トークン)

qwen3-coder-480b-a35b-instruct

0 < トークン ≤ 32K

$1.50

$7.50

32K < トークン ≤ 128K

$2.70

$13.50

128K < トークン ≤ 200K

$4.50

$22.50

qwen3-coder-30b-a3b-instruct

0 < トークン ≤ 32K

$0.45

$2.25

32K < トークン ≤ 128K

$0.75

$3.75

128K < トークン ≤ 200K

$1.20

$6.00

中国 (北京)

モデル

コンテキストウィンドウ

最大入力

最大出力

入力コスト

出力コスト

(トークン)

(百万トークン)

qwen3-coder-480b-a35b-instruct

262,144

204,800

65,536

段階的価格設定。以下の説明をご参照ください。

qwen3-coder-30b-a3b-instruct

qwen2.5-coder-32b-instruct

131,072

129,024

8,192

$0.287

$0.861

qwen2.5-coder-14b-instruct

qwen2.5-coder-7b-instruct

$0.144

$0.287

qwen2.5-coder-3b-instruct

32,768

30,720

期間限定の無料トライアル

qwen2.5-coder-1.5b-instruct

qwen2.5-coder-0.5b-instruct

qwen3-coder-480b-a35b-instruct と qwen3-coder-30b-a3b-instruct の課金は、リクエストあたりの入力トークン数に応じて段階的に設定されます。

モデル

リクエストあたりの入力トークン数

入力コスト (百万トークン)

出力コスト (百万トークン)

qwen3-coder-480b-a35b-instruct

0 < トークン数 ≤ 32K

$0.861

$3.441

32K < トークン ≤ 128K

$1.291

$5.161

128K < トークン ≤ 200K

$2.151

$8.602

qwen3-coder-30b-a3b-instruct

0 < トークン ≤ 32K

$0.216

$0.861

32K < トークン ≤ 128K

$0.323

$1.291

128K < トークン ≤ 200K

$0.538

$2.151

テキスト生成 - サードパーティモデル

DeepSeek

DeepSeek は DeepSeek AI が発表した大規模言語モデルです。API リファレンス | オンラインで試す

説明

この機能は、中国 (北京) リージョンでのみ利用可能です。

モデル

コンテキストウィンドウ

最大入力

最大思考チェーン

最大応答

入力コスト

出力コスト

(トークン)

(100 万トークン)

deepseek-v3.2

685B フルパワーバージョン

131,072

98,304

32,768

65,536

$0.287

$0.431

deepseek-v3.2-exp

685B フルパワーバージョン

deepseek-v3.1

685B フルパワーバージョン

$0.574

$1.721

deepseek-r1

685B フルパワーバージョン

16,384

$2.294

deepseek-r1-0528

685B フルパワーバージョン

deepseek-v3

671B フルパワーバージョン

131,072

該当なし

$0.287

$1.147

deepseek-r1-distill-qwen-1.5b

Qwen2.5-Math-1.5B に基づく

32,768

32,768

16,384

16,384

期間限定無料トライアル

deepseek-r1-distill-qwen-7b

Qwen2.5-Math-7B に基づく

$0.072

$0.144

deepseek-r1-distill-qwen-14b

Qwen2.5-14B に基づく

$0.144

$0.431

deepseek-r1-distill-qwen-32b

Qwen2.5-32B に基づく

$0.287

$0.861

deepseek-r1-distill-llama-8b

Llama-3.1-8B に基づく

期間限定無料トライアル

deepseek-r1-distill-llama-70b

Llama-3.3-70B に基づく

Kimi

Kimi-K2 は、Moonshot AI が提供する中国初のオープンソース兆パラメータ混合エキスパート (MoE) モデルです。320 億のパラメーターをアクティブ化し、優れたコーディング機能とツール呼び出し機能を備えています。使用方法 | オンラインで試す

説明

この機能は、中国 (北京) リージョンでのみ利用可能です。

モデル

コンテキストウィンドウ

最大入力

最大思考チェーン

最大応答

入力価格

出力価格

(トークン)

(100 万トークン)

kimi-k2-thinking

262,144

229,376

32,768

16,384

$0.574

$2.294

Moonshot-Kimi-K2-Instruct

131,072

131,072

-

8,192

$0.574

$2.294

画像生成

Qwen text-to-image

Qwen text-to-image モデルは、特に中国語と英語の複雑なテキストのレンダリングに優れています。現在、qwen-image-plus は qwen-image と同じ機能を持ちますが、qwen-image-plus の方が低価格です。API リファレンス

国際 (シンガポール)

モデル

単価

無料クォータ

qwen-image-plus

$0.03/画像

無料クォータ:各モデル 100 画像

有効期間:Alibaba Cloud Model Studio を有効化してから 90 日以内。

qwen-image

$0.035/画像

中国 (北京)

モデル

単価

無料クォータ

qwen-image-plus

$0.028671/画像

無料クォータなし

qwen-image

$0.035/画像

入力プロンプト

出力画像

緑豊かな芝生の上でボール遊びをする 3 匹の子犬をフィーチャーした、癒し系の手描きポスター。鳥や星などの装飾要素が飾られています。メインタイトル「Come Play Ball!」は、太字の青いカートゥーンフォントで上部に目立つように表示されています。その下に、サブタイトル「Come [Show Off Your Skills]!」が緑色のフォントで表示されます。吹き出しには「へへ、次は僕のすごいところを友達に見せてやる!」というテキストがあり、遊び心のある魅力を加えています。下部には、「また友達とボール遊びができるね!」という補足テキストがあります。カラーパレットは、新鮮な緑と青を中心に、明るいピンクと黄色のトーンでアクセントをつけ、陽気で子供らしい雰囲気を強調しています。

image

Qwen 画像編集

Qwen 画像編集モデルは、中国語と英語の正確なテキスト編集をサポートします。また、色調整、詳細の強調、スタイル転送、オブジェクトの追加または削除、位置と操作の変更などの操作もサポートします。これらの特徴により、画像とテキストの複雑な編集が可能になります。API リファレンス

国際 (シンガポール)

モデル

単価

無料クォータ

qwen-image-edit-plus

$0.03/画像

無料クォータ:各モデル 100 画像

有効期間:Alibaba Cloud Model Studio を有効化してから 90 日以内。

qwen-image-edit-plus-2025-10-30

$0.03/画像

qwen-image-edit

$0.045/画像

中国 (北京)

モデル

単価

無料クォータ

qwen-image-edit-plus

$0.028671/画像

無料クォータなし

qwen-image-edit-plus-2025-10-30

$0.028671/画像

qwen-image-edit

$0.043/画像

dog_and_girl (1)

元画像

狗修改图

人物を立たせて、かがんで犬の前足を持つように変更。

image

元画像

image

積み木の「HEALTH INSURANCE」というテキストを「明天会更好」に置き換える。

5

元画像

5out

ドット柄のシャツを水色のシャツに置き換える。

6

元画像

6out

バックグラウンドを南極に変更。

7

元画像

7out

人物のカートゥーン風プロフィール画像を生成。

image

元画像

image

ディナープレートから髪の毛を削除。

Qwen 画像翻訳

Qwen 画像翻訳モデルは、11 言語の画像内のテキストを中国語または英語に翻訳することをサポートします。元のレイアウトとコンテンツ情報を正確に保持し、用語定義、禁止用語のフィルタリング、画像エンティティ検出などのカスタム機能を提供します。 API リファレンス

説明

この機能は、中国 (北京) リージョンでのみ利用可能です。

モデル

単価

無料クォータ

qwen-mt-image

$0.000431/画像

無料クォータなし

en

元画像

ja

日本語

es

ポルトガル語

ar

アラビア語

Wan text-to-image

Wan text-to-image モデルは、テキストから精巧な画像を生成します。API リファレンス | オンラインで試す

国際 (シンガポール)

モデル

説明

単価

無料クォータ(注)

有効期間:Alibaba Cloud Model Studio を有効化してから 90 日以内。

wan2.5-t2i-preview 推奨

Wan 2.5 プレビュー版。片側の長さ制限がなくなりました。総ピクセル面積と縦横比の制約内で、ディメンションを自由に選択できます。

$0.03/画像

50 画像

wan2.2-t2i-plus 推奨

Wan 2.2 Professional Edition。創造性、安定性、リアルな質感が全面的にスペックアップしました。

$0.05/画像

100 画像

wan2.2-t2i-flash 推奨

Wan 2.2 Flash Edition。創造性、安定性、リアルな質感が全面的にスペックアップしました。

$0.025/画像

100 画像

wan2.1-t2i-plus

Wan 2.1 Professional Edition。複数のスタイルをサポートし、詳細が豊富な画像を生成します。

$0.05/画像

200 画像

wan2.1-t2i-turbo

Wan 2.1 Turbo Edition。複数のスタイルをサポートし、高速な生成速度を提供します。

$0.025/画像

200 画像

中国 (北京)

モデル

説明

単価

無料クォータ(注)

有効期間:Alibaba Cloud Model Studio を有効化してから 90 日以内。

wan2.5-t2i-preview 推奨

Wan 2.5 プレビュー版。片側の長さ制限がなくなりました。総ピクセル面積と縦横比の制約内で、ディメンションを自由に選択できます。

$0.028671/画像

無料クォータなし

wan2.2-t2i-plus 推奨

Wan 2.2 Professional Edition。創造性、安定性、リアルな質感が全面的にスペックアップしました。

$0.02007/画像

無料クォータなし

wan2.2-t2i-flash 推奨

Wan 2.2 Flash Edition。創造性、安定性、リアルな質感が全面的にスペックアップしました。

$0.028671/画像

無料クォータなし

wanx2.1-t2i-plus

Wan 2.1 Professional Edition。複数のスタイルをサポートし、詳細が豊富な画像を生成します。

$0.028671/画像

無料クォータなし

wanx2.1-t2i-turbo

Wan 2.1 Turbo Edition。複数のスタイルをサポートし、高速な生成速度を提供します。

$0.020070/画像

無料クォータなし

wanx2.0-t2i-turbo

Wan 2.0 Turbo Edition。質感のあるポートレートやクリエイティブなデザインに優れており、コストパフォーマンスが高いです。

$0.005735/画像

無料クォータなし

入力プロンプト

出力画像

カラフルなギフトと緑の植物をバックグラウンドに、ギフトを持つニードルフェルトのサンタクロースその隣に立つ白い猫が、キュートで暖かく、居心地の良いシーンを作り出しています。

image

Wan2.5 一般画像編集

Wan2.5 一般画像編集モデルは、エンティティの一貫性を保った画像編集と複数画像の融合をサポートします。入力として、テキスト、単一の画像、または複数の画像を受け付けます。API リファレンス

国際 (シンガポール)

モデル

単価

無料クォータ(注)

有効期間:Alibaba Cloud Model Studio を有効化してから 90 日以内。

wan2.5-i2i-preview

$0.03/画像

50 画像

中国 (北京)

モデル

単価

無料クォータ

wan2.5-i2i-preview

$0.028671/画像

無料クォータなし

特徴

入力例

出力画像

単一画像の編集

damotest2023_Portrait_photography_outdoors_fashionable_beauty_409ae3c1-19e8-4515-8e50-b3c9072e1282_2-转换自-png

a26b226d-f044-4e95-a41c-d1c0d301c30b-转换自-png

花柄のドレスを、襟と袖口に精巧な刺繍が施されたヴィンテージスタイルのレースのロングドレスに変更。

複数画像の融合

image

p1028883

画像 1 の目覚まし時計を、画像 2 の食卓にある花瓶の隣に配置。

Wan2.1 汎用画像編集

Wan2.1 汎用画像編集モデルは、簡単な命令で多様な画像編集を実行します。アウトペインティング、ウォーターマーク除去、スタイル変換、画像修復、イメージエンハンスメントなどのシナリオに適しています。使用方法API リファレンス

説明

この機能は、中国 (北京) リージョンでのみ利用可能です。

モデル

単価

無料クォータ

wanx2.1-imageedit

画像あたり $0.020070

無料クォータなし

現在、汎用画像編集モデルは次の機能をサポートしています:

機能

入力画像

入力プロンプト

出力画像

全体的なスタイル変換

image

フランスの絵本スタイルに変換。

image

部分的なスタイル変換

image

家を木板スタイルに変更。

image

命令ベースの編集

image

女の子の髪を赤色に変更。

image

インペインティング

入力画像

image

マスク画像 (白色のエリアがマスクです)

image

セラミックの花を持つセラミックのウサギ。

出力画像

image

テキストウォーターマークの除去

image

画像からテキストを削除。

image

アウトペインティング

20250319105917

緑の妖精。

image

画像の超解像

ぼやけた画像

image

画像の超解像。

鮮明な画像

image

画像のカラー化

image

青い背景、黄色い葉。

image

線画から画像生成

image

ミニマリストな北欧スタイルのリビングルーム。

image

プレースホルダー画像

image

漫画のキャラクターが慎重に顔を出し、部屋の中にある輝く青い宝石を覗き込んでいます。

image

OutfitAnyone

  • ベーシックバージョンと比較して、OutfitAnyone-Plus モデルは、画像の鮮明度、服の質感のディテール、ロゴの復元において改善されています。ただし、イメージの生成に時間がかかるため、時間的制約のないシナリオに適しています。API リファレンス | オンラインで試す

  • OutfitAnyone-Image Parsing は、モデルと服のイメージの解析をサポートしており、OutfitAnyone イメージの前処理と後処理に使用できます。API リファレンス

説明

この機能は、中国 (北京) リージョンでのみ利用可能です。

モデル

説明

入力例

出力例

aitryon-plus

OutfitAnyone-Plus

output26

output29

aitryon-parsing-v1

OutfitAnyone-Image Parsing

OutfitAnyone の料金

モデルサービス

モデル

単価

割引

階層

OutfitAnyone-Plus

aitryon-plus

$0.071677 / イメージ

なし

なし

OutfitAnyone-Image Parsing

aitryon-parsing-v1

$0.000574 / イメージ

なし

なし

ビデオ生成 - Wan

テキストからのビデオ生成

Wan テキストからのビデオ生成モデルは、1つの文からビデオを生成します。生成されるビデオは、豊かな芸術的スタイルと映画のような品質が特徴です。API リファレンス | オンラインで試す

シンガポール (国際)

モデル

説明

単価

無料クォータ (取得)

Alibaba Cloud Model Studio をアクティベートしてから 90 日間有効

wan2.5-t2v-preview 推奨

Wan 2.5 プレビュー版。自動ナレーションとカスタム音声ファイルの入力をサポートします。

480P:$0.05/秒

720P:$0.10/秒

1080P:$0.15/秒

50 秒

wan2.2-t2v-plus 推奨

Wan 2.2 Professional Edition。画質の詳細とモーションの安定性が大幅に向上しました。

480P:$0.02/秒

1080P:$0.10/秒

50 秒

wan2.1-t2v-turbo

Wan 2.1 Turbo Edition。高速な生成速度とバランスの取れたパフォーマンスが特徴です。

$0.036/秒

200 秒

wan2.1-t2v-plus

Wan 2.1 Professional Edition。豊かなディテールと高品質な画像を生成します。

$0.10/秒

200 秒

中国 (北京)

モデル

説明

単価

無料クォータ

wan2.5-t2v-preview 推奨

Wan 2.5 プレビュー版。自動ナレーションとカスタム音声ファイルの入力をサポートします。

480P:$0.043006/秒

720P:$0.086012/秒

1080P:$0.143353/秒

無料クォータなし

wan2.2-t2v-plus 推奨

Wan 2.2 Professional Edition。画質の詳細とモーションの安定性が大幅に向上しました。

480P:$0.02007/秒

1080P:$0.100347/秒

無料クォータなし

wanx2.1-t2v-turbo

高速な生成速度とバランスの取れたパフォーマンスが特徴です。

$0.034405/秒

無料クォータなし

wanx2.1-t2v-plus

豊かなディテールと高品質な画像を生成します。

$0.100347/秒

無料クォータなし

入力例

出力ビデオ (wan2.5)

入力プロンプト:ローアングルからの撮影、ミディアムクローズアップ、暖色系のトーン、混合照明 (デスクランプの実用光と窓からの曇り空の光が混ざり合う)、サイドライティング、中央構図。クラシックな探偵事務所で、木製の本棚には古い事件ファイルと灰皿が並んでいます。緑色のデスクランプが、机の中央に広げられた事件ファイルを照らしています。暗褐色のトレンチコートと薄灰色のフェドーラ帽をかぶったキツネが革張りの椅子に座り、その毛皮は深紅色で、尾は軽く端にかかり、指はゆっくりと黄ばんだページをめくっています。外では、青空の下で絶え間ない霧雨が降り、ガラスに蛇行する筋を残しています。彼はゆっくりと頭を上げ、耳をわずかにひくつかせ、琥珀色の瞳でカメラをまっすぐに見つめ、滑らかで皮肉な声で口をはっきりと動かしながら話します:'The case was cold, colder than a fish in winter. But every chicken has its secrets, and I, for one, intended to find them '

入力音声

画像からのビデオ生成 - 最初のフレームに基づく

Wan 画像からのビデオ生成モデルは、入力画像をビデオの最初のフレームとして使用します。その後、プロンプトに基づいてビデオの残りの部分を生成します。生成されるビデオは、豊かな芸術的スタイルと映画のような品質が特徴です。API リファレンス | オンラインで試す

シンガポール (国際)

モデル

説明

単価

無料クォータ (注意事項)

有効期間:Alibaba Cloud Model Studio をアクティベートしてから 90 日以内

wan2.5-i2v-preview 推奨

Wan 2.5 プレビュー版。自動吹き替えとカスタム音声ファイルのアップロードをサポートします。

480P:$0.05/秒

720P:$0.10/秒

1080P:$0.15/秒

50 秒

wan2.2-i2v-flash 推奨

Wan 2.2 Flash Edition。非常に高速な生成速度を実現し、視覚的な詳細とモーションの安定性が大幅に向上しました。

480P:$0.015/秒

720P:$0.036/秒

50 秒

wan2.2-i2v-plus 推奨

Wan 2.2 Professional Edition。視覚的な詳細とモーションの安定性が大幅に向上しました。

480P:$0.02/秒

1080P:$0.10/秒

50 秒

wan2.1-i2v-turbo

Wan 2.1 Turbo Edition。高速な生成速度とバランスの取れたパフォーマンスが特徴です。

$0.036/秒

200 秒

wan2.1-i2v-plus

Wan 2.1 Professional Edition。豊かなディテールを生成し、より高品質でテクスチャ感のあるビジュアルを生成します。

$0.10/秒

200 秒

中国 (北京)

モデル

説明

単価

無料クォータ

wan2.5-i2v-preview 推奨

Wan 2.5 プレビュー版。自動吹き替えとカスタム音声ファイルのアップロードをサポートします。

480P:$0.043006/秒

720P:$0.086012/秒

1080P:$0.143353/秒

無料クォータなし

wan2.2-i2v-plus 推奨

Wan 2.2 Professional Edition。視覚的な詳細とモーションの安定性が大幅に向上しました。

480P:$0.02007/秒

1080P:$0.100347/秒

無料クォータなし

wanx2.1-i2v-turbo

Wan 2.1 Turbo Edition。高速な生成速度とバランスの取れたパフォーマンスが特徴です。

$0.034405/秒

無料クォータなし

wanx2.1-i2v-plus

Wan 2.1 Professional Edition。豊かなディテールを生成し、より高品質でテクスチャ感のあるビジュアルを生成します。

$0.100347/秒

無料クォータなし

最初のフレームの画像と音声の入力

出力ビデオ (wan2.5)

rap-转换自-png

入力音声

入力プロンプト:都会のファンタジーアートのシーン。ダイナミックなグラフィティアートのキャラクター。コンクリートの壁からスプレーで描かれた少年が生き生きと動き出します。彼は非常に速いペースで英語のラップソングを歌いながら、クラシックでエネルギッシュなラッパーのポーズをとります。シーンは夜の都市の鉄道橋の下に設定されています。照明は単一の街灯から来ており、高いエネルギーと驚くべきディテールに満ちた映画のような雰囲気を醸し出しています。ビデオの音声は完全に彼のラップで構成されており、他の対話やノイズはありません。

画像からのビデオ生成 - 最初と最後のフレームに基づく

Wan 最初と最後のフレームに基づくビデオモデルは、プロンプトから滑らかで動的なビデオを生成します。最初と最後のフレーム画像を提供するだけで済みます。生成されるビデオは、豊かな芸術的スタイルと映画のような品質が特徴です。API リファレンス | オンラインで試す

シンガポール (国際)

モデル

単価

無料クォータ (注意事項)

wan2.1-kf2v-plus

$0.10/秒

200 秒

有効期間:Model Studio をアクティベートしてから 90 日以内

中国 (北京)

モデル

単価

無料クォータ (注意事項)

wanx2.1-kf2v-plus

$0.100347/秒

無料クォータなし

入力例

出力ビデオ

最初のフレーム

最後のフレーム

プロンプト

first_frame

last_frame

リアルなスタイルで、カメラは小さな黒猫が好奇心を持って空を見上げている目線の高さから始まり、徐々に上に移動し、猫の好奇心旺盛な目に焦点を当てたトップダウンショットで終わります。

一般的なビデオ編集

Wan 統合ビデオ編集モデルは、テキスト、画像、ビデオなどのマルチモーダル入力をサポートします。ビデオ生成や一般的な編集タスクを実行できます。API リファレンス | オンラインで試す

シンガポール (国際)

モデル

単価

無料クォータ (注意事項)

wan2.1-vace-plus

$0.1/秒

50 秒

有効期間:Model Studio をアクティベートしてから 90 日間有効。

中国 (北京)

モデル

単価

無料クォータ (注意事項)

wanx2.1-vace-plus

$0.100347/秒

無料クォータなし

統合ビデオ編集モデルは、以下の機能をサポートします:

機能

入力参照画像

入力プロンプト

出力ビデオ

複数画像の参照

参照画像 1 (参照エンティティ)

image

参照画像 2 (参照バックグラウンド)

image

ビデオでは、少女が霧のかかった古代の森から優雅に歩き出します。彼女の足取りは軽く、カメラは彼女の軽快な一瞬一瞬を捉えます。少女が立ち止まり、緑豊かな森を見回すと、驚きと喜びの笑みが彼女の顔に咲き誇ります。光と影が交錯するこの瞬間、彼女と自然との素晴らしい出会いが記録されます。

出力ビデオ

ビデオの再描画

ビデオには、紳士が運転する黒いスチームパンクスタイルの車が映っています。車は歯車と銅管で飾られています。バックグラウンドには蒸気動力のキャンディー工場とレトロな要素が描かれ、ヴィンテージで遊び心のあるシーンを作り出しています。

部分編集

入力ビデオ

入力マスク画像 (白色のエリアが編集エリアを示します)

mask

ビデオには、パリ風のフレンチカフェでスーツを着たライオンが優雅にコーヒーを飲んでいる様子が映っています。片手にコーヒーカップを持ち、リラックスした表情で優しく一口飲んでいます。カフェは趣味良く装飾され、柔らかな色合いと暖かい照明がライオンのいるエリアを照らしています。

編集エリア内のコンテンツは、プロンプトに基づいて変更されます。

ビデオ拡張

最初のクリップの入力 (1 秒)

サングラスをかけた犬が路上でスケートボードをしている、3D カートゥーン。

出力拡張ビデオ (5 秒)

ビデオのアウトペインティング

優雅な女性が情熱的にバイオリンを弾いており、その後ろにはフルオーケストラがいます

Wan - デジタルヒューマン

この機能は、1つのキャラクター画像と音声ファイルに基づいて、人が話したり、歌ったり、パフォーマンスしたりする自然なビデオを生成します。この機能を使用するには、以下のモデルを順番に呼び出します。wan2.2-s2v 画像検出 | wan2.2-s2v ビデオ生成

説明

この機能は、中国 (北京) リージョンでのみ利用可能です。

モデル

説明

単価

wan2.2-s2v-detect

入力画像が、解像度、単一人物、正面向きなどの要件を満たしているかどうかを確認します。

$0.000574/画像

wan2.2-s2v

有効な画像と音声クリップから、人物の動的なビデオを生成します。

480P:$0.071677/秒

720P:$0.129018/秒

入力例

出力ビデオ

p1001125-转换自-jpeg

入力音声:

Wan - 画像のアニメーション化

Standard モードと Professional モードで利用可能です。このモデルは、参照ビデオのアクションと表情をキャラクター画像に転送し、画像からキャラクターをアニメーション化するビデオを生成します。API リファレンス

シンガポール (国際)

モデル

サービス

説明

単価

無料クォータ (表示)

wan2.2-animate-move

Standard モード wan-std

高速な生成速度。シンプルなアニメーションデモなどの基本的なニーズに対応します。コスト効率に優れています。

$0.12/秒

2つのサービスで 50 秒を共有

Professional モード wan-pro

高いアニメーションの滑らかさ。アクションと表情の自然なトランジション。結果は実写ビデオに近いです。

$0.18/秒

中国 (北京)

モデル

サービス

説明

単価

無料クォータ (表示)

wan2.2-animate-move

Standard モード wan-std

高速な生成速度。シンプルなアニメーションデモなどの基本的なニーズに対応します。コスト効率に優れています。

$0.06/秒

無料クォータなし

Professional モード wan-pro

高いアニメーションの滑らかさ。アクションと表情の自然なトランジション。結果は実写ビデオに近いです。

$0.09/秒

キャラクター画像

参照ビデオ

出力ビデオ (Standard)

出力ビデオ (Professional)

move_input_image

Wan - ビデオキャラクターの入れ替え

Standard モードと Professional モードで利用可能です。このモデルは、ビデオの主役キャラクターを画像のキャラクターに置き換えます。元のビデオのシーン、照明、色合いは保持されます。API リファレンス

シンガポール (国際)

モデル

サービス

説明

単価

無料クォータ (表示)

wan2.2-animate-mix

Standard モード wan-std

アニメーションを迅速に生成します。シンプルなデモなどの基本的な要件に最適です。非常にコスト効率が高いです。

$0.18/秒

2つのサービスで 50 秒を共有

Professional モード wan-pro

アクションと表情の自然なトランジションを備えた非常に滑らかなアニメーションを生成します。結果は実写ビデオに酷似しています。

$0.26/秒

中国 (北京)

モデル

サービス

説明

単価

無料クォータ (表示)

wan2.2-animate-mix

Standard モード wan-std

アニメーションを迅速に生成します。シンプルなデモなどの基本的な要件に最適です。非常にコスト効率が高いです。

$0.09/秒

無料クォータなし

Professional モード wan-pro

アクションと表情の自然なトランジションを備えた非常に滑らかなアニメーションを生成します。結果は実写ビデオに酷似しています。

$0.13/秒

キャラクター画像

参照ビデオ

出力ビデオ (Standard)

出力ビデオ (Professional)

mix_input_image

AnimateAnyone

この機能は、キャラクター画像とモーションテンプレートに基づいて、キャラクターのモーションビデオを生成します。この機能を使用するには、以下の3つのモデルを順番に呼び出します。AnimateAnyone 画像検出 API の詳細 | AnimateAnyone モーションテンプレートの生成 | AnimateAnyone ビデオ生成 API の詳細

説明

この機能は、中国 (北京) リージョンでのみ利用可能です。

モデル

説明

単価

animate-anyone-detect-gen2

入力画像が必要な仕様を満たしているかを検出します。

$0.000574/画像

animate-anyone-template-gen2

ビデオからキャラクターの動きを抽出し、モーションテンプレートを生成します。

$0.011469/秒

animate-anyone-gen2

キャラクター画像とモーションテンプレートに基づいて、キャラクターのモーションビデオを生成します。

入力:キャラクター画像

入力:モーションビデオ

出力 (画像のバックグラウンド)

出力 (ビデオのバックグラウンド)

04-9_16

説明
  • 前述の例は、AnimateAnyone を統合した Tongyi App によって生成されました。

  • AnimateAnyone モデルによって生成されるコンテンツはビデオのみで、音声は含まれません。

EMO

この機能は、ポートレート画像と人間の音声ファイルに基づいて、動的なポートレートビデオを生成します。この機能を使用するには、以下のモデルを順番に呼び出します。EMO 画像検出 | EMO ビデオ生成

説明

この機能は、中国 (北京) リージョンでのみ利用可能です。

モデル

説明

単価

emo-detect-v1

入力画像が必要な仕様を満たしているかを検出します。このモデルはデプロイメントなしで直接呼び出すことができます。

$0.000574/画像

emo-v1

動的なポートレートビデオを生成します。このモデルはデプロイメントなしで直接呼び出すことができます。

  • 1:1 の縦横比のビデオを生成:$0.011469/秒

  • 3:4 の縦横比のビデオを生成:$0.022937/秒

入力:ポートレート画像と人間の音声ファイル

出力:動的なポートレートビデオ

ポートレート:

上春山

人間の音声:右側のビデオをご参照ください。

キャラクタービデオ:

アクションスタイルの強度:アクティブ ("style_level": "active")

LivePortrait

これは、ポートレート画像と人間の音声ファイルに基づいて、動的なポートレートビデオを迅速に生成する軽量モデルです。EMO モデルと比較して、ビデオの生成速度が速く、コストも低いですが、品質は劣ります。この機能を使用するには、以下の2つのモデルを順番に呼び出します。LivePortrait 画像検出 | LivePortrait ビデオ生成

説明

この機能は、中国 (北京) リージョンでのみ利用可能です。

モデル

説明

単価

liveportrait-detect

入力画像が要件を満たしているかを検出します。

$0.000574/画像

liveportrait

動的なポートレートビデオを生成します。

$0.002868/秒

入力:ポートレート画像と音声ファイル

出力:アニメーションポートレートビデオ

ポートレート画像:

Emoji男孩

音声:右側のビデオから。

ポートレートビデオ:

絵文字

この機能は、顔画像とプリセットの顔のモーションテンプレートに基づいて、動的な顔ビデオを生成します。この機能は、絵文字の作成やビデオ素材の生成などのシナリオで使用できます。この機能を使用するには、以下のモデルを順番に呼び出します。絵文字画像検出 | 絵文字ビデオ生成

説明

この機能は、中国 (北京) リージョンでのみ利用可能です。

モデル

説明

単価

emoji-detect-v1

入力画像が指定された要件を満たしているかを検出します。

$0.000574/画像

emoji-v1

ポートレート画像と指定された絵文字テンプレートに基づいて、キャラクターの絵文字を生成します。

$0.011469/秒

入力:ポートレート画像

出力:動的なポートレートビデオ

image.png

「happy」絵文字のテンプレートパラメーター:("input.driven_id": "mengwa_kaixin")

VideoRetalk

この機能は、キャラクタービデオと人間の音声ファイルに基づいて、キャラクターの口の動きが入力音声と一致するビデオを生成します。この機能を使用するには、以下のモデルを呼び出します。API リファレンス

説明

この機能は、中国 (北京) リージョンでのみ利用可能です。

モデル

説明

単価

videoretalk

キャラクターの口の動きが入力音声と同期した新しいビデオを生成します。

$0.011469/秒

ビデオのスタイル変換

このモデルは、ユーザーが入力したテキストのセマンティックな記述に一致するさまざまなスタイルのビデオを生成したり、ユーザーが入力したビデオのスタイルを変更したりすることをサポートします。API リファレンス

説明

この機能は、中国 (北京) リージョンでのみ利用可能です。

モデル

説明

単価

video-style-transform

入力ビデオを日本のマンガやアメコミなどのスタイルに変換します。

720p

$0.071677/秒

540P

$0.028671/秒

入力ビデオ

出力ビデオ (日本のマンガスタイル)

音声合成

Qwen 音声合成

この機能は、多言語混合テキストの入力をサポートし、ストリーミングオーディオ出力を提供します。使用方法API リファレンス

シンガポール

モデル

バージョン

単価

最大入力文字数

サポート言語

無料クォータ (注)

qwen3-tts-flash

機能は qwen3-tts-flash-2025-09-18 と同一です。

安定版

$0.1/10,000 文字

600

中国語 (標準語、北京語、上海語、四川語、南京語、陝西語、閩南語、天津語、広東語)、英語、スペイン語、ロシア語、イタリア語、フランス語、韓国語、日本語、ドイツ語、ポルトガル語

2025年11月13日 00:00 より前に Model Studio をアクティベートした場合:2,000 文字

2025年11月13日 00:00 以降に Model Studio をアクティベートした場合:10,000 文字

有効期間:Model Studio をアクティベートしてから 90 日間有効です。

qwen3-tts-flash-2025-11-27

スナップショット

10,000 文字

有効期間:Model Studio をアクティベートしてから 90 日間有効です。

qwen3-tts-flash-2025-09-18

スナップショット

2025年11月13日 00:00 より前に Model Studio をアクティベートした場合:2,000 文字

2025年11月13日 00:00 以降に Model Studio をアクティベートした場合:10,000 文字

有効期間:Model Studio をアクティベートしてから 90 日間有効です。

課金は入力文字数に基づきます。計算ルールは次のとおりです:

  • 各漢字 (簡体字/繁体字中国語、日本の漢字、韓国の漢字を含む) は 2 文字としてカウントされます。

  • 英字、句読点、スペースなどの他の文字は、それぞれ 1 文字としてカウントされます。

中国 (北京)

Qwen3-TTS-Flash

モデル

バージョン

単価

最大入力文字数

サポート言語

qwen3-tts-flash

機能は qwen3-tts-flash-2025-09-18 と同一です

安定版

$0.114682/10,000 文字

600

中国語 (標準語、北京語、上海語、四川語、南京語、陝西語、閩南語、天津語、広東語)、英語、スペイン語、ロシア語、イタリア語、フランス語、韓国語、日本語、ドイツ語、ポルトガル語

qwen3-tts-flash-2025-11-27

スナップショット

qwen3-tts-flash-2025-09-18

スナップショット

課金は入力文字数に基づきます。計算ルールは次のとおりです:

  • 各漢字 (簡体字/繁体字中国語、日本の漢字、韓国の漢字を含む) は 2 文字としてカウントされます。

  • 英字、句読点、スペースなどの他の文字は、それぞれ 1 文字としてカウントされます。

Qwen-TTS

モデル

バージョン

コンテキストウィンドウ

最大入力

最大出力

入力コスト

出力コスト

(トークン)

(1,000 トークン)

qwen-tts

機能は qwen-tts-2025-04-10 と同一です。

安定版

8,192

512

7,680

$0.230

$1.434

qwen-tts-latest

最新のスナップショットバージョンと同一の機能です。

最新版

qwen-tts-2025-05-22

スナップショット

qwen-tts-2025-04-10

オーディオは 1 秒あたり 50 トークンのレートでトークンに変換されます。1 秒未満のオーディオクリップは 50 トークンとして課金されます。

Qwen リアルタイム音声合成

この機能は、ストリーミングテキスト入力とストリーミングオーディオ出力をサポートしており、テキストの内容や句読点に応じて話速を自動的に調整できます。使い方 | API リファレンス

Qwen3-TTS-VC-Realtime は、クローン音声を使用したリアルタイム音声合成をサポートしていますが、デフォルト音声はサポートしていません。

Qwen3-TTS-Flash-Realtime と Qwen-TTS-Realtime は、デフォルト音声のみをサポートしており、クローン音声はサポートしていません。

海外 (シンガポール)

Qwen3-TTS-VC-Realtime

モデル

バージョン

単価

対応言語

無料クォータ (注)

qwen3-tts-vc-realtime-2025-11-27

スナップショット

$0.13/10,000 文字

中国語、英語、スペイン語、ロシア語、イタリア語、フランス語、韓国語、日本語、ドイツ語、ポルトガル語

10,000 文字

有効期間:Model Studio を有効化してから 90 日間有効

課金は入力文字数に基づきます。計算ルールは以下の通りです:

  • 各漢字 (簡体字/繁体字中国語、日本の漢字、韓国の漢字を含む) は 2 文字としてカウントされます。

  • その他の各文字 (英字、句読点、スペースなど) は 1 文字としてカウントされます。

Qwen3-TTS-Flash-Realtime

モデル

バージョン

単価

対応言語

無料クォータ (注)

qwen3-tts-flash-realtime

qwen3-tts-flash-realtime-2025-09-18 と機能的に同等です

安定版

$0.13/10,000 文字

中国語 (標準語、北京語、上海語、四川語、南京語、陝西語、閩南語、天津語、広東語)、英語、スペイン語、ロシア語、イタリア語、フランス語、韓国語、日本語、ドイツ語、ポルトガル語

2025年11月13日 00:00 より前に Model Studio を有効化した場合:2,000 文字

2025年11月13日 00:00 以降に Model Studio を有効化した場合:10,000 文字

有効期間:Model Studio を有効化してから 90 日間有効

qwen3-tts-flash-realtime-2025-11-27

スナップショット

10,000 文字

有効期間:Model Studio を有効化してから 90 日間有効

qwen3-tts-flash-realtime-2025-09-18

スナップショット

2025年11月13日 00:00 より前に Model Studio を有効化した場合:2,000 文字

2025年11月13日 00:00 以降に Model Studio を有効化した場合:10,000 文字

有効期間:Model Studio を有効化してから 90 日間有効

課金は入力文字数に基づきます。計算ルールは以下の通りです:

  • 各漢字 (簡体字/繁体字中国語、日本の漢字、韓国の漢字を含む) は 2 文字としてカウントされます。

  • その他の各文字 (英字、句読点、スペースなど) は 1 文字としてカウントされます。

中国 (北京)

Qwen3-TTS-VC-Realtime

モデル

バージョン

単価

対応言語

qwen3-tts-vc-realtime-2025-11-27

スナップショット

$0.143353/10,000 文字

中国語、英語、スペイン語、ロシア語、イタリア語、フランス語、韓国語、日本語、ドイツ語、ポルトガル語

課金は入力文字数に基づきます。計算ルールは以下の通りです:

  • 各漢字 (簡体字/繁体字中国語、日本の漢字、韓国の漢字を含む) は 2 文字としてカウントされます。

  • その他の各文字 (英字、句読点、スペースなど) は 1 文字としてカウントされます。

Qwen3-TTS-Flash-Realtime

モデル

バージョン

単価

対応言語

qwen3-tts-flash-realtime

機能は qwen3-tts-flash-realtime-2025-09-18 と同等です。

安定版

$0.143353/10,000 文字

中国語 (標準語、および北京語、上海語、四川語、南京語、陝西語、閩南語、天津語、広東語の方言を含む)、英語、スペイン語、ロシア語、イタリア語、フランス語、韓国語、日本語、ドイツ語、ポルトガル語

qwen3-tts-flash-realtime-2025-11-27

スナップショット

qwen3-tts-flash-realtime-2025-09-18

スナップショット

課金は入力文字数に基づきます。計算ルールは以下の通りです:

  • 各漢字 (簡体字/繁体字中国語、日本の漢字、韓国の漢字を含む) は 2 文字としてカウントされます。

  • その他の各文字 (英字、句読点、スペースなど) は 1 文字としてカウントされます。

Qwen-TTS-Realtime

モデル

バージョン

コンテキストウィンドウ

最大入力

最大出力

入力コスト

出力コスト

対応言語

(トークン)

(1,000 トークン)

qwen-tts-realtime

qwen-tts-realtime-2025-07-15 と同等です

安定版

8,192

512

7,680

$0.345

$1.721

中国語、英語

qwen-tts-realtime-latest

qwen-tts-realtime-2025-07-15 と同等です

最新版

中国語、英語

qwen-tts-realtime-2025-07-15

スナップショット

中国語、英語

音声は 1 秒あたり 50 トークンのレートでトークンに変換されます。1 秒未満の音声クリップは 50 トークンとして課金されます。

Qwen 音声クローン

音声クローンでは、大規模モデルを使用して特徴抽出を行い、トレーニングなしで音声のクローンを作成します。わずか 10〜20 秒の音声を提供するだけで、非常に類似性が高く自然なカスタムボイスを生成できます。使用方法 | API リファレンス

シンガポール

モデル

単価

無料クォータ (注)

qwen-voice-enrollment

$0.01/ボイス

1,000 ボイス/アカウント

有効期間:Model Studio を有効化してから 90 日間有効

中国 (北京)

モデル

単価

qwen-voice-enrollment

$0.01/ボイス

CosyVoice の音声合成

CosyVoice は、Tongyi Lab が開発した次世代の生成型音声合成モデルです。大規模事前学習済み言語モデルをベースに構築されており、テキスト理解と音声生成を深く統合し、リアルタイムのストリーミング形式でのテキスト音声合成をサポートします。使用方法 | API リファレンス

説明

この機能は、中国 (北京) リージョンでのみサポートされています。

モデル

単価

cosyvoice-v3-plus

10,000 文字あたり $0.286706

cosyvoice-v3-flash

10,000 文字あたり $0.14335

cosyvoice-v2

10,000 文字あたり $0.286706

文字数の計算ルールは以下の通りです:漢字 (簡体字/繁体字、日本の漢字、韓国の漢字を含む) は、それぞれ 2 文字としてカウントされます。その他すべての文字 (アルファベット、数字、日本の仮名、韓国のハングルなど) は、それぞれ 1 文字としてカウントされます。SSML タグ内のコンテンツは課金対象外です。

音声認識と翻訳 (音声テキスト変換)

Qwen3-LiveTranslate-Flash

Qwen3-LiveTranslate-Flash-Realtime

Qwen3-LiveTranslate-Flash-Realtime は、リアルタイムの音声・動画翻訳のための多言語モデルです。18 言語を認識し、10 言語でリアルタイムの音声翻訳を提供します。

主な特徴:

  • 多言語対応:中国語、英語、フランス語、ドイツ語、ロシア語、日本語、韓国語を含む 18 言語と 6 つの中国語方言をサポートしています。また、北京語、広東語、四川語などの方言もサポートしています。

  • 視覚情報による強化:視覚コンテンツを使用して翻訳の精度を向上させます。このモデルは、唇の動き、動作、画面上のテキストなどの視覚的な手がかりを分析し、騒がしい環境や音声が不明瞭な場合に翻訳の精度を高めます。

  • 3 秒の遅延:最低 3 秒の同時通訳遅延を実現します。

  • ロスレス同時通訳:意味単位予測技術を使用して、言語間の語順の問題を解決します。リアルタイム翻訳の品質は、オフライン翻訳に匹敵します。

  • 自然な音色:自然な音色で人間のような音声を生成します。モデルは、ソース音声のコンテンツに基づいてトーンと感情を自動的に調整します。

利用方法 | API リファレンス

シンガポール

モデル

バージョン

コンテキストウィンドウ

最大入力

最大出力

無料クォータ

(注)

(トークン)

qwen3-livetranslate-flash-realtime

機能は qwen3-livetranslate-flash-realtime-2025-09-22 と同等です。

安定版

53,248

49,152

4,096

それぞれ 100 万トークン

Model Studio を有効化してから 90 日間有効です。

qwen3-livetranslate-flash-realtime-2025-09-22

スナップショット版

無料クォータを使い切った後、入力と出力の課金ルールは以下の通りです:

入力

価格 (100 万トークンあたり)

入力:音声

$10

入力:画像

$1.3

出力

価格 (100 万トークンあたり)

テキスト

$10

音声

$38

トークン計算ルール:

  • 音声:入力または出力音声 1 秒ごとに 12.5 トークンを消費します。

  • 画像:28×28 ピクセルの入力ごとに 0.5 トークンを消費します。

中国 (北京)

モデル

バージョン

コンテキストウィンドウ

最大入力

最大出力

(トークン)

qwen3-livetranslate-flash-realtime

qwen3-livetranslate-flash-realtime-2025-09-22 と同等です

安定版

53,248

49,152

4,096

qwen3-livetranslate-flash-realtime-2025-09-22

スナップショット版

入力と出力の課金ルールは以下の通りです:

入力

価格 (100 万トークンあたり)

入力:音声

$9.175

入力:画像

$1.147

出力

価格 (100 万トークンあたり)

テキスト

$9.175

音声

$34.405

トークン計算ルール:

  • 音声:入力または出力音声 1 秒ごとに 12.5 トークンを消費します。

  • 画像:28×28 ピクセルの入力ごとに 0.5 トークンを消費します。

Qwen 音声ファイル認識

Qwen マルチモーダル基盤モデル上に構築されたこのモデルは、多言語認識、歌声認識、ノイズ除去などの機能をサポートしています。利用方法

シンガポール

モデル

バージョン

対応言語

対応サンプルレート

単価

無料クォータ (注)

qwen3-asr-flash

現在 qwen3-asr-flash-2025-09-08 のエイリアスです

安定版

中国語 (北京語、四川語、閩南語、呉語、広東語を含む)、英語、日本語、ドイツ語、韓国語、ロシア語、フランス語、ポルトガル語、アラビア語、イタリア語、スペイン語

16 kHz

$0.000035/秒

36,000 秒 (10 時間)

Alibaba Cloud Model Studio を有効化してから 90 日間有効です

qwen3-asr-flash-2025-09-08

スナップショット版

中国 (北京)

モデル

バージョン

対応言語

対応サンプルレート

単価

qwen3-asr-flash

qwen3-asr-flash-2025-09-08 のエイリアスです

安定版

中国語 (北京語、四川語、閩南語、呉語、広東語)、英語、日本語、ドイツ語、韓国語、ロシア語、フランス語、ポルトガル語、アラビア語、イタリア語、スペイン語

16 kHz

$0.000032/秒

qwen3-asr-flash-2025-09-08

スナップショット版

Qwen リアルタイム音声認識

Qwen リアルタイム音声認識モデルは、自動言語検出機能を備えています。11 言語を検出し、複雑な環境でも音声を正確に文字起こしできます。利用方法 | API リファレンス

シンガポール

モデル

バージョン

対応言語

対応サンプルレート

単価

無料クォータ (注)

qwen3-asr-flash-realtime

qwen3-asr-flash-realtime-2025-10-27 と同等です。

安定版

中国語 (北京語、四川語、閩南語、呉語)、広東語、英語、日本語、ドイツ語、韓国語、ロシア語、フランス語、ポルトガル語、アラビア語、イタリア語、スペイン語、ヒンディー語、インドネシア語、タイ語、トルコ語、ウクライナ語、ベトナム語

8 kHz, 16 kHz

$0.000090/秒

36,000 秒 (10 時間)

Model Studio を有効化してから 90 日間有効です。

qwen3-asr-flash-realtime-2025-10-27

スナップショット版

中国 (北京)

モデル

バージョン

サポート言語

サポートされているサンプルレート

単価

qwen3-asr-flash-realtime

このモデルは qwen3-asr-flash-realtime-2025-10-27 のエイリアスです。

安定版

中国語 (北京語、四川語、閩南語、呉語)、広東語、英語、日本語、ドイツ語、韓国語、ロシア語、フランス語、ポルトガル語、アラビア語、イタリア語、スペイン語、ヒンディー語、インドネシア語、タイ語、トルコ語、ウクライナ語、ベトナム語

8 kHz、16 kHz

$0.000047/秒

qwen3-asr-flash-realtime-2025-10-27

スナップショット

Paraformer 音声認識

Paraformer は Tongyi Lab の音声認識モデルです。音声ファイル認識とリアルタイム音声認識の 2 つのバージョンが利用可能です。

音声ファイル認識

利用方法 | API リファレンス

説明

この機能は、中国 (北京) リージョンでのみサポートされています。

モデル

対応言語

対応サンプルレート

利用シーン

対応音声フォーマット

単価

paraformer-v2

中国語 (北京語、広東語、呉語、閩南語、東北、甘粛、貴州、河南、湖北、湖南、寧夏、山西、陝西、山東、四川、天津、江西、雲南、上海の方言)、英語、日本語、韓国語、ドイツ語、フランス語、ロシア語

任意

ApsaraVideo Live

aac、amr、avi、flac、flv、m4a、mkv、mov、mp3、mp4、mpeg、ogg、opus、wav、webm、wma、wmv

$0.000012/秒

paraformer-8k-v2

中国語 (北京語)

8 kHz

電話

リアルタイム音声認識

利用方法 | API リファレンス

説明

この機能は、中国 (北京) リージョンでのみサポートされています。

モデル

対応言語

対応サンプルレート

利用シーン

対応音声フォーマット

単価

paraformer-realtime-v2

中国語 (北京語、広東語、呉語、閩南語、東北、甘粛、貴州、河南、湖北、湖南、寧夏、山西、陝西、山東、四川、天津、江西、雲南、上海の方言)、英語、日本語、韓国語、ドイツ語、フランス語、ロシア語

言語の切り替えをサポートしています。

任意

ApsaraVideo Live、会議など。

pcm、wav、mp3、opus、speex、aac、amr

$0.000035/秒

paraformer-realtime-8k-v2

8 kHz

コールセンターなど。

Fun-ASR 音声認識

Fun-ASR は Tongyi Fun の音声認識モデルです。音声ファイル認識とリアルタイム音声認識の 2 つのバージョンが利用可能です。

音声ファイル認識

利用方法 | API リファレンス

国際(シンガポール)

モデル

バージョン

対応言語

対応サンプルレート

利用シーン

対応音声フォーマット

単価

無料クォータ (注)

fun-asr

現在 fun-asr-2025-11-07 と同等です

安定版

中国語 (北京語、広東語、呉語、閩南語、客家語、贛語、湘語、晋語)、英語、日本語。このモデルは、中原、西南、冀魯、江淮、蘭銀、膠遼、東北、北京、香港/台湾など、中国のさまざまな地域や省の北京語アクセントもサポートしています。これには、河南、陝西、湖北、四川、重慶、雲南、貴州、広東、広西、河北、天津、山東、安徽、南京、江蘇、杭州、甘粛、寧夏のアクセントが含まれます。

任意

ApsaraVideo Live、電話、会議通訳など

aac、amr、avi、flac、flv、m4a、mkv、mov、mp3、mp4、mpeg、ogg、opus、wav、webm、wma、wmv

$0.000035/秒

36,000 秒 (10 時間)

有効期間:90 日

fun-asr-2025-11-07

fun-asr-2025-08-25 と比較して、このバージョンは遠距離音声アクティビティ検出 (VAD) に最適化されており、より高い認識精度を実現します。

スナップショット版

fun-asr-2025-08-25

中国語 (北京語)、英語

fun-asr-mtl

現在 fun-asr-mtl-2025-08-25 と同等です

安定版

中国語 (北京語、広東語)、英語、日本語、タイ語、ベトナム語、インドネシア語

fun-asr-mtl-2025-08-25

スナップショット版

中国 (北京)

モデル

バージョン

対応言語

対応サンプルレート

利用シーン

対応音声フォーマット

単価

fun-asr

fun-asr-2025-11-07 と同等です。

安定版

中国語 (北京語、広東語、呉語、閩南語、客家語、贛語、湘語、晋語。このモデルは、中原、西南、冀魯、江淮、蘭銀、膠遼、東北、北京、香港/台湾などの地域の北京語アクセントもサポートしており、河南、陝西、湖北、四川、重慶、雲南、貴州、広東、広西、河北、天津、山東、安徽、南京、江蘇、杭州、甘粛、寧夏のアクセントも含まれます)、英語、日本語

任意

ApsaraVideo Live、電話、会議通訳など

aac、amr、avi、flac、flv、m4a、mkv、mov、mp3、mp4、mpeg、ogg、opus、wav、webm、wma、wmv

$0.000032/秒

fun-asr-2025-11-07

このバージョンは、遠距離音声アクティビティ検出 (VAD) に最適化されており、fun-asr-2025-08-25 よりも高い認識精度を提供します。

スナップショット版

fun-asr-2025-08-25

中国語 (北京語) と英語

fun-asr-mtl

fun-asr-mtl-2025-08-25 と同等です。

安定版

中国語 (北京語、広東語)、英語、日本語、タイ語、ベトナム語、インドネシア語

fun-asr-mtl-2025-08-25

スナップショット版

リアルタイム音声認識

利用方法 | API リファレンス

国際 (シンガポール)

モデル

バージョン

対応言語

対応サンプルレート

利用シーン

対応音声フォーマット

単価

無料クォータ (注)

fun-asr-realtime

このモデルは fun-asr-realtime-2025-11-07 のエイリアスです。

安定版

中国語 (北京語、広東語、呉語、閩南語、客家語、贛語、湘語、晋語)、英語、日本語。このモデルは、中原、西南、冀魯、江淮、蘭銀、膠遼、東北、北京、香港/台湾などの地域の北京語アクセントもサポートしています。サポートされているアクセントには、河南、陝西、湖北、四川、重慶、雲南、貴州、広東、広西、河北、天津、山東、安徽、南京、江蘇、杭州、甘粛、寧夏のものが含まれます。

16 kHz

ApsaraVideo Live、会議、コールセンターなど

pcm、wav、mp3、opus、speex、aac、amr

$0.00009/秒

36,000 秒 (10 時間)

有効期間:90 日

fun-asr-realtime-2025-11-07

スナップショット版

中国 (北京)

モデル

バージョン

対応言語

対応サンプルレート

利用シーン

対応音声フォーマット

単価

fun-asr-realtime

このモデルは fun-asr-realtime-2025-11-07 のエイリアスです。

安定版

中国語 (北京語、広東語、呉語、閩南語、客家語、贛語、湘語、晋語)、英語、日本語。このモデルは、中原、西南、冀魯、江淮、蘭銀、膠遼、東北、北京、香港/台湾などの地域の北京語アクセントもサポートしています。サポートされているアクセントには、河南、陝西、湖北、四川、重慶、雲南、貴州、広東、広西、河北、天津、山東、安徽、南京、江蘇、杭州、甘粛、寧夏のものが含まれます。

16 kHz

ApsaraVideo Live、会議、コールセンターなど

pcm、wav、mp3、opus、speex、aac、amr

$0.000047/秒

fun-asr-realtime-2025-11-07

fun-asr-realtime-2025-09-15 と比較して、このバージョンは遠距離音声アクティビティ検出 (VAD) に最適化されており、より高い認識精度を提供します。

スナップショット版

fun-asr-realtime-2025-09-15

中国語 (北京語) と英語

テキスト埋め込み

テキスト埋め込みモデルは、テキストを数値表現に変換し、検索、クラスタリング、レコメンデーション、分類などのタスクに利用されます。これらのモデルの課金は、入力トークンの数に基づきます。API リファレンス

国際 (シンガポール)

モデル

埋め込みディメンション

バッチサイズ

1行あたりの最大トークン数

サポート言語

価格

(100万入力トークンあたり)

無料クォータ

注記

text-embedding-v4

この投稿は Qwen3-Embedding シリーズの一部です。

2,048、1,536、1,024 (デフォルト)、768、512、256、128、または 64

10

8,192

中国語、英語、スペイン語、フランス語、ポルトガル語、インドネシア語、日本語、韓国語、ドイツ語、ロシア語を含む 100 以上の言語、およびさまざまなプログラミング言語

$0.07

1,000,000 トークン

Model Studio をアクティブ化してから 90 日間有効です。

text-embedding-v3

1,024 (デフォルト)、768、または 512

10

8,192

中国語、英語、スペイン語、フランス語、ポルトガル語、インドネシア語、日本語、韓国語、ドイツ語、ロシア語など 50 以上の言語

500,000 トークン

Model Studio をアクティブ化してから 90 日間有効です。

中国 (北京)

モデル

埋め込みディメンション

バッチサイズ

1行あたりの最大トークン数

サポート言語

価格

(100万入力トークンあたり)

無料クォータ

(注記)

text-embedding-v4

この投稿は Qwen3-Embedding シリーズの一部です。

2,048、1,536、1,024 (デフォルト)、768、512、256、128、または 64

10

8,192

中国語、英語、スペイン語、フランス語、ポルトガル語、インドネシア語、日本語、韓国語、ドイツ語、ロシア語、その他 100 以上の主要言語、およびさまざまなプログラミング言語

$0.072

無料クォータなし

マルチモーダル埋め込み

マルチモーダル埋め込みモデルは、テキスト、イメージ、ビデオなどのデータを浮動小数点数のベクターに変換します。このモデルにより、ビデオ分類、イメージ分類、イメージテキスト検索などのアプリケーションが可能になります。API リファレンス

シンガポール (国際)

モデル

データフォーマット

埋め込みディメンション

単価 (100 万入力トークンあたり)

無料クォータ (表示)

tongyi-embedding-vision-plus

float(32)

1,152

$0.09

1,000,000 トークン

Model Studio をアクティベートしてから 90 日間有効です。

tongyi-embedding-vision-flash

float(32)

768

イメージ/ビデオ:$0.03

テキスト:$0.09

中国 (北京)

モデル

データ型

埋め込みディメンション

単価 (1,000 入力トークンあたり)

無料クォータ (注)

multimodal-embedding-v1

float(32)

1,024

無料トライアル

トークンクォータ制限なし

テキストリランキング

この機能は、通常、セマンティック検索に使用されます。クエリを指定すると、候補となるドキュメントのリストがセマンティック関連性の高い順 (降順) にソートされます。API リファレンス

説明

この機能は、中国 (北京) リージョンでのみ利用可能です。

モデル

最大ドキュメント数

アイテムあたりの最大入力トークン数

最大入力トークン数

サポート言語

価格 (100 万入力トークンあたり)

gte-rerank-v2

500

4,000

30,000

中国語、英語、日本語、韓国語、タイ語、スペイン語、フランス語、ポルトガル語、ドイツ語、インドネシア語、アラビア語など、50 以上の言語

$0.115

  • アイテムあたりの最大入力トークン数:各クエリまたはドキュメントは 4,000 トークンに制限されます。この制限を超える入力は切り捨てられます。

  • 最大ドキュメント数:各リクエストは 500 ドキュメントに制限されます。

  • 最大入力トークン数:1 つのリクエストに含まれるすべてのクエリとドキュメントの合計トークン数は 30,000 に制限されます。

ドメイン固有

意図認識

Qwen の意図認識モデルは、ユーザーの意図をミリ秒単位で迅速かつ正確に解析し、ユーザーの問題を解決するための適切なツールを選択できます。API リファレンス | 利用方法

説明

この機能は、中国 (北京) リージョンでのみ利用可能です。

モデル

コンテキストウィンドウ

最大入力

最大出力

入力コスト

出力コスト

(トークン)

(100 万トークン)

tongyi-intent-detect-v3

8,192

8,192

1,024

$0.058

$0.144

ロールプレイング

Qwen のロールプレイングモデルは、仮想的なソーシャルインタラクション、ゲームの NPC、IP キャラクターのレプリケーション、ハードウェア、おもちゃ、車載システムなど、人間のような会話が求められるシナリオに最適です。このモデルは、他の Qwen モデルに比べ、キャラクターの忠実度、会話の進行、共感的な傾聴の各機能が強化されています。利用方法

国際 (シンガポール)

モデル

コンテキストウィンドウ

最大入力

最大出力

入力コスト

出力コスト

(トークン)

(100 万トークン)

qwen-plus-character-ja

8,192

7,680

512

$0.5

$1.4

中国 (北京)

モデル

コンテキストウィンドウ

最大入力

最大出力

入力コスト

出力コスト

(トークン)

(100 万トークン)

qwen-plus-character

32,768

32,000

4,096

$0.115

$0.287

提供終了モデル

2025 年 8 月 20 日に提供終了

Qwen2

これは Alibaba Cloud のオープンソースモデル Qwen2 です。 使用方法 | API リファレンス | オンラインで試す

モデル

コンテキストウィンドウ

最大入力

最大出力

入力価格

出力価格

代替モデル

(トークン)

(100 万トークン)

qwen2-72b-instruct

131,072

128,000

6,144

期間限定で無料

Qwen3、DeepSeek、Kimi など

qwen2-57b-a14b-instruct

65,536

63,488

qwen2-7b-instruct

131,072

128,000

Qwen1.5

これは Alibaba Cloud のオープンソースモデル Qwen1.5 です。 使用方法 | API リファレンス | オンラインで試す

モデル

コンテキストウィンドウ

最大入力

最大出力

入力価格

出力価格

代替モデル

トークン

(100 万トークン)

qwen1.5-110b-chat

8,000

6,000

2,000

期間限定で無料

Qwen3、DeepSeek、Kimi など

qwen1.5-72b-chat

qwen1.5-32b-chat

qwen1.5-14b-chat

qwen1.5-7b-chat