画像分析、ビデオ理解、OCR などのユースケースに適したモデルを選択します。
画像とビデオの理解
まず、Qwen のフラッグシップモデルである qwen3.7-plus から始めます。このモデルは、1M のコンテキストウィンドウ、最大 2 時間のビデオ、関数呼び出し、および組み込みツールをサポートしています。アプリケーションが安定したら、qwen3.6-flash に切り替えてコストを削減できます。このモデルは、同じコンテキスト長と機能セットで、フラッグシップに近いパフォーマンスを提供します。
画像解像度
ほとんどのモデルは、画像あたり最大 1,600 万ピクセルをサポートします。解像度が高いほど、より多くのトークンを使用します。画像あたりのトークン数: h x w / (32 x 32) + 2。
ビデオサポート
-
最大 2 時間 / 2 GB:
qwen3.7-plus、qwen3.6-plus、qwen3.6-flash、qwen3.5-plus、qwen3.5-flash -
最大 1 時間 / 2 GB:
qwen3-vl-plus、qwen3-vl-flash -
最大 1 時間 / 2 GB:
qwen3.5-omni-plus、qwen3.5-omni-flash(音声入力もサポート)
関数呼び出しと組み込みツール
モデルが画像やビデオのコンテンツに基づいてアクションを実行できるようにします。
-
関数呼び出し: Qwen3.7、Qwen3.6、Qwen3.5、および Qwen3-VL シリーズでサポートされています。
-
組み込みツール (Web 検索、コード実行、セットアップ不要):
qwen3.7-plus、qwen3.6-plus、qwen3.6-flash、qwen3.5-plus、およびqwen3.5-flashで利用可能です。
構造化出力
写真から製品詳細を抽出するなど、視覚入力から有効な JSON 出力を取得します。
Qwen3.7、Qwen3.6、Qwen3.5、および Qwen3-VL シリーズのノンシンキングモードでサポートされています。
OCR とドキュメント抽出
qwen-vl-ocr は、ドキュメント、表、試験問題、手書きコンテンツからのテキスト抽出に最適化されています。画像からの一般的なテキスト抽出には、qwen3.6-plus または qwen3.6-flash を使用します。
推奨モデル
|
モデル ID |
コンテキスト |
最大ピクセル数/画像 |
最大ビデオ長 |
最大ビデオサイズ |
最大画像数 |
最大ビデオ数 |
関数呼び出し |
組み込みツール |
構造化出力 |
|
|
1M |
16M |
2 時間 |
2 GB |
2048 |
64 |
|
|
|
|
|
1M |
16M |
2 時間 |
2 GB |
256 |
64 |
|
|
|
|
|
64k |
-- |
1 時間 |
2 GB |
2,048 |
512 |
|
-- |
|
すべてのモデル
Qwen3.7
|
モデル ID |
入力 |
出力 |
コンテキスト |
最大出力 |
最大画像数 |
最大ビデオ数 |
関数呼び出し |
組み込みツール |
構造化出力 |
|
|
テキスト、画像、ビデオ |
テキスト |
1M |
64k |
2048 |
64 |
|
|
|
|
|
テキスト、画像、ビデオ |
テキスト |
1M |
64k |
2048 |
64 |
|
|
|
Qwen3.6
|
モデル ID |
入力 |
出力 |
コンテキスト |
最大出力 |
最大画像数 |
最大ビデオ数 |
関数呼び出し |
組み込みツール |
構造化出力 |
|
|
テキスト、画像、ビデオ |
テキスト |
1M |
64k |
256 |
64 |
|
|
|
|
|
テキスト、画像、ビデオ |
テキスト |
1M |
64k |
256 |
64 |
|
|
|
|
|
テキスト、画像、ビデオ |
テキスト |
1M |
64k |
256 |
64 |
|
|
|
|
|
テキスト、画像、ビデオ |
テキスト |
1M |
64k |
256 |
64 |
|
|
|
|
|
テキスト、画像、ビデオ |
テキスト |
256k |
64k |
256 |
64 |
|
|
|
Qwen3.5
|
モデル ID |
入力 |
出力 |
コンテキスト |
最大出力 |
最大画像数 |
最大ビデオ数 |
関数呼び出し |
組み込みツール |
構造化出力 |
|
|
テキスト、画像、ビデオ |
テキスト |
1M |
64k |
256 |
64 |
|
|
|
|
|
テキスト、画像、ビデオ |
テキスト |
1M |
64k |
256 |
64 |
|
|
|
|
|
テキスト、画像、ビデオ |
テキスト |
1M |
64k |
256 |
64 |
|
|
|
|
|
テキスト、画像、ビデオ |
テキスト |
1M |
64k |
256 |
64 |
|
|
|
|
|
テキスト、画像、ビデオ |
テキスト |
32k |
8k |
256 |
64 |
|
|
|
|
|
テキスト、画像、ビデオ |
テキスト |
32k |
8k |
256 |
64 |
|
|
|
|
|
テキスト、画像、ビデオ |
テキスト |
32k |
8k |
256 |
64 |
|
|
|
|
|
テキスト、画像、ビデオ |
テキスト |
32k |
8k |
256 |
64 |
|
|
|
レガシーモデルおよびその他のモデル
これらのモデルは現在推奨されていません。新規プロジェクトでは、Qwen3.6 または Qwen3.5 シリーズを使用してください。完全なモデル仕様については、モデルページをご参照ください。
中国 (北京) | シンガポール | 米国 | 中国 (香港) | ドイツ (フランクフルト)