視覚理解 - Alibaba Cloud Model Studio - Alibaba Cloud ドキュメントセンター

画像分析、ビデオ理解、OCR などのユースケースに適したモデルを選択します。

画像とビデオの理解

まず、Qwen のフラッグシップモデルである qwen3.7-plus から始めます。このモデルは、1M のコンテキストウィンドウ、最大 2 時間のビデオ、関数呼び出し、および組み込みツールをサポートしています。アプリケーションが安定したら、qwen3.6-flash に切り替えてコストを削減できます。このモデルは、同じコンテキスト長と機能セットで、フラッグシップに近いパフォーマンスを提供します。

画像解像度

ほとんどのモデルは、画像あたり最大 1,600 万ピクセルをサポートします。解像度が高いほど、より多くのトークンを使用します。画像あたりのトークン数： h x w / (32 x 32) + 2。

ビデオサポート

最大 2 時間 / 2 GB： qwen3.7-plus、qwen3.6-plus、qwen3.6-flash、qwen3.5-plus、qwen3.5-flash
最大 1 時間 / 2 GB： qwen3-vl-plus、qwen3-vl-flash
最大 1 時間 / 2 GB： qwen3.5-omni-plus、qwen3.5-omni-flash (音声入力もサポート)

関数呼び出しと組み込みツール

モデルが画像やビデオのコンテンツに基づいてアクションを実行できるようにします。

関数呼び出し： Qwen3.7、Qwen3.6、Qwen3.5、および Qwen3-VL シリーズでサポートされています。
組み込みツール (Web 検索、コード実行、セットアップ不要)： qwen3.7-plus、qwen3.6-plus、qwen3.6-flash、qwen3.5-plus、および qwen3.5-flash で利用可能です。

構造化出力

写真から製品詳細を抽出するなど、視覚入力から有効な JSON 出力を取得します。

Qwen3.7、Qwen3.6、Qwen3.5、および Qwen3-VL シリーズのノンシンキングモードでサポートされています。

OCR とドキュメント抽出

qwen-vl-ocr は、ドキュメント、表、試験問題、手書きコンテンツからのテキスト抽出に最適化されています。画像からの一般的なテキスト抽出には、qwen3.6-plus または qwen3.6-flash を使用します。

推奨モデル

モデル ID	コンテキスト	最大ピクセル数/画像	最大ビデオ長	最大ビデオサイズ	最大画像数	最大ビデオ数	関数呼び出し	組み込みツール	構造化出力
`qwen3.7-plus`	1M	16M	2 時間	2 GB	2048	64	対応	対応	対応
`qwen3.6-flash`	1M	16M	2 時間	2 GB	256	64	対応	対応	対応
`qwen3.5-omni-plus`	64k	--	1 時間	2 GB	2,048	512	対応	--	対応

すべてのモデル

Qwen3.7

モデル ID	入力	出力	コンテキスト	最大出力	最大画像数	最大ビデオ数	関数呼び出し	組み込みツール	構造化出力
`qwen3.7-plus`	テキスト、画像、ビデオ	テキスト	1M	64k	2048	64	対応	対応	対応
`qwen3.7-plus-2026-05-26`	テキスト、画像、ビデオ	テキスト	1M	64k	2048	64	対応	対応	対応

Qwen3.6

モデル ID	入力	出力	コンテキスト	最大出力	最大画像数	最大ビデオ数	関数呼び出し	組み込みツール	構造化出力
`qwen3.6-plus`	テキスト、画像、ビデオ	テキスト	1M	64k	256	64	対応	対応	対応
`qwen3.6-plus-2026-04-02`	テキスト、画像、ビデオ	テキスト	1M	64k	256	64	対応	対応	対応
`qwen3.6-flash`	テキスト、画像、ビデオ	テキスト	1M	64k	256	64	対応	対応	対応
`qwen3.6-flash-2026-04-16`	テキスト、画像、ビデオ	テキスト	1M	64k	256	64	対応	対応	対応
`qwen3.6-35b-a3b`	テキスト、画像、ビデオ	テキスト	256k	64k	256	64	対応	対応	対応

Qwen3.5

モデル ID	入力	出力	コンテキスト	最大出力	最大画像数	最大ビデオ数	関数呼び出し	組み込みツール	構造化出力
`qwen3.5-plus`	テキスト、画像、ビデオ	テキスト	1M	64k	256	64	対応	対応	対応
`qwen3.5-plus-2026-02-15`	テキスト、画像、ビデオ	テキスト	1M	64k	256	64	対応	対応	対応
`qwen3.5-flash`	テキスト、画像、ビデオ	テキスト	1M	64k	256	64	対応	対応	対応
`qwen3.5-flash-2026-02-23`	テキスト、画像、ビデオ	テキスト	1M	64k	256	64	対応	対応	対応
`qwen3.5-397b-a17b`	テキスト、画像、ビデオ	テキスト	32k	8k	256	64	対応	対応	対応
`qwen3.5-122b-a10b`	テキスト、画像、ビデオ	テキスト	32k	8k	256	64	対応	対応	対応
`qwen3.5-27b`	テキスト、画像、ビデオ	テキスト	32k	8k	256	64	対応	対応	対応
`qwen3.5-35b-a3b`	テキスト、画像、ビデオ	テキスト	32k	8k	256	64	対応	対応	対応

レガシーモデルおよびその他のモデル

これらのモデルは現在推奨されていません。新規プロジェクトでは、Qwen3.6 または Qwen3.5 シリーズを使用してください。完全なモデル仕様については、モデルページをご参照ください。

中国 (北京) | シンガポール | 米国 | 中国 (香港) | ドイツ (フランクフルト)

レガシーモデルおよびその他のモデルのリストを表示

Qwen3-VL

qwen3-vl-plus
qwen3-vl-plus-2026-01-25
qwen3-vl-flash
qwen3-vl-flash-2026-01-25

Qwen2.5-VL

qwen2.5-vl-72b-instruct
qwen2.5-vl-32b-instruct
qwen2.5-vl-7b-instruct
qwen2.5-vl-3b-instruct

Qwen-Omni

qwen3-omni-flash
qwen3-omni-flash-2025-10-22
qwen-omni-turbo およびそのスナップショットバージョン

Qwen-OCR

qwen-vl-ocr
qwen-vl-ocr-latest
qwen-vl-ocr-2025-07-14

QVQ

qvq-max
qvq-max-2025-08-28
qvq-plus
qvq-plus-2025-08-27

レガシー Qwen-VL

qwen-vl-max およびそのスナップショット
qwen-vl-plus およびそのスナップショット