すべてのプロダクト
Search
ドキュメントセンター

Alibaba Cloud Model Studio:視覚理解

最終更新日:Jun 16, 2026

画像分析、ビデオ理解、OCR などのユースケースに適したモデルを選択します。

画像とビデオの理解

まず、Qwen のフラッグシップモデルである qwen3.7-plus から始めます。このモデルは、1M のコンテキストウィンドウ、最大 2 時間のビデオ、関数呼び出し、および組み込みツールをサポートしています。アプリケーションが安定したら、qwen3.6-flash に切り替えてコストを削減できます。このモデルは、同じコンテキスト長と機能セットで、フラッグシップに近いパフォーマンスを提供します。

画像解像度

ほとんどのモデルは、画像あたり最大 1,600 万ピクセルをサポートします。解像度が高いほど、より多くのトークンを使用します。画像あたりのトークン数: h x w / (32 x 32) + 2

ビデオサポート

  • 最大 2 時間 / 2 GB: qwen3.7-plusqwen3.6-plusqwen3.6-flashqwen3.5-plusqwen3.5-flash

  • 最大 1 時間 / 2 GB: qwen3-vl-plusqwen3-vl-flash

  • 最大 1 時間 / 2 GB: qwen3.5-omni-plusqwen3.5-omni-flash (音声入力もサポート)

関数呼び出しと組み込みツール

モデルが画像やビデオのコンテンツに基づいてアクションを実行できるようにします。

  • 関数呼び出し: Qwen3.7、Qwen3.6、Qwen3.5、および Qwen3-VL シリーズでサポートされています。

  • 組み込みツール (Web 検索、コード実行、セットアップ不要): qwen3.7-plusqwen3.6-plusqwen3.6-flashqwen3.5-plus、および qwen3.5-flash で利用可能です。

構造化出力

写真から製品詳細を抽出するなど、視覚入力から有効な JSON 出力を取得します。

Qwen3.7、Qwen3.6、Qwen3.5、および Qwen3-VL シリーズのノンシンキングモードでサポートされています。

OCR とドキュメント抽出

qwen-vl-ocr は、ドキュメント、表、試験問題、手書きコンテンツからのテキスト抽出に最適化されています。画像からの一般的なテキスト抽出には、qwen3.6-plus または qwen3.6-flash を使用します。

推奨モデル

モデル ID

コンテキスト

最大ピクセル数/画像

最大ビデオ長

最大ビデオサイズ

最大画像数

最大ビデオ数

関数呼び出し

組み込みツール

構造化出力

qwen3.7-plus

1M

16M

2 時間

2 GB

2048

64

対応

対応

対応

qwen3.6-flash

1M

16M

2 時間

2 GB

256

64

対応

対応

対応

qwen3.5-omni-plus

64k

--

1 時間

2 GB

2,048

512

対応

--

対応

すべてのモデル

Qwen3.7

モデル ID

入力

出力

コンテキスト

最大出力

最大画像数

最大ビデオ数

関数呼び出し

組み込みツール

構造化出力

qwen3.7-plus

テキスト、画像、ビデオ

テキスト

1M

64k

2048

64

対応

対応

対応

qwen3.7-plus-2026-05-26

テキスト、画像、ビデオ

テキスト

1M

64k

2048

64

対応

対応

対応

Qwen3.6

モデル ID

入力

出力

コンテキスト

最大出力

最大画像数

最大ビデオ数

関数呼び出し

組み込みツール

構造化出力

qwen3.6-plus

テキスト、画像、ビデオ

テキスト

1M

64k

256

64

対応

対応

対応

qwen3.6-plus-2026-04-02

テキスト、画像、ビデオ

テキスト

1M

64k

256

64

対応

対応

対応

qwen3.6-flash

テキスト、画像、ビデオ

テキスト

1M

64k

256

64

対応

対応

対応

qwen3.6-flash-2026-04-16

テキスト、画像、ビデオ

テキスト

1M

64k

256

64

対応

対応

対応

qwen3.6-35b-a3b

テキスト、画像、ビデオ

テキスト

256k

64k

256

64

対応

対応

対応

Qwen3.5

モデル ID

入力

出力

コンテキスト

最大出力

最大画像数

最大ビデオ数

関数呼び出し

組み込みツール

構造化出力

qwen3.5-plus

テキスト、画像、ビデオ

テキスト

1M

64k

256

64

対応

対応

対応

qwen3.5-plus-2026-02-15

テキスト、画像、ビデオ

テキスト

1M

64k

256

64

対応

対応

対応

qwen3.5-flash

テキスト、画像、ビデオ

テキスト

1M

64k

256

64

対応

対応

対応

qwen3.5-flash-2026-02-23

テキスト、画像、ビデオ

テキスト

1M

64k

256

64

対応

対応

対応

qwen3.5-397b-a17b

テキスト、画像、ビデオ

テキスト

32k

8k

256

64

対応

対応

対応

qwen3.5-122b-a10b

テキスト、画像、ビデオ

テキスト

32k

8k

256

64

対応

対応

対応

qwen3.5-27b

テキスト、画像、ビデオ

テキスト

32k

8k

256

64

対応

対応

対応

qwen3.5-35b-a3b

テキスト、画像、ビデオ

テキスト

32k

8k

256

64

対応

対応

対応

レガシーモデルおよびその他のモデル

これらのモデルは現在推奨されていません。新規プロジェクトでは、Qwen3.6 または Qwen3.5 シリーズを使用してください。完全なモデル仕様については、モデルページをご参照ください。

中国 (北京) | シンガポール | 米国 | 中国 (香港) | ドイツ (フランクフルト)

レガシーモデルおよびその他のモデルのリストを表示

Qwen3-VL

  • qwen3-vl-plus

  • qwen3-vl-plus-2026-01-25

  • qwen3-vl-flash

  • qwen3-vl-flash-2026-01-25

Qwen2.5-VL

  • qwen2.5-vl-72b-instruct

  • qwen2.5-vl-32b-instruct

  • qwen2.5-vl-7b-instruct

  • qwen2.5-vl-3b-instruct

Qwen-Omni

  • qwen3-omni-flash

  • qwen3-omni-flash-2025-10-22

  • qwen-omni-turbo およびそのスナップショットバージョン

Qwen-OCR

  • qwen-vl-ocr

  • qwen-vl-ocr-latest

  • qwen-vl-ocr-2025-07-14

QVQ

  • qvq-max

  • qvq-max-2025-08-28

  • qvq-plus

  • qvq-plus-2025-08-27

レガシー Qwen-VL

  • qwen-vl-max およびそのスナップショット

  • qwen-vl-plus およびそのスナップショット