选择适合图像分析、视频理解、OCR等场景的模型。
图像与视频理解
推荐从qwen3.6-plus开始,它是千问旗舰模型,支持1M上下文、最长2小时视频、Function Calling和内置工具等完整功能。当您的场景稳定后,可以尝试qwen3.6-flash来降低成本,它提供接近旗舰的效果,并支持相同的上下文长度和功能集。
图像分辨率
大多数模型支持每张图片最高1600万像素。更高的分辨率会消耗更多Token:每张图片的Token数计算公式为 h x w / (32 x 32) + 2。
视频支持
最长2小时 / 2GB:
qwen3.6-plus、qwen3.6-flash、qwen3.5-plus、qwen3.5-flash最长1小时 / 2GB:
qwen3-vl-plus、qwen3-vl-flash最长1小时 / 2GB:
qwen3.5-omni-plus、qwen3.5-omni-flash(同时支持音频输入)
Function Calling与内置工具
让模型根据图像或视频中的内容执行操作。
Function Calling:Qwen3.6、Qwen3.5和Qwen3-VL系列模型均支持
内置工具(联网搜索、代码执行,无需额外配置):仅
qwen3.6-plus、qwen3.6-flash、qwen3.5-plus、qwen3.5-flash
结构化输出
从视觉输入中获取有效的JSON输出,例如从照片中提取商品信息。
Qwen3.6、Qwen3.5和Qwen3-VL系列在非思考模式下支持此功能。
OCR与文档提取
qwen-vl-ocr专为文档、表格、试卷和手写内容的文字提取而优化。您也可以使用qwen3.6-plus或qwen3.6-flash进行通用图片文字提取。
推荐模型
模型 | 上下文 | 最大像素/图 | 最大视频时长 | 最大视频大小 | 最大图片数 | 最大视频数 | Function Calling | 内置工具 | 结构化输出 |
| 1M | 16M | 2小时 | 2GB | 256 | 64 | |||
| 1M | 16M | 2小时 | 2GB | 256 | 64 | |||
| 64k | -- | 1小时 | 2GB | 2,048 | 512 | -- |
所有模型
Qwen3.6
模型ID | 输入 | 输出 | 上下文 | 最大输出 | 最大图片数 | 最大视频数 | Function Calling | 内置工具 | 结构化输出 |
| 文本、图像、视频 | 文本 | 1M | 64k | 256 | 64 | |||
| 文本、图像、视频 | 文本 | 1M | 64k | 256 | 64 | |||
| 文本、图像、视频 | 文本 | 1M | 64k | 256 | 64 | |||
| 文本、图像、视频 | 文本 | 1M | 64k | 256 | 64 | |||
| 文本、图像、视频 | 文本 | 256k | 64k | 256 | 64 |
Qwen3.5
模型ID | 输入 | 输出 | 上下文 | 最大输出 | 最大图片数 | 最大视频数 | Function Calling | 内置工具 | 结构化输出 |
| 文本、图像、视频 | 文本 | 1M | 64k | 256 | 64 | |||
| 文本、图像、视频 | 文本 | 1M | 64k | 256 | 64 | |||
| 文本、图像、视频 | 文本 | 1M | 64k | 256 | 64 | |||
| 文本、图像、视频 | 文本 | 1M | 64k | 256 | 64 | |||
| 文本、图像、视频 | 文本 | 32k | 8k | 256 | 64 | |||
| 文本、图像、视频 | 文本 | 32k | 8k | 256 | 64 | |||
| 文本、图像、视频 | 文本 | 32k | 8k | 256 | 64 | |||
| 文本、图像、视频 | 文本 | 32k | 8k | 256 | 64 |
旧版及其他模型
以下模型不再作为首选推荐。新项目建议使用Qwen3.6或Qwen3.5系列。如需查看模型详细参数,请前往模型广场。