選擇適合映像分析、視頻理解、OCR等情境的模型。
映像與視頻理解
推薦從qwen3.6-plus開始,它是千問旗艦模型,支援1M上下文、最長2小時視頻、Function Calling和內建工具等完整功能。當您的情境穩定後,可以嘗試qwen3.6-flash來降低成本,它提供接近旗艦的效果,並支援相同的上下文長度和功能集。
映像解析度
大多數模型支援每張圖片最高1600萬像素。更高的解析度會消耗更多Token:每張圖片的Token數計算公式為 h x w / (32 x 32) + 2。
視頻支援
最長2小時 / 2GB:
qwen3.6-plus、qwen3.6-flash、qwen3.5-plus、qwen3.5-flash最長1小時 / 2GB:
qwen3-vl-plus、qwen3-vl-flash最長1小時 / 2GB:
qwen3.5-omni-plus、qwen3.5-omni-flash(同時支援音頻輸入)
Function Calling與內建工具
讓模型根據映像或視頻中的內容執行操作。
Function Calling:Qwen3.6、Qwen3.5和Qwen3-VL系列模型均支援
內建工具(連網搜尋、代碼執行,無需額外配置):僅
qwen3.6-plus、qwen3.6-flash、qwen3.5-plus、qwen3.5-flash
結構化輸出
從視覺輸入中擷取有效JSON輸出,例如從照片中提取商品資訊。
Qwen3.6、Qwen3.5和Qwen3-VL系列在非思考模式下支援此功能。
OCR與文檔提取
qwen-vl-ocr專為文檔、表格、試卷和手寫內容的文字提取而最佳化。您也可以使用qwen3.6-plus或qwen3.6-flash進行通用圖片文字提取。
推薦模型
模型 | 上下文 | 最大像素/圖 | 最大視頻時間長度 | 最大視頻大小 | 最大圖片數 | 最大視頻數 | Function Calling | 內建工具 | 結構化輸出 |
| 1M | 16M | 2小時 | 2GB | 256 | 64 | |||
| 1M | 16M | 2小時 | 2GB | 256 | 64 | |||
| 64k | -- | 1小時 | 2GB | 2,048 | 512 | -- |
所有模型
Qwen3.6
模型ID | 輸入 | 輸出 | 上下文 | 最大輸出 | 最大圖片數 | 最大視頻數 | Function Calling | 內建工具 | 結構化輸出 |
| 文本、映像、視頻 | 文本 | 1M | 64k | 256 | 64 | |||
| 文本、映像、視頻 | 文本 | 1M | 64k | 256 | 64 | |||
| 文本、映像、視頻 | 文本 | 1M | 64k | 256 | 64 | |||
| 文本、映像、視頻 | 文本 | 1M | 64k | 256 | 64 | |||
| 文本、映像、視頻 | 文本 | 256k | 64k | 256 | 64 |
Qwen3.5
模型ID | 輸入 | 輸出 | 上下文 | 最大輸出 | 最大圖片數 | 最大視頻數 | Function Calling | 內建工具 | 結構化輸出 |
| 文本、映像、視頻 | 文本 | 1M | 64k | 256 | 64 | |||
| 文本、映像、視頻 | 文本 | 1M | 64k | 256 | 64 | |||
| 文本、映像、視頻 | 文本 | 1M | 64k | 256 | 64 | |||
| 文本、映像、視頻 | 文本 | 1M | 64k | 256 | 64 | |||
| 文本、映像、視頻 | 文本 | 32k | 8k | 256 | 64 | |||
| 文本、映像、視頻 | 文本 | 32k | 8k | 256 | 64 | |||
| 文本、映像、視頻 | 文本 | 32k | 8k | 256 | 64 | |||
| 文本、映像、視頻 | 文本 | 32k | 8k | 256 | 64 |
舊版及其他模型
以下模型不再作為首選推薦。新專案提案使用Qwen3.6或Qwen3.5系列。如需查看模型詳細參數,請前往模型廣場。