选择适合语音对话、语音翻译等场景的模型。
S2S(Speech-to-Speech)与Pipeline对比
构建语音应用有两种方式:
S2S | Pipeline(ASR + LLM + TTS) | |
延迟 | 低 -- 单模型流式处理 | 较高 -- 3个阶段串行处理 |
音频理解 | 端到端 -- 能感知语调、情绪并做出相应回应 | 先转文本再处理 -- 音频中的细微信息丢失 |
音色定制 | 通过系统提示词选择预设音色 | 声音克隆、声音设计(CosyVoice) |
使用S2S:当交互式对话、低延迟和音频感知的回复是关键需求时。
使用Pipeline:当需要自定义音色,或者需要为每个阶段分别选择最优的ASR、LLM和TTS模型时。
实时还是文件模式?
实时(WebSocket):适用于语音助手、呼叫中心、同声传译等实时语音交互场景。音频流式输入,语音流式输出。模型名称中包含
-realtime。文件模式(HTTP):可以用延迟换取更好的效果,适用于视频配音、播客翻译、离线内容处理等场景。支持Function Calling(Qwen3.5-Omni、Qwen3-Omni-Flash)、联网搜索(Qwen3.5-Omni)、思考模式(Qwen3-Omni-Flash)以及视频上下文(Livetranslate)。
Function Calling
让模型根据听到和看到的内容执行操作 -- 查询知识库、查询日程、触发工作流。使用Qwen3.5 Omni(WebSocket与HTTP模式) 或 Qwen3 Omni(HTTP模式)。
实时模型和Livetranslate模型不支持此功能。
联网搜索
让模型检索实时信息,回答关于时事、股价、天气等问题。使用Qwen3.5 Omni(HTTP和WebSocket),包括Plus和Flash系列。模型自主决定是否搜索。
Qwen3-Omni-Flash和Livetranslate模型不支持此功能。
思考模式
当回答质量比延迟更重要时,使用Qwen3 Omni(HTTP模式)。模型在回复前会逐步推理,适用于视频分析、批量打标等场景。
思考模式下不支持生成语音。
翻译
三个模型系列均支持语音翻译:
Qwen3-Livetranslate:支持18种语言 + 5种中文方言,约3秒延迟,开箱即用。文件模式支持输入视频以获得上下文感知的翻译精度。其中7种语言仅输出文本(不输出语音)。
Qwen3.5-Omni:支持29种输出语言 + 7种中文方言。优秀的音视频理解能力和联网搜索。可通过系统提示词注入术语和领域上下文。支持实时和文件模式。
Qwen3-Omni-Flash:支持11种输出语言 + 8种中文方言。可通过系统提示词注入术语和领域上下文。支持实时和文件模式。成本更低。
快速搭建翻译应用推荐Livetranslate;最高质量和最广语言覆盖推荐Qwen3.5-Omni;成本敏感场景推荐Qwen3-Omni-Flash。
推荐模型
模型 | API | 输入 | Function Calling | 联网搜索 | 思考模式 |
| WebSocket | 文本、音频、图片 | 支持 | 支持 | -- |
| HTTP | 文本、音频、图片、视频 | 支持 | 支持 | -- |
| WebSocket | 文本、音频、图片 | 支持 | 支持 | -- |
| HTTP | 文本、音频、图片、视频 | 支持 | 支持 | -- |
| WebSocket | 文本、音频、图片、视频 | -- | -- | -- |
| HTTP | 文本、音频、图片、视频 | 支持 | -- | 支持 |
| WebSocket | 音频、图片 | -- | -- | -- |
| HTTP | 音频、视频 | -- | -- | -- |
所有模型
Qwen3.5-Omni
以下模型适用于国际和中国内地服务部署范围。
模型 | API | 输入 | Function Calling | 联网搜索 | 思考模式 |
| WebSocket | 文本、音频、图片、视频 | 支持 | 支持 | -- |
| WebSocket | 文本、音频、图片、视频 | 支持 | 支持 | -- |
| HTTP | 文本、音频、图片、视频 | 支持 | 支持 | -- |
| HTTP | 文本、音频、图片、视频 | 支持 | 支持 | -- |
| WebSocket | 文本、音频、图片、视频 | 支持 | 支持 | -- |
| WebSocket | 文本、音频、图片、视频 | 支持 | 支持 | -- |
| HTTP | 文本、音频、图片、视频 | 支持 | 支持 | -- |
| HTTP | 文本、音频、图片、视频 | 支持 | 支持 | -- |
Qwen3-Omni
以下模型适用于国际和中国内地服务部署范围。
模型 | API | 输入 | Function Calling | 联网搜索 | 思考模式 |
| WebSocket | 文本、音频、图片、视频 | -- | -- | -- |
| WebSocket | 文本、音频、图片、视频 | -- | -- | -- |
| WebSocket | 文本、音频、图片、视频 | -- | -- | -- |
| HTTP | 文本、音频、图片、视频 | 支持 | -- | 支持 |
| HTTP | 文本、音频、图片、视频 | 支持 | -- | 支持 |
| HTTP | 文本、音频、图片、视频 | 支持 | -- | 支持 |
Qwen3-Livetranslate
以下模型适用于国际和中国内地服务部署范围。
模型 | API | 输入 | 语言数 |
| WebSocket | 音频 | 18 |
| WebSocket | 音频 | 18 |
| HTTP | 音频、视频 | 18 |
| HTTP | 音频、视频 | 18 |
旧版模型
以下模型不再更新,新项目建议使用Qwen3.5-Omni。
模型 | 输入 | API |
| 文本、音频、图片、视频 | HTTP |
| 文本、音频、图片、视频 | HTTP |
| 文本、音频、图片、视频 | HTTP |
| 文本、音频、图片、视频 | HTTP |
| 文本、音频 | WebSocket |
| 文本、音频 | WebSocket |
| 文本、音频 | WebSocket |