语音转语音模型 -

选择适合语音对话、语音翻译等场景的模型。

S2S（Speech-to-Speech）与Pipeline对比

构建语音应用有两种方式：

	S2S	Pipeline（ASR + LLM + TTS）
延迟	低 -- 单模型流式处理	较高 -- 3个阶段串行处理
音频理解	端到端 -- 能感知语调、情绪并做出相应回应	先转文本再处理 -- 音频中的细微信息丢失
音色定制	通过系统提示词选择预设音色	声音克隆、声音设计（CosyVoice）

使用S2S：当交互式对话、低延迟和音频感知的回复是关键需求时。
使用Pipeline：当需要自定义音色，或者需要为每个阶段分别选择最优的ASR、LLM和TTS模型时。

实时还是文件模式？

实时（WebSocket）：适用于语音助手、呼叫中心、同声传译等实时语音交互场景。音频流式输入，语音流式输出。模型名称中包含-realtime。
文件模式（HTTP）：可以用延迟换取更好的效果，适用于视频配音、播客翻译、离线内容处理等场景。支持Function Calling（Qwen3.5-Omni、Qwen3-Omni-Flash）、联网搜索（Qwen3.5-Omni）、思考模式（Qwen3-Omni-Flash）以及视频上下文（Livetranslate）。

Function Calling

让模型根据听到和看到的内容执行操作 -- 查询知识库、查询日程、触发工作流。使用Qwen3.5 Omni（WebSocket与HTTP模式）或 Qwen3 Omni（HTTP模式）。

实时模型和Livetranslate模型不支持此功能。

联网搜索

让模型检索实时信息，回答关于时事、股价、天气等问题。使用Qwen3.5 Omni（HTTP和WebSocket），包括Plus和Flash系列。模型自主决定是否搜索。

Qwen3-Omni-Flash和Livetranslate模型不支持此功能。

思考模式

当回答质量比延迟更重要时，使用Qwen3 Omni（HTTP模式）。模型在回复前会逐步推理，适用于视频分析、批量打标等场景。

思考模式下不支持生成语音。

翻译

三个模型系列均支持语音翻译：

Qwen3-Livetranslate：支持18种语言 + 5种中文方言，约3秒延迟，开箱即用。文件模式支持输入视频以获得上下文感知的翻译精度。其中7种语言仅输出文本（不输出语音）。
Qwen3.5-Omni：支持29种输出语言 + 7种中文方言。优秀的音视频理解能力和联网搜索。可通过系统提示词注入术语和领域上下文。支持实时和文件模式。
Qwen3-Omni-Flash：支持11种输出语言 + 8种中文方言。可通过系统提示词注入术语和领域上下文。支持实时和文件模式。成本更低。

说明

快速搭建翻译应用推荐Livetranslate；最高质量和最广语言覆盖推荐Qwen3.5-Omni；成本敏感场景推荐Qwen3-Omni-Flash。

支持的语言

语言	Qwen3-Livetranslate	Qwen3.5-Omni	Qwen3-Omni-Flash
英语	支持	支持	支持
中文（普通话）	支持	支持	支持
粤语	支持	支持	支持
四川话	支持	支持	支持
上海话	支持	支持	支持
北京话	支持	支持	支持
天津话	支持	支持	支持
南京话	--	支持	支持
陕西话	--	支持	支持
闽南语	--	支持	支持
法语	支持	支持	支持
德语	支持	支持	支持
俄语	支持	支持	支持
意大利语	支持	支持	支持
西班牙语	支持	支持	支持
葡萄牙语	支持	支持	支持
日语	支持	支持	支持
韩语	支持	支持	支持
泰语	仅文本	支持	支持
印尼语	仅文本	支持	--
越南语	仅文本	支持	--
阿拉伯语	仅文本	支持	--
印地语	仅文本	支持	--
土耳其语	仅文本	支持	--
芬兰语	--	支持	--
波兰语	--	支持	--
荷兰语	--	支持	--
捷克语	--	支持	--
乌尔都语	--	支持	--
他加禄语	--	支持	--
瑞典语	--	支持	--
丹麦语	--	支持	--
希伯来语	--	支持	--
冰岛语	--	支持	--
马来语	--	支持	--
挪威语	--	支持	--
波斯语	--	支持	--
希腊语	仅文本	--	--

"支持"表示同时输出语音和文本。"仅文本"表示该语言不输出语音。

Qwen3.5-Omni支持113种输入语言/方言。

旧版qwen-omni-turbo仅支持中文和英文。

所有模型

Qwen3.5-Omni

以下模型适用于国际和中国内地服务部署范围。

模型	API	输入	Function Calling	联网搜索	思考模式
`qwen3.5-omni-plus-realtime`	WebSocket	文本、音频、图片、视频	支持	支持	--
`qwen3.5-omni-plus-realtime-2026-03-15`	WebSocket	文本、音频、图片、视频	支持	支持	--
`qwen3.5-omni-plus`	HTTP	文本、音频、图片、视频	支持	支持	--
`qwen3.5-omni-plus-2026-03-15`	HTTP	文本、音频、图片、视频	支持	支持	--
`qwen3.5-omni-flash-realtime`	WebSocket	文本、音频、图片、视频	支持	支持	--
`qwen3.5-omni-flash-realtime-2026-03-15`	WebSocket	文本、音频、图片、视频	支持	支持	--
`qwen3.5-omni-flash`	HTTP	文本、音频、图片、视频	支持	支持	--
`qwen3.5-omni-flash-2026-03-15`	HTTP	文本、音频、图片、视频	支持	支持	--

Qwen3-Omni

以下模型适用于国际和中国内地服务部署范围。

模型	API	输入	Function Calling	联网搜索	思考模式
`qwen3-omni-flash-realtime`	WebSocket	文本、音频、图片、视频	--	--	--
`qwen3-omni-flash-realtime-2025-12-01`	WebSocket	文本、音频、图片、视频	--	--	--
`qwen3-omni-flash-realtime-2025-09-15`	WebSocket	文本、音频、图片、视频	--	--	--
`qwen3-omni-flash`	HTTP	文本、音频、图片、视频	支持	--	支持
`qwen3-omni-flash-2025-12-01`	HTTP	文本、音频、图片、视频	支持	--	支持
`qwen3-omni-flash-2025-09-15`	HTTP	文本、音频、图片、视频	支持	--	支持

Qwen3-Livetranslate

以下模型适用于国际和中国内地服务部署范围。

模型	API	输入	语言数
`qwen3-livetranslate-flash-realtime`	WebSocket	音频	18
`qwen3-livetranslate-flash-realtime-2025-09-22`	WebSocket	音频	18
`qwen3-livetranslate-flash`	HTTP	音频、视频	18
`qwen3-livetranslate-flash-2025-12-01`	HTTP	音频、视频	18

旧版模型

以下模型不再更新，新项目建议使用Qwen3.5-Omni。

模型	输入	API
`qwen2.5-omni-7b`	文本、音频、图片、视频	HTTP
`qwen-omni-turbo`	文本、音频、图片、视频	HTTP
`qwen-omni-turbo-latest`	文本、音频、图片、视频	HTTP
`qwen-omni-turbo-2025-03-26`	文本、音频、图片、视频	HTTP
`qwen-omni-turbo-realtime`	文本、音频	WebSocket
`qwen-omni-turbo-realtime-latest`	文本、音频	WebSocket
`qwen-omni-turbo-realtime-2025-05-08`	文本、音频	WebSocket

：语音转语音模型

S2S（Speech-to-Speech）与Pipeline对比

实时还是文件模式？

Function Calling

联网搜索

思考模式

翻译

推荐模型

所有模型

Qwen3.5-Omni

Qwen3-Omni

Qwen3-Livetranslate

旧版模型