选择适合语音合成、声音克隆和声音设计场景的模型。
以下列出语音合成、声音服务及旧版按 Token 计费等系列模型,可按场景筛选。通过以下两个问题可以快速缩小选择范围:
您需要自定义音色,还是使用内置音色即可?
您需要实时流式输出,还是非流式也可以接受?
标准语音合成还是自定义音色?
标准语音合成
使用内置音色,无需额外配置。选择模型、选择音色即可开始合成。
国际
模型 | 系列 | 核心优势 |
| CosyVoice | 高质量,丰富的音色库 |
| CosyVoice | 快速合成 |
| Qwen3-TTS | 低延迟,高质量 |
| Qwen3-TTS | 低延迟,高质量(快照版本) |
| Qwen3-TTS | 低延迟,高质量(快照版本) |
| Qwen3-TTS | 实时流式输出,低延迟 |
| Qwen3-TTS | 实时流式输出,低延迟(快照版本) |
| Qwen3-TTS | 实时流式输出,低延迟(快照版本) |
| Qwen3-TTS | 指令控制(语速、情绪、风格) |
| Qwen3-TTS | 指令控制(快照版本) |
| Qwen3-TTS | 实时流式输出 + 指令控制 |
| Qwen3-TTS | 实时流式输出 + 指令控制(快照版本) |
中国内地
模型 | 系列 | 核心优势 |
| CosyVoice | 高质量,音色库持续更新 |
| CosyVoice | 快速合成 |
| CosyVoice | 高质量,丰富的音色库 |
| CosyVoice | 快速合成 |
| CosyVoice | 上一代高质量合成 |
| CosyVoice | 上一代基础合成 |
| Qwen3-TTS | 低延迟,高质量 |
| Qwen3-TTS | 低延迟,高质量(快照版本) |
| Qwen3-TTS | 低延迟,高质量(快照版本) |
| Qwen3-TTS | 实时流式输出,低延迟 |
| Qwen3-TTS | 实时流式输出,低延迟(快照版本) |
| Qwen3-TTS | 实时流式输出,低延迟(快照版本) |
| Qwen3-TTS | 指令控制(语速、情绪、风格) |
| Qwen3-TTS | 指令控制(快照版本) |
| Qwen3-TTS | 实时流式输出 + 指令控制 |
| Qwen3-TTS | 实时流式输出 + 指令控制(快照版本) |
| MiniMax | 高音质语音合成 |
| MiniMax | 高音质语音合成 |
| MiniMax | 低延迟快速合成 |
| MiniMax | 低延迟快速合成 |
自定义音色
通过克隆音频样本或文字描述来创建独特的音色。
国际
模型 | 系列 | 核心优势 |
| Qwen3-TTS | 从音频样本克隆音色 |
| Qwen3-TTS | 实时声音克隆 |
| Qwen3-TTS | 实时声音克隆 |
| Qwen3-TTS | 通过文字描述设计音色 |
| Qwen3-TTS | 实时声音设计 |
| Qwen3-TTS | 实时声音设计 |
| 千问声音复刻 | 声音复刻(音色注册与管理) |
| 千问声音设计 | 声音设计(文本驱动创建音色) |
克隆与设计的区别:声音克隆是从音频样本中复制特定音色。声音设计是通过文字描述创建全新音色(例如"温暖的低音女声")。已有目标音色时用克隆,想从零创建时用设计。
控制语音表现
三种方式,按灵活性排序:
指令控制(
qwen3-tts-instruct-flash、qwen3-tts-instruct-flash-realtime):用自然语言描述期望的表达方式,可按请求控制语速、情绪和风格,灵活性最高。声音设计(
qwen3-tts-vd-*):通过文字描述生成自定义音色。适用于无需音频样本即可创建品牌音色的场景。声音克隆(
qwen3-tts-vc-*):从音频样本复制已有音色。适用于需要还原特定人物音色的场景。
完整对比
模型 | 系列 | 流式 | 自定义音色 | 指令控制 |
| CosyVoice | 支持 | 不支持 | 不支持 |
| CosyVoice | 支持 | 不支持 | 不支持 |
| CosyVoice | 支持 | 不支持 | 不支持 |
| CosyVoice | 支持 | 不支持 | 不支持 |
| CosyVoice | 支持 | 不支持 | 不支持 |
| Qwen3-TTS | 支持 | 不支持 | 不支持 |
| Qwen3-TTS | 支持 | 不支持 | 不支持 |
| Qwen3-TTS | 支持 | 不支持 | 不支持 |
| Qwen3-TTS | 支持 | 不支持 | 不支持 |
| Qwen3-TTS | 支持 | 不支持 | 不支持 |
| Qwen3-TTS | 支持 | 不支持 | 不支持 |
| Qwen3-TTS | 支持 | 不支持 | 支持 |
| Qwen3-TTS | 支持 | 不支持 | 支持 |
| Qwen3-TTS | 支持 | 不支持 | 支持 |
| Qwen3-TTS | 支持 | 不支持 | 支持 |
| 声音克隆 | 不支持 | 支持 | 不支持 |
| 声音克隆 | 支持 | 支持 | 不支持 |
| 声音克隆 | 支持 | 支持 | 不支持 |
| 声音设计 | 不支持 | 支持 | 不支持 |
| 声音设计 | 支持 | 支持 | 不支持 |
| 声音设计 | 支持 | 支持 | 不支持 |
| Qwen-TTS(旧版) | 不支持(整段输出) | 不支持 | 不支持 |
| Qwen-TTS(旧版) | 不支持(整段输出) | 不支持 | 不支持 |
| Qwen-TTS(旧版) | 不支持(整段输出) | 不支持 | 不支持 |
| Qwen-TTS(旧版) | 不支持(整段输出) | 不支持 | 不支持 |
| Qwen-TTS(旧版) | 支持 | 不支持 | 不支持 |
| Qwen-TTS(旧版) | 支持 | 不支持 | 不支持 |
| Qwen-TTS(旧版) | 支持 | 不支持 | 不支持 |
| 声音服务 | 不适用 | 支持(音色注册) | 不支持 |
| 声音服务 | 不适用 | 支持(音色设计) | 不支持 |
旧版模型(Qwen-TTS,按 Token 计费)
以下为按 Token 计费的旧版 Qwen-TTS 模型,接入方式分为 HTTP 与 WebSocket。若您已迁移到 Qwen3-TTS,可优先使用前文标准语音合成中的模型。
国际
模型 | 接入方式 | 说明 |
| HTTP | 非流式合成,按 Token 计费 |
| HTTP | 非流式合成,按 Token 计费 |
| HTTP | 快照版本,按 Token 计费 |
| HTTP | 快照版本,按 Token 计费 |
| WebSocket | 流式合成,按 Token 计费 |
| WebSocket | 流式合成,按 Token 计费 |
| WebSocket | 快照版本,流式合成,按 Token 计费 |