選擇適合語音合成、聲音複製和聲音設計情境的模型。
以下列出語音合成、聲音服務及舊版按 Token 計費等系列模型,可按情境篩選。通過以下兩個問題可以快速縮小選擇範圍:
您需要自訂音色,還是使用內建音色即可?
您需要即時資料流式輸出,還是非流式也可以接受?
標準語音合成還是自訂音色?
標準語音合成
使用內建音色,無需額外配置。選擇模型、選擇音色即可開始合成。
國際
模型 | 系列 | 核心優勢 |
| CosyVoice | 高品質,豐富的音色庫 |
| CosyVoice | 快速合成 |
| Qwen3-TTS | 低延遲,高品質 |
| Qwen3-TTS | 低延遲,高品質(快照版本) |
| Qwen3-TTS | 低延遲,高品質(快照版本) |
| Qwen3-TTS | 即時資料流式輸出,低延遲 |
| Qwen3-TTS | 即時資料流式輸出,低延遲(快照版本) |
| Qwen3-TTS | 即時資料流式輸出,低延遲(快照版本) |
| Qwen3-TTS | 指令控制(語速、情緒、風格) |
| Qwen3-TTS | 指令控制(快照版本) |
| Qwen3-TTS | 即時資料流式輸出 + 指令控制 |
| Qwen3-TTS | 即時資料流式輸出 + 指令控制(快照版本) |
中國內地
模型 | 系列 | 核心優勢 |
| CosyVoice | 高品質,音色庫持續更新 |
| CosyVoice | 快速合成 |
| CosyVoice | 高品質,豐富的音色庫 |
| CosyVoice | 快速合成 |
| CosyVoice | 上一代高品質合成 |
| CosyVoice | 上一代基礎合成 |
| Qwen3-TTS | 低延遲,高品質 |
| Qwen3-TTS | 低延遲,高品質(快照版本) |
| Qwen3-TTS | 低延遲,高品質(快照版本) |
| Qwen3-TTS | 即時資料流式輸出,低延遲 |
| Qwen3-TTS | 即時資料流式輸出,低延遲(快照版本) |
| Qwen3-TTS | 即時資料流式輸出,低延遲(快照版本) |
| Qwen3-TTS | 指令控制(語速、情緒、風格) |
| Qwen3-TTS | 指令控制(快照版本) |
| Qwen3-TTS | 即時資料流式輸出 + 指令控制 |
| Qwen3-TTS | 即時資料流式輸出 + 指令控制(快照版本) |
| MiniMax | 高音質語音合成 |
| MiniMax | 高音質語音合成 |
| MiniMax | 低延遲快速合成 |
| MiniMax | 低延遲快速合成 |
自訂音色
通過複製音頻樣本或文字描述來建立獨特的音色。
國際
模型 | 系列 | 核心優勢 |
| Qwen3-TTS | 從音頻樣本複製音色 |
| Qwen3-TTS | 即時聲音複製 |
| Qwen3-TTS | 即時聲音複製 |
| Qwen3-TTS | 通過文字描述設計音色 |
| Qwen3-TTS | 即時聲音設計 |
| Qwen3-TTS | 即時聲音設計 |
| 千問聲音複刻 | 聲音複刻(音色註冊與管理) |
| 千問聲音設計 | 聲音設計(文本驅動建立音色) |
複製與設計的區別:聲音複製是從音頻樣本中複製特定音色。聲音設計是通過文字描述建立全新音色(例如"溫暖的低音女聲")。已有目標音色時用複製,想從零建立時用設計。
控制語音表現
三種方式,按靈活性排序:
指令控制(
qwen3-tts-instruct-flash、qwen3-tts-instruct-flash-realtime):用自然語言描述期望的表達方式,可按請求控制語速、情緒和風格,靈活性最高。聲音設計(
qwen3-tts-vd-*):通過文字描述產生自訂音色。適用於無需音頻樣本即可建立品牌音色的情境。聲音複製(
qwen3-tts-vc-*):從音頻樣本複製已有音色。適用於需要還原特定人物音色的情境。
完整對比
模型 | 系列 | 流式 | 自訂音色 | 指令控制 |
| CosyVoice | 支援 | 不支援 | 不支援 |
| CosyVoice | 支援 | 不支援 | 不支援 |
| CosyVoice | 支援 | 不支援 | 不支援 |
| CosyVoice | 支援 | 不支援 | 不支援 |
| CosyVoice | 支援 | 不支援 | 不支援 |
| Qwen3-TTS | 支援 | 不支援 | 不支援 |
| Qwen3-TTS | 支援 | 不支援 | 不支援 |
| Qwen3-TTS | 支援 | 不支援 | 不支援 |
| Qwen3-TTS | 支援 | 不支援 | 不支援 |
| Qwen3-TTS | 支援 | 不支援 | 不支援 |
| Qwen3-TTS | 支援 | 不支援 | 不支援 |
| Qwen3-TTS | 支援 | 不支援 | 支援 |
| Qwen3-TTS | 支援 | 不支援 | 支援 |
| Qwen3-TTS | 支援 | 不支援 | 支援 |
| Qwen3-TTS | 支援 | 不支援 | 支援 |
| 聲音複製 | 不支援 | 支援 | 不支援 |
| 聲音複製 | 支援 | 支援 | 不支援 |
| 聲音複製 | 支援 | 支援 | 不支援 |
| 聲音設計 | 不支援 | 支援 | 不支援 |
| 聲音設計 | 支援 | 支援 | 不支援 |
| 聲音設計 | 支援 | 支援 | 不支援 |
| Qwen-TTS(舊版) | 不支援(整段輸出) | 不支援 | 不支援 |
| Qwen-TTS(舊版) | 不支援(整段輸出) | 不支援 | 不支援 |
| Qwen-TTS(舊版) | 不支援(整段輸出) | 不支援 | 不支援 |
| Qwen-TTS(舊版) | 不支援(整段輸出) | 不支援 | 不支援 |
| Qwen-TTS(舊版) | 支援 | 不支援 | 不支援 |
| Qwen-TTS(舊版) | 支援 | 不支援 | 不支援 |
| Qwen-TTS(舊版) | 支援 | 不支援 | 不支援 |
| 聲音服務 | 不適用 | 支援(音色註冊) | 不支援 |
| 聲音服務 | 不適用 | 支援(音色設計) | 不支援 |
舊版模型(Qwen-TTS,按 Token 計費)
以下為按 Token 計費的舊版 Qwen-TTS 模型,接入方式分為 HTTP 與 WebSocket。若您已遷移到 Qwen3-TTS,可優先使用前文標準語音合成中的模型。
國際
模型 | 接入方式 | 說明 |
| HTTP | 非流式合成,按 Token 計費 |
| HTTP | 非流式合成,按 Token 計費 |
| HTTP | 快照版本,按 Token 計費 |
| HTTP | 快照版本,按 Token 計費 |
| WebSocket | 流式合成,按 Token 計費 |
| WebSocket | 流式合成,按 Token 計費 |
| WebSocket | 快照版本,流式合成,按 Token 計費 |