語音合成模型 - Alibaba Cloud Model Studio

選擇適合語音合成、聲音複製和聲音設計情境的模型。

以下列出語音合成、聲音服務及舊版按 Token 計費等系列模型，可按情境篩選。通過以下兩個問題可以快速縮小選擇範圍：

您需要自訂音色，還是使用內建音色即可？
您需要即時資料流式輸出，還是非流式也可以接受？

標準語音合成還是自訂音色？

標準語音合成

使用內建音色，無需額外配置。選擇模型、選擇音色即可開始合成。

國際

模型	系列	核心優勢
`cosyvoice-v3-plus`	CosyVoice	高品質，豐富的音色庫
`cosyvoice-v3-flash`	CosyVoice	快速合成
`qwen3-tts-flash`	Qwen3-TTS	低延遲，高品質
`qwen3-tts-flash-2025-11-27`	Qwen3-TTS	低延遲，高品質（快照版本）
`qwen3-tts-flash-2025-09-18`	Qwen3-TTS	低延遲，高品質（快照版本）
`qwen3-tts-flash-realtime`	Qwen3-TTS	即時資料流式輸出，低延遲
`qwen3-tts-flash-realtime-2025-11-27`	Qwen3-TTS	即時資料流式輸出，低延遲（快照版本）
`qwen3-tts-flash-realtime-2025-09-18`	Qwen3-TTS	即時資料流式輸出，低延遲（快照版本）
`qwen3-tts-instruct-flash`	Qwen3-TTS	指令控制（語速、情緒、風格）
`qwen3-tts-instruct-flash-2026-01-26`	Qwen3-TTS	指令控制（快照版本）
`qwen3-tts-instruct-flash-realtime`	Qwen3-TTS	即時資料流式輸出 + 指令控制
`qwen3-tts-instruct-flash-realtime-2026-01-22`	Qwen3-TTS	即時資料流式輸出 + 指令控制（快照版本）

中國內地

模型	系列	核心優勢
`cosyvoice-v3.5-plus`	CosyVoice	高品質，音色庫持續更新
`cosyvoice-v3.5-flash`	CosyVoice	快速合成
`cosyvoice-v3-plus`	CosyVoice	高品質，豐富的音色庫
`cosyvoice-v3-flash`	CosyVoice	快速合成
`cosyvoice-v2`	CosyVoice	上一代高品質合成
`cosyvoice-v1`	CosyVoice	上一代基礎合成
`qwen3-tts-flash`	Qwen3-TTS	低延遲，高品質
`qwen3-tts-flash-2025-11-27`	Qwen3-TTS	低延遲，高品質（快照版本）
`qwen3-tts-flash-2025-09-18`	Qwen3-TTS	低延遲，高品質（快照版本）
`qwen3-tts-flash-realtime`	Qwen3-TTS	即時資料流式輸出，低延遲
`qwen3-tts-flash-realtime-2025-11-27`	Qwen3-TTS	即時資料流式輸出，低延遲（快照版本）
`qwen3-tts-flash-realtime-2025-09-18`	Qwen3-TTS	即時資料流式輸出，低延遲（快照版本）
`qwen3-tts-instruct-flash`	Qwen3-TTS	指令控制（語速、情緒、風格）
`qwen3-tts-instruct-flash-2026-01-26`	Qwen3-TTS	指令控制（快照版本）
`qwen3-tts-instruct-flash-realtime`	Qwen3-TTS	即時資料流式輸出 + 指令控制
`qwen3-tts-instruct-flash-realtime-2026-01-22`	Qwen3-TTS	即時資料流式輸出 + 指令控制（快照版本）
`MiniMax/speech-2.8-hd`	MiniMax	高音質語音合成
`MiniMax/speech-02-hd`	MiniMax	高音質語音合成
`MiniMax/speech-2.8-turbo`	MiniMax	低延遲快速合成
`MiniMax/speech-02-turbo`	MiniMax	低延遲快速合成

自訂音色

通過複製音頻樣本或文字描述來建立獨特的音色。

國際

模型	系列	核心優勢
`qwen3-tts-vc-2026-01-22`	Qwen3-TTS	從音頻樣本複製音色
`qwen3-tts-vc-realtime-2026-01-15`	Qwen3-TTS	即時聲音複製
`qwen3-tts-vc-realtime-2025-11-27`	Qwen3-TTS	即時聲音複製
`qwen3-tts-vd-2026-01-26`	Qwen3-TTS	通過文字描述設計音色
`qwen3-tts-vd-realtime-2026-01-15`	Qwen3-TTS	即時聲音設計
`qwen3-tts-vd-realtime-2025-12-16`	Qwen3-TTS	即時聲音設計
`qwen-voice-enrollment`	千問聲音複刻	聲音複刻（音色註冊與管理）
`qwen-voice-design`	千問聲音設計	聲音設計（文本驅動建立音色）

說明

複製與設計的區別：聲音複製是從音頻樣本中複製特定音色。聲音設計是通過文字描述建立全新音色（例如"溫暖的低音女聲"）。已有目標音色時用複製，想從零建立時用設計。

控制語音表現

三種方式，按靈活性排序：

指令控制（qwen3-tts-instruct-flash、qwen3-tts-instruct-flash-realtime）：用自然語言描述期望的表達方式，可按請求控制語速、情緒和風格，靈活性最高。
聲音設計（qwen3-tts-vd-*）：通過文字描述產生自訂音色。適用於無需音頻樣本即可建立品牌音色的情境。
聲音複製（qwen3-tts-vc-*）：從音頻樣本複製已有音色。適用於需要還原特定人物音色的情境。

完整對比

模型	系列	流式	自訂音色	指令控制
`cosyvoice-v3.5-plus`	CosyVoice	支援	不支援	不支援
`cosyvoice-v3.5-flash`	CosyVoice	支援	不支援	不支援
`cosyvoice-v3-plus`	CosyVoice	支援	不支援	不支援
`cosyvoice-v3-flash`	CosyVoice	支援	不支援	不支援
`cosyvoice-v2`	CosyVoice	支援	不支援	不支援
`qwen3-tts-flash`	Qwen3-TTS	支援	不支援	不支援
`qwen3-tts-flash-2025-11-27`	Qwen3-TTS	支援	不支援	不支援
`qwen3-tts-flash-2025-09-18`	Qwen3-TTS	支援	不支援	不支援
`qwen3-tts-flash-realtime`	Qwen3-TTS	支援	不支援	不支援
`qwen3-tts-flash-realtime-2025-11-27`	Qwen3-TTS	支援	不支援	不支援
`qwen3-tts-flash-realtime-2025-09-18`	Qwen3-TTS	支援	不支援	不支援
`qwen3-tts-instruct-flash`	Qwen3-TTS	支援	不支援	支援
`qwen3-tts-instruct-flash-2026-01-26`	Qwen3-TTS	支援	不支援	支援
`qwen3-tts-instruct-flash-realtime`	Qwen3-TTS	支援	不支援	支援
`qwen3-tts-instruct-flash-realtime-2026-01-22`	Qwen3-TTS	支援	不支援	支援
`qwen3-tts-vc-2026-01-22`	聲音複製	不支援	支援	不支援
`qwen3-tts-vc-realtime-2026-01-15`	聲音複製	支援	支援	不支援
`qwen3-tts-vc-realtime-2025-11-27`	聲音複製	支援	支援	不支援
`qwen3-tts-vd-2026-01-26`	聲音設計	不支援	支援	不支援
`qwen3-tts-vd-realtime-2026-01-15`	聲音設計	支援	支援	不支援
`qwen3-tts-vd-realtime-2025-12-16`	聲音設計	支援	支援	不支援
`qwen-tts`	Qwen-TTS（舊版）	不支援（整段輸出）	不支援	不支援
`qwen-tts-latest`	Qwen-TTS（舊版）	不支援（整段輸出）	不支援	不支援
`qwen-tts-2025-05-22`	Qwen-TTS（舊版）	不支援（整段輸出）	不支援	不支援
`qwen-tts-2025-04-10`	Qwen-TTS（舊版）	不支援（整段輸出）	不支援	不支援
`qwen-tts-realtime`	Qwen-TTS（舊版）	支援	不支援	不支援
`qwen-tts-realtime-latest`	Qwen-TTS（舊版）	支援	不支援	不支援
`qwen-tts-realtime-2025-07-15`	Qwen-TTS（舊版）	支援	不支援	不支援
`qwen-voice-enrollment`	聲音服務	不適用	支援（音色註冊）	不支援
`qwen-voice-design`	聲音服務	不適用	支援（音色設計）	不支援

舊版模型（Qwen-TTS，按 Token 計費）

以下為按 Token 計費的舊版 Qwen-TTS 模型，接入方式分為 HTTP 與 WebSocket。若您已遷移到 Qwen3-TTS，可優先使用前文標準語音合成中的模型。

國際

模型	接入方式	說明
`qwen-tts`	HTTP	非流式合成，按 Token 計費
`qwen-tts-latest`	HTTP	非流式合成，按 Token 計費
`qwen-tts-2025-05-22`	HTTP	快照版本，按 Token 計費
`qwen-tts-2025-04-10`	HTTP	快照版本，按 Token 計費
`qwen-tts-realtime`	WebSocket	流式合成，按 Token 計費
`qwen-tts-realtime-latest`	WebSocket	流式合成，按 Token 計費
`qwen-tts-realtime-2025-07-15`	WebSocket	快照版本，流式合成，按 Token 計費