全部產品
Search
文件中心

Alibaba Cloud Model Studio:語音合成模型

更新時間:Apr 22, 2026

選擇適合語音合成、聲音複製和聲音設計情境的模型。

以下列出語音合成、聲音服務及舊版按 Token 計費等系列模型,可按情境篩選。通過以下兩個問題可以快速縮小選擇範圍:

  1. 您需要自訂音色,還是使用內建音色即可?

  2. 您需要即時資料流式輸出,還是非流式也可以接受?

標準語音合成還是自訂音色?

標準語音合成

使用內建音色,無需額外配置。選擇模型、選擇音色即可開始合成。

國際

模型

系列

核心優勢

cosyvoice-v3-plus

CosyVoice

高品質,豐富的音色庫

cosyvoice-v3-flash

CosyVoice

快速合成

qwen3-tts-flash

Qwen3-TTS

低延遲,高品質

qwen3-tts-flash-2025-11-27

Qwen3-TTS

低延遲,高品質(快照版本)

qwen3-tts-flash-2025-09-18

Qwen3-TTS

低延遲,高品質(快照版本)

qwen3-tts-flash-realtime

Qwen3-TTS

即時資料流式輸出,低延遲

qwen3-tts-flash-realtime-2025-11-27

Qwen3-TTS

即時資料流式輸出,低延遲(快照版本)

qwen3-tts-flash-realtime-2025-09-18

Qwen3-TTS

即時資料流式輸出,低延遲(快照版本)

qwen3-tts-instruct-flash

Qwen3-TTS

指令控制(語速、情緒、風格)

qwen3-tts-instruct-flash-2026-01-26

Qwen3-TTS

指令控制(快照版本)

qwen3-tts-instruct-flash-realtime

Qwen3-TTS

即時資料流式輸出 + 指令控制

qwen3-tts-instruct-flash-realtime-2026-01-22

Qwen3-TTS

即時資料流式輸出 + 指令控制(快照版本)

中國內地

模型

系列

核心優勢

cosyvoice-v3.5-plus

CosyVoice

高品質,音色庫持續更新

cosyvoice-v3.5-flash

CosyVoice

快速合成

cosyvoice-v3-plus

CosyVoice

高品質,豐富的音色庫

cosyvoice-v3-flash

CosyVoice

快速合成

cosyvoice-v2

CosyVoice

上一代高品質合成

cosyvoice-v1

CosyVoice

上一代基礎合成

qwen3-tts-flash

Qwen3-TTS

低延遲,高品質

qwen3-tts-flash-2025-11-27

Qwen3-TTS

低延遲,高品質(快照版本)

qwen3-tts-flash-2025-09-18

Qwen3-TTS

低延遲,高品質(快照版本)

qwen3-tts-flash-realtime

Qwen3-TTS

即時資料流式輸出,低延遲

qwen3-tts-flash-realtime-2025-11-27

Qwen3-TTS

即時資料流式輸出,低延遲(快照版本)

qwen3-tts-flash-realtime-2025-09-18

Qwen3-TTS

即時資料流式輸出,低延遲(快照版本)

qwen3-tts-instruct-flash

Qwen3-TTS

指令控制(語速、情緒、風格)

qwen3-tts-instruct-flash-2026-01-26

Qwen3-TTS

指令控制(快照版本)

qwen3-tts-instruct-flash-realtime

Qwen3-TTS

即時資料流式輸出 + 指令控制

qwen3-tts-instruct-flash-realtime-2026-01-22

Qwen3-TTS

即時資料流式輸出 + 指令控制(快照版本)

MiniMax/speech-2.8-hd

MiniMax

高音質語音合成

MiniMax/speech-02-hd

MiniMax

高音質語音合成

MiniMax/speech-2.8-turbo

MiniMax

低延遲快速合成

MiniMax/speech-02-turbo

MiniMax

低延遲快速合成

自訂音色

通過複製音頻樣本或文字描述來建立獨特的音色。

國際

模型

系列

核心優勢

qwen3-tts-vc-2026-01-22

Qwen3-TTS

從音頻樣本複製音色

qwen3-tts-vc-realtime-2026-01-15

Qwen3-TTS

即時聲音複製

qwen3-tts-vc-realtime-2025-11-27

Qwen3-TTS

即時聲音複製

qwen3-tts-vd-2026-01-26

Qwen3-TTS

通過文字描述設計音色

qwen3-tts-vd-realtime-2026-01-15

Qwen3-TTS

即時聲音設計

qwen3-tts-vd-realtime-2025-12-16

Qwen3-TTS

即時聲音設計

qwen-voice-enrollment

千問聲音複刻

聲音複刻(音色註冊與管理)

qwen-voice-design

千問聲音設計

聲音設計(文本驅動建立音色)

說明

複製與設計的區別:聲音複製是從音頻樣本中複製特定音色。聲音設計是通過文字描述建立全新音色(例如"溫暖的低音女聲")。已有目標音色時用複製,想從零建立時用設計。

控制語音表現

三種方式,按靈活性排序:

  1. 指令控制qwen3-tts-instruct-flashqwen3-tts-instruct-flash-realtime):用自然語言描述期望的表達方式,可按請求控制語速、情緒和風格,靈活性最高。

  2. 聲音設計qwen3-tts-vd-*):通過文字描述產生自訂音色。適用於無需音頻樣本即可建立品牌音色的情境。

  3. 聲音複製qwen3-tts-vc-*):從音頻樣本複製已有音色。適用於需要還原特定人物音色的情境。

完整對比

模型

系列

流式

自訂音色

指令控制

cosyvoice-v3.5-plus

CosyVoice

支援

不支援

不支援

cosyvoice-v3.5-flash

CosyVoice

支援

不支援

不支援

cosyvoice-v3-plus

CosyVoice

支援

不支援

不支援

cosyvoice-v3-flash

CosyVoice

支援

不支援

不支援

cosyvoice-v2

CosyVoice

支援

不支援

不支援

qwen3-tts-flash

Qwen3-TTS

支援

不支援

不支援

qwen3-tts-flash-2025-11-27

Qwen3-TTS

支援

不支援

不支援

qwen3-tts-flash-2025-09-18

Qwen3-TTS

支援

不支援

不支援

qwen3-tts-flash-realtime

Qwen3-TTS

支援

不支援

不支援

qwen3-tts-flash-realtime-2025-11-27

Qwen3-TTS

支援

不支援

不支援

qwen3-tts-flash-realtime-2025-09-18

Qwen3-TTS

支援

不支援

不支援

qwen3-tts-instruct-flash

Qwen3-TTS

支援

不支援

支援

qwen3-tts-instruct-flash-2026-01-26

Qwen3-TTS

支援

不支援

支援

qwen3-tts-instruct-flash-realtime

Qwen3-TTS

支援

不支援

支援

qwen3-tts-instruct-flash-realtime-2026-01-22

Qwen3-TTS

支援

不支援

支援

qwen3-tts-vc-2026-01-22

聲音複製

不支援

支援

不支援

qwen3-tts-vc-realtime-2026-01-15

聲音複製

支援

支援

不支援

qwen3-tts-vc-realtime-2025-11-27

聲音複製

支援

支援

不支援

qwen3-tts-vd-2026-01-26

聲音設計

不支援

支援

不支援

qwen3-tts-vd-realtime-2026-01-15

聲音設計

支援

支援

不支援

qwen3-tts-vd-realtime-2025-12-16

聲音設計

支援

支援

不支援

qwen-tts

Qwen-TTS(舊版)

不支援(整段輸出)

不支援

不支援

qwen-tts-latest

Qwen-TTS(舊版)

不支援(整段輸出)

不支援

不支援

qwen-tts-2025-05-22

Qwen-TTS(舊版)

不支援(整段輸出)

不支援

不支援

qwen-tts-2025-04-10

Qwen-TTS(舊版)

不支援(整段輸出)

不支援

不支援

qwen-tts-realtime

Qwen-TTS(舊版)

支援

不支援

不支援

qwen-tts-realtime-latest

Qwen-TTS(舊版)

支援

不支援

不支援

qwen-tts-realtime-2025-07-15

Qwen-TTS(舊版)

支援

不支援

不支援

qwen-voice-enrollment

聲音服務

不適用

支援(音色註冊)

不支援

qwen-voice-design

聲音服務

不適用

支援(音色設計)

不支援

舊版模型(Qwen-TTS,按 Token 計費)

以下為按 Token 計費的舊版 Qwen-TTS 模型,接入方式分為 HTTP 與 WebSocket。若您已遷移到 Qwen3-TTS,可優先使用前文標準語音合成中的模型。

國際

模型

接入方式

說明

qwen-tts

HTTP

非流式合成,按 Token 計費

qwen-tts-latest

HTTP

非流式合成,按 Token 計費

qwen-tts-2025-05-22

HTTP

快照版本,按 Token 計費

qwen-tts-2025-04-10

HTTP

快照版本,按 Token 計費

qwen-tts-realtime

WebSocket

流式合成,按 Token 計費

qwen-tts-realtime-latest

WebSocket

流式合成,按 Token 計費

qwen-tts-realtime-2025-07-15

WebSocket

快照版本,流式合成,按 Token 計費