語音合成,又稱文本轉語音(Text-to-Speech,TTS),是將文本轉換為自然語音的技術。該技術基於機器學習演算法,通過學習大量語音樣本,掌握語言的韻律、語調和發音規則,從而在接收到文本輸入時產生真人般自然的語音內容。
核心功能
-
即時產生高保真語音,支援中英等多語種自然發聲
-
提供聲音複刻能力,快速定製個人化音色
-
支援流式輸入輸出,低延遲響應即時互動情境
-
可調節語速、語調、音量與碼率,精細控制語音表現
-
相容主流音頻格式,最高支援48kHz採樣率輸出
適用範圍
支援的模型:
國際
在國際部署模式下,存取點與資料存放區均位於新加坡地區,模型推理計算資源在全球範圍內動態調度(不含中國內地)。
調用以下模型時,請選擇新加坡地區的API Key:
-
CosyVoice:cosyvoice-v3-plus、cosyvoice-v3-flash
中國內地
在中國內地部署模式下,存取點與資料存放區均位於北京地區,模型推理計算資源僅限於中國內地。
調用以下模型時,請選擇北京地區的API Key:
-
CosyVoice:cosyvoice-v3-plus、cosyvoice-v3-flash、cosyvoice-v2
更多資訊請參見模型列表
模型選型
|
情境 |
推薦模型 |
理由 |
注意事項 |
|
品牌形象語音定製/個人化語音複製服務 |
cosyvoice-v3-plus |
聲音複刻能力最強,支援48kHz高音質輸出,高音質+聲音複刻,打造擬人化品牌聲紋 |
成本較高($0.286706/萬字元),建議用於核心情境 |
|
智能客服 / 語音助手 |
cosyvoice-v3-flash |
成本最低($0.14335/萬字元),支援流式互動、情感表達,響應快,性價比高 |
|
|
方言廣播系統 |
cosyvoice-v3-flash、cosyvoice-v3-plus |
支援東北話、閩南語等多種方言,適合地方內容播報 |
cosyvoice-v3-plus成本較高($0.286706/萬字元) |
|
教育類應用(含公式朗讀) |
cosyvoice-v2、cosyvoice-v3-flash、cosyvoice-v3-plus |
支援LaTeX公式轉語音,適合數理化課程講解 |
cosyvoice-v2和cosyvoice-v3-plus成本較高($0.286706/萬字元) |
|
結構化語音播報(新聞/公告) |
cosyvoice-v3-plus、cosyvoice-v3-flash、cosyvoice-v2 |
支援SSML控制語速、停頓、發音等,提升播報專業度 |
需額外開發 SSML 產生邏輯,不支援設定情感 |
|
語音與文本精準對齊(如字幕產生、教學回放、聽寫訓練) |
cosyvoice-v3-flash、cosyvoice-v3-plus、cosyvoice-v2 |
支援時間戳記輸出,可實現合成語音與原文同步 |
需顯式啟用時間戳記功能,預設關閉 |
|
多語言出海產品 |
cosyvoice-v3-flash、cosyvoice-v3-plus |
支援多語種 |
Sambert不支援流式輸入,價格高於cosyvoice-v3-flash |
不同地區和模型的能力存在差異,請仔細閱讀模型功能特性對比後再選擇使用
快速開始
下面是調用API的範例程式碼。更多常用情境的程式碼範例,請參見GitHub。
您需要已擷取API Key與API Host並配置API Key到環境變數(準備下線,併入配置 API Key)。如果通過SDK調用,還需要安裝DashScope SDK。請將範例程式碼中的 DASHSCOPE_API_HOST 替換為擷取的 API Host。
|
CosyVoice 將合成音頻儲存為檔案Python
Java將LLM產生的文本即時轉成語音並通過擴音器播放以下代碼展示通過本地裝置播放千問大語言模型(qwen-turbo)即時返回的常值內容。 Python運行Python樣本前,需要通過pip安裝第三方音頻播放庫。
Java
|
API參考
模型功能特性對比
國際
在國際部署模式下,存取點與資料存放區均位於新加坡地區,模型推理計算資源在全球範圍內動態調度(不含中國內地)。
|
功能/特性 |
cosyvoice-v3-plus |
cosyvoice-v3-flash |
|
支援語言 |
因系統音色而異:中文(普通話、東北話、閩南話、陝西話)、英文、日語、韓語 |
因系統音色而異:中文(普通話)、英文 |
|
音頻格式 |
pcm、wav、mp3、opus |
|
|
音頻採樣率 |
8kHz、16kHz、22.05kHz、24kHz、44.1kHz、48kHz |
|
|
聲音複刻 |
|
|
|
SSML |
該功能適用於複刻音色,以及音色列表中已標記為支援 SSML 的系統音色 使用方法請參見SSML標記語言介紹 |
|
|
LaTeX |
使用方法請參見LaTeX 方程式轉語音 |
|
|
音量大小 |
使用方法請參見請求參數
|
|
|
語速調節 |
使用方法請參見請求參數
在 Java SDK 中,該參數為
|
|
|
語調(音高)調節 |
使用方法請參見請求參數
在 Java SDK 中,該參數為
|
|
|
碼率調節 |
僅opus格式音頻支援該功能 使用方法請參見請求參數
在 Java SDK 中,該參數為
|
|
|
時間戳記 |
預設關閉,可開啟 該功能適用於複刻音色,以及音色列表中已標記為支援時間戳記的系統音色 使用方法請參見請求參數
在 Java SDK 中,該參數為
|
|
|
指令控制(Instruct) |
該功能適用於複刻音色,以及音色列表中已標記為支援 Instruct 的系統音色 使用方法請參見請求參數
|
|
|
流式輸入 |
|
|
|
流式輸出 |
|
|
|
限流(RPS) |
3 |
|
|
接入方式 |
Java/Python SDK、WebSocket API |
|
|
價格 |
$0.26/萬字元 |
$0.13/萬字元 |
中國內地
在中國內地部署模式下,存取點與資料存放區均位於北京地區,模型推理計算資源僅限於中國內地。
|
功能/特性 |
cosyvoice-v3-plus |
cosyvoice-v3-flash |
cosyvoice-v2 |
|
支援語言 |
系統音色(因音色而異):中文(普通話、東北話、閩南話、陝西話)、英文、日語、韓語 複刻音色:中文(普通話、廣東話、東北話、甘肅話、貴州話、河南話、湖北話、江西話、閩南話、寧夏話、山西話、陝西話、山東話、上海話、四川話、天津話、雲南話)、英文、法語、德語、日語、韓語、俄語 |
系統音色(因音色而異):中文(普通話)、英文 複刻音色:中文(普通話、廣東話、東北話、甘肅話、貴州話、河南話、湖北話、江西話、閩南話、寧夏話、山西話、陝西話、山東話、上海話、四川話、天津話、雲南話)、英文、法語、德語、日語、韓語、俄語 |
系統音色(因音色而異):中文(普通話)、英文、韓語、日語 複刻音色:中文(普通話)、英文 |
|
音頻格式 |
pcm、wav、mp3、opus |
||
|
音頻採樣率 |
8kHz、16kHz、22.05kHz、24kHz、44.1kHz、48kHz |
||
|
聲音複刻 |
使用方法請參見CosyVoice聲音複刻API 聲音複刻支援的語言如下: cosyvoice-v2:中文(普通話)、英文 cosyvoice-v3-flash、cosyvoice-v3-plus:中文(普通話、廣東話、東北話、甘肅話、貴州話、河南話、湖北話、江西話、閩南話、寧夏話、山西話、陝西話、山東話、上海話、四川話、天津話、雲南話)、英文、法語、德語、日語、韓語、俄語 |
||
|
SSML |
該功能適用於複刻音色,以及音色列表中已標記為支援 SSML 的系統音色 使用方法請參見SSML標記語言介紹 |
||
|
LaTeX |
使用方法請參見LaTeX 方程式轉語音 |
||
|
音量大小 |
使用方法請參見請求參數
|
||
|
語速調節 |
使用方法請參見請求參數
在 Java SDK 中,該參數為
|
||
|
語調(音高)調節 |
使用方法請參見請求參數
在 Java SDK 中,該參數為
|
||
|
碼率調節 |
僅opus格式音頻支援該功能 使用方法請參見請求參數
在 Java SDK 中,該參數為
|
||
|
時間戳記 |
預設關閉,可開啟 該功能適用於複刻音色,以及音色列表中已標記為支援時間戳記的系統音色 使用方法請參見請求參數
在 Java SDK 中,該參數為
|
||
|
指令控制(Instruct) |
該功能適用於複刻音色,以及音色列表中已標記為支援 Instruct 的系統音色 使用方法請參見請求參數
|
|
|
|
流式輸入 |
|
||
|
流式輸出 |
|
||
|
限流(RPS) |
3 |
||
|
接入方式 |
Java/Python SDK、WebSocket API |
||
|
價格 |
$0.286706/萬字元 |
$0.14335/萬字元 |
$0.286706/萬字元 |
支援的系統音色
常見問題
Q:語音合成的發音讀錯怎麼辦?多音字如何控制發音?
-
將多音字替換成同音的其他漢字,快速解決發音問題。
-
使用SSML標記語言控制發音。
Q:使用複刻音色產生的音頻無聲音如何排查?
-
確認音色狀態
調用查詢指定音色介面,查看音色
status是否為OK。 -
檢查模型版本一致性
確保複刻音色時使用的
target_model參數與語音合成時的model參數完全一致。例如:-
複刻時使用
cosyvoice-v3-plus -
合成時也必須使用
cosyvoice-v3-plus
-
-
驗證源音頻品質
檢查複刻音色時使用的源音頻是否符合音頻要求:
-
音頻時間長度:10-20秒
-
音質清晰
-
無背景雜音
-
-
檢查請求參數
確認語音合成時請求參數
voice設定為複刻音色的ID。
Q:聲音複刻後合成效果不穩定或語音不完整如何處理?
如果複刻音色後合成的語音出現以下問題:
-
語音播放不完整,唯讀出部分文字
-
合成效果不穩定,時好時壞
-
語音中包含異常停頓或靜音段
可能原因:源音頻品質不符合要求
解決方案:檢查源音頻是否符合如下要求,建議按照錄音操作指南重新錄製
-
檢查音頻連續性:確保源音頻中語音內容連續,避免長時間停頓或靜音段(超過2秒)。如果音頻中存在明顯的空白段,會導致模型將靜音或雜訊作為音色特徵的一部分,影響產生效果
-
檢查語音活動比例:確保有效語音占音頻總時間長度的60%以上。如果背景雜訊、非語音段過多,會干擾音色特徵提取
-
驗證音頻品質細節:
-
音頻時間長度:10-20秒(推薦15秒左右)
-
發音清晰,語速平穩
-
無背景雜音、迴音、雜音
-
語音能量集中,無長時間靜音段
-