CosyVoice2.0是阿里巴巴達摩院自研的新一代高保真語音合成模型,具備語音複製功能,僅需30秒以內的Prompt音頻即可複製目標音色,支援跨語種複刻。適用於客服對話、有聲書朗讀、短視頻配音等多種情境。阿里雲PAI-EAS基於該模型封裝並整合了可視化WebUI介面,可快速部署雲端語音推理服務。本文為您介紹如何在PAI-EAS平台部署CosyVoice2.0服務,並通過推理服務產生音頻。
背景資訊
CosyVoice2.0旨在打造自然親切、富有情感的AI聲音。基於大規模語音語料訓練與精細的韻律建模,CosyVoice2.0實現了媲美真人主播的聲音表現力。無論是客戶服務中的貼心問候,還是有聲內容的深情朗讀,CosyVoice2.0都能產生溫暖自然的語音,打破冰冷的合成感,為您帶來更具情感溫度的聽覺體驗。
CosyVoice2.0具有以下優勢:
聲音自然親切:遠離機器味,類比人類語音的節奏、情感與韻律。
多情境適配:支援客服對話、有聲書朗讀、短視頻配音、電商語音推薦等。
高效率低延遲:輕量雲端部署,快速產生流暢語音。
高度可控性:支援語調調節、情感控制、角色定製,打造專屬品牌音色。
本文部署的CosyVoice2.0 WebUI服務僅供體驗使用。您也可以使用CosyVoice2.0的高並發版本進行高效能推理,詳情請參見快速部署Frontend/Backend分離式高效能服務。
使用限制
目前,推理模式暫不支援使用預訓練音色。
計費說明
部署CosyVoice 2.0鏡像服務時,僅收取資源費用和系統硬碟費用。如您不再使用該服務,請及時在目標服務操作列下單擊停止,以停止服務,避免產生不必要的費用。更多計費詳情請參見模型線上服務(EAS)計費說明。
部署CosyVoice2.0服務
方式一:情境化部署(推薦)
登入PAI控制台,在頁面上方選擇目標地區,並在右側選擇目標工作空間,然後單擊進入EAS。
在推理服務頁簽,單擊部署服務,然後在情境化模型部署地區,單擊AI語音產生-CosyVoice部署。
配置以下關鍵參數:
參數
描述
基本資料
版本選擇
選擇標準版。
環境資訊
鏡像版本
根據資源類型選擇對應鏡像。本文選擇
cosyvoice-webui:0.2.0-pytorch2.3.1-gpu-py310-cu128-ubuntu22.04。說明由於版本迭代迅速,部署時鏡像版本選擇最高版本即可。
運行命令
選擇鏡像版本後,系統會自動設定運行命令
/bin/bash /tmp/entry.sh --action=start_webui --port=9000 --data_dir=/mnt/data/ --model_dir=/nasmnt/models/pretrained_models/CosyVoice2-0.5B/ --ttsfrd_dir=/nasmnt/models/pretrained_models/CosyVoice-ttsfrd/ --workers 1,其中:--port:服務連接埠號碼,與EAS服務配置的連接埠號碼保持一致。
--data_dir:掛載目錄,儲存參考音頻和模型。預設為
/mnt/data。如進行了儲存掛載,需與儲存掛載中設定的掛載路徑一致。--model_dir:模型載入目錄。
還支援以下參數:
--gpu_memory_utilization:設定GPU記憶體利用率上限。
連接埠號碼
選擇鏡像版本後,系統會自動設定連接埠號碼
9000,無需修改。資源資訊
資源類型
本方案選擇公用資源。您也可以按需選擇其他資源類型。
執行個體數
本方案配置為1。
部署資源
資源規格必須選擇GPU機型,例如
ecs.gn8is.4xlarge、ml.gu8is.c16m128.1-gu60。配置系統硬碟
由於鏡像檔案較大,為避免因儲存空間不足導致服務部署失敗,建議將系統硬碟配置為100 GiB。
如果未手動設定,EAS後端將預設為CosyVoice2.0情境分配100 GiB的儲存空間。
网络信息
專用網路配置
可選。當需要通過VPC高速直連訪問服務,或為服務配置公網訪問時,需配置專用網路。請在下拉式清單中分別選擇專用網路、交換器和安全性群組。如何建立,請參見建立和管理專用網路和管理安全性群組。
參數配置完成後,單擊部署。
因拉取鏡像較慢,大概需要持續5~10分鐘左右。當服務狀態為運行中時,表明服務部署成功。
方式二:自訂部署
登入PAI控制台,在頁面上方選擇目標地區,並在右側選擇目標工作空間,然後單擊進入EAS。
在推理服務頁簽,單擊部署服務,然後在自訂模型部署地區,單擊自訂部署。
在自訂部署頁面,配置以下關鍵參數,其他參數配置說明,請參見自訂部署。
參數
描述
環境資訊
部署方式
選擇鏡像部署,並勾選開啟Web應用。
鏡像配置
在官方鏡像列表中選擇。
說明由於版本迭代迅速,部署時鏡像版本選擇最高版本即可。
運行命令
選擇鏡像後,系統會自動設定運行命令
/bin/bash /tmp/entry.sh --action=start_webui --port=9000 --data_dir=/mnt/data/ --model_dir=/nasmnt/models/pretrained_models/CosyVoice2-0.5B/ --ttsfrd_dir=/nasmnt/models/pretrained_models/CosyVoice-ttsfrd/ --workers 1,其中:--port:服務連接埠號碼,與EAS服務配置的連接埠號碼保持一致。
--data_dir:掛載目錄,儲存參考音頻和模型。預設為
/mnt/data。如進行了儲存掛載,需與儲存掛載中設定的掛載路徑一致。--model_dir:模型載入目錄。
--workers:設定內建的Frontend服務Worker數。未指定時,系統根據使用的資源規格自動設定。如需通過瀏覽器訪問WebUI頁面, 必須設定
--workers 1。
還支援以下參數:
--gpu_memory_utilization:設定GPU記憶體利用率上限。
連接埠號碼
選擇鏡像後,系統會自動設定連接埠號碼
9000,無需修改。資源資訊
資源類型
本方案選擇公用資源。您也可以按需選擇其他資源類型。
執行個體數
本方案配置為1。
部署資源
資源規格必須選擇GPU機型,例如
ecs.gn8is.4xlarge、ml.gu8is.c16m128.1-gu60。配置系統硬碟
由於鏡像檔案較大,為避免因儲存空間不足導致服務部署失敗,建議將系統硬碟配置為100 GiB。
如果未手動設定,EAS後端將預設為CosyVoice2.0情境分配100 GiB的儲存空間。
网络信息
專用網路配置
可選。當需要通過VPC高速直連訪問服務,或為服務配置公網訪問時,需配置專用網路。請在下拉式清單中分別選擇專用網路、交換器和安全性群組。如何建立,請參見建立和管理專用網路和管理安全性群組。
參數配置完成後,單擊部署。
因拉取鏡像較慢,大概需要持續5~10分鐘左右。當服務狀態為運行中時,表明服務部署成功。
推理服務產生音頻
API調用
通過API調用服務產生音頻。詳情請參見API介面說明。