部署CosyVoice2.0 WebUI服務後產生音頻-人工智慧平台 PAI-阿里雲

CosyVoice2.0是阿里巴巴達摩院自研的新一代高保真語音合成模型，具備語音複製功能，僅需30秒以內的Prompt音頻即可複製目標音色，支援跨語種複刻。適用於客服對話、有聲書朗讀、短視頻配音等多種情境。阿里雲PAI-EAS基於該模型封裝並整合了可視化WebUI介面，可快速部署雲端語音推理服務。本文為您介紹如何在PAI-EAS平台部署CosyVoice2.0服務，並通過推理服務產生音頻。

背景資訊

CosyVoice2.0旨在打造自然親切、富有情感的AI聲音。基於大規模語音語料訓練與精細的韻律建模，CosyVoice2.0實現了媲美真人主播的聲音表現力。無論是客戶服務中的貼心問候，還是有聲內容的深情朗讀，CosyVoice2.0都能產生溫暖自然的語音，打破冰冷的合成感，為您帶來更具情感溫度的聽覺體驗。

CosyVoice2.0具有以下優勢：

聲音自然親切：遠離機器味，類比人類語音的節奏、情感與韻律。
多情境適配：支援客服對話、有聲書朗讀、短視頻配音、電商語音推薦等。
高效率低延遲：輕量雲端部署，快速產生流暢語音。
高度可控性：支援語調調節、情感控制、角色定製，打造專屬品牌音色。

本文部署的CosyVoice2.0 WebUI服務僅供體驗使用。您也可以使用CosyVoice2.0的高並發版本進行高效能推理，詳情請參見快速部署Frontend/Backend分離式高效能服務。

使用限制

目前，推理模式暫不支援使用預訓練音色。

計費說明

部署CosyVoice 2.0鏡像服務時，僅收取資源費用和系統硬碟費用。如您不再使用該服務，請及時在目標服務操作列下單擊停止，以停止服務，避免產生不必要的費用。更多計費詳情請參見模型線上服務（EAS）計費說明。

部署CosyVoice2.0服務

方式一：情境化部署（推薦）

登入PAI控制台，在頁面上方選擇目標地區，並在右側選擇目標工作空間，然後單擊進入EAS。
在推理服務頁簽，單擊部署服務，然後在情境化模型部署地區，單擊AI語音產生-CosyVoice部署。

配置以下關鍵參數：

參數		描述
基本資料	版本選擇	選擇標準版。
環境資訊	鏡像版本	根據資源類型選擇對應鏡像。本文選擇`cosyvoice-webui:0.2.0-pytorch2.3.1-gpu-py310-cu128-ubuntu22.04`。說明由於版本迭代迅速，部署時鏡像版本選擇最高版本即可。
	運行命令	選擇鏡像版本後，系統會自動設定運行命令`/bin/bash /tmp/entry.sh --action=start_webui --port=9000 --data_dir=/mnt/data/ --model_dir=/nasmnt/models/pretrained_models/CosyVoice2-0.5B/ --ttsfrd_dir=/nasmnt/models/pretrained_models/CosyVoice-ttsfrd/ --workers 1`，其中： --port：服務連接埠號碼，與EAS服務配置的連接埠號碼保持一致。 --data_dir：掛載目錄，儲存參考音頻和模型。預設為`/mnt/data`。如進行了儲存掛載，需與儲存掛載中設定的掛載路徑一致。 --model_dir：模型載入目錄。還支援以下參數： --gpu_memory_utilization：設定GPU記憶體利用率上限。
	連接埠號碼	選擇鏡像版本後，系統會自動設定連接埠號碼`9000`，無需修改。
資源資訊	資源類型	本方案選擇公用資源。您也可以按需選擇其他資源類型。
	執行個體數	本方案配置為1。
	部署資源	資源規格必須選擇GPU機型，例如`ecs.gn8is.4xlarge`、`ml.gu8is.c16m128.1-gu60`。
	配置系統硬碟	由於鏡像檔案較大，為避免因儲存空間不足導致服務部署失敗，建議將系統硬碟配置為100 GiB。如果未手動設定，EAS後端將預設為CosyVoice2.0情境分配100 GiB的儲存空間。
网络信息	專用網路配置	可選。當需要通過VPC高速直連訪問服務，或為服務配置公網訪問時，需配置專用網路。請在下拉式清單中分別選擇專用網路、交換器和安全性群組。如何建立，請參見建立和管理專用網路和管理安全性群組。

參數配置完成後，單擊部署。
因拉取鏡像較慢，大概需要持續5~10分鐘左右。當服務狀態為運行中時，表明服務部署成功。

方式二：自訂部署

登入PAI控制台，在頁面上方選擇目標地區，並在右側選擇目標工作空間，然後單擊進入EAS。
在推理服務頁簽，單擊部署服務，然後在自訂模型部署地區，單擊自訂部署。

在自訂部署頁面，配置以下關鍵參數，其他參數配置說明，請參見自訂部署。

參數		描述
環境資訊	部署方式	選擇鏡像部署，並勾選開啟Web應用。
	鏡像配置	在官方鏡像列表中選擇cosyvoice-webui > cosyvoice-webui:0.2.0-pytorch2.3.1-gpu-py310-cu128-ubuntu22.04。說明由於版本迭代迅速，部署時鏡像版本選擇最高版本即可。
	運行命令	選擇鏡像後，系統會自動設定運行命令`/bin/bash /tmp/entry.sh --action=start_webui --port=9000 --data_dir=/mnt/data/ --model_dir=/nasmnt/models/pretrained_models/CosyVoice2-0.5B/ --ttsfrd_dir=/nasmnt/models/pretrained_models/CosyVoice-ttsfrd/ --workers 1`，其中： --port：服務連接埠號碼，與EAS服務配置的連接埠號碼保持一致。 --data_dir：掛載目錄，儲存參考音頻和模型。預設為`/mnt/data`。如進行了儲存掛載，需與儲存掛載中設定的掛載路徑一致。 --model_dir：模型載入目錄。 --workers：設定內建的Frontend服務Worker數。未指定時，系統根據使用的資源規格自動設定。如需通過瀏覽器訪問WebUI頁面, 必須設定 `--workers 1`。還支援以下參數： --gpu_memory_utilization：設定GPU記憶體利用率上限。
	連接埠號碼	選擇鏡像後，系統會自動設定連接埠號碼`9000`，無需修改。
資源資訊	資源類型	本方案選擇公用資源。您也可以按需選擇其他資源類型。
	執行個體數	本方案配置為1。
	部署資源	資源規格必須選擇GPU機型，例如`ecs.gn8is.4xlarge`、`ml.gu8is.c16m128.1-gu60`。
	配置系統硬碟	由於鏡像檔案較大，為避免因儲存空間不足導致服務部署失敗，建議將系統硬碟配置為100 GiB。如果未手動設定，EAS後端將預設為CosyVoice2.0情境分配100 GiB的儲存空間。
网络信息	專用網路配置	可選。當需要通過VPC高速直連訪問服務，或為服務配置公網訪問時，需配置專用網路。請在下拉式清單中分別選擇專用網路、交換器和安全性群組。如何建立，請參見建立和管理專用網路和管理安全性群組。

參數配置完成後，單擊部署。
因拉取鏡像較慢，大概需要持續5~10分鐘左右。當服務狀態為運行中時，表明服務部署成功。

推理服務產生音頻

API調用

通過API調用服務產生音頻。詳情請參見API介面說明。