全部產品
Search
文件中心

Platform For AI:快速部署CosyVoice2.0 WebUI服務

更新時間:Dec 05, 2025

CosyVoice2.0是阿里巴巴達摩院自研的新一代高保真語音合成模型,具備語音複製功能,僅需30秒以內的Prompt音頻即可複製目標音色,支援跨語種複刻。適用於客服對話、有聲書朗讀、短視頻配音等多種情境。阿里雲PAI-EAS基於該模型封裝並整合了可視化WebUI介面,可快速部署雲端語音推理服務。本文為您介紹如何在PAI-EAS平台部署CosyVoice2.0服務,並通過推理服務產生音頻。

背景資訊

CosyVoice2.0旨在打造自然親切、富有情感的AI聲音。基於大規模語音語料訓練與精細的韻律建模,CosyVoice2.0實現了媲美真人主播的聲音表現力。無論是客戶服務中的貼心問候,還是有聲內容的深情朗讀,CosyVoice2.0都能產生溫暖自然的語音,打破冰冷的合成感,為您帶來更具情感溫度的聽覺體驗。

CosyVoice2.0具有以下優勢:

  • 聲音自然親切:遠離機器味,類比人類語音的節奏、情感與韻律。

  • 多情境適配:支援客服對話、有聲書朗讀、短視頻配音、電商語音推薦等。

  • 高效率低延遲:輕量雲端部署,快速產生流暢語音。

  • 高度可控性:支援語調調節、情感控制、角色定製,打造專屬品牌音色。

本文部署的CosyVoice2.0 WebUI服務僅供體驗使用。您也可以使用CosyVoice2.0的高並發版本進行高效能推理,詳情請參見快速部署Frontend/Backend分離式高效能服務

使用限制

目前,推理模式暫不支援使用預訓練音色

計費說明

部署CosyVoice 2.0鏡像服務時,僅收取資源費用和系統硬碟費用。如您不再使用該服務,請及時在目標服務操作列下單擊停止,以停止服務,避免產生不必要的費用。更多計費詳情請參見模型線上服務(EAS)計費說明

部署CosyVoice2.0服務

方式一:情境化部署(推薦)

  1. 登入PAI控制台,在頁面上方選擇目標地區,並在右側選擇目標工作空間,然後單擊進入EAS

  2. 推理服務頁簽,單擊部署服務,然後在情境化模型部署地區,單擊AI語音產生-CosyVoice部署

  3. 配置以下關鍵參數:

    參數

    描述

    基本資料

    版本選擇

    選擇標準版

    環境資訊

    鏡像版本

    根據資源類型選擇對應鏡像。本文選擇cosyvoice-webui:0.2.0-pytorch2.3.1-gpu-py310-cu128-ubuntu22.04

    說明

    由於版本迭代迅速,部署時鏡像版本選擇最高版本即可。

    運行命令

    選擇鏡像版本後,系統會自動設定運行命令/bin/bash /tmp/entry.sh --action=start_webui --port=9000 --data_dir=/mnt/data/ --model_dir=/nasmnt/models/pretrained_models/CosyVoice2-0.5B/ --ttsfrd_dir=/nasmnt/models/pretrained_models/CosyVoice-ttsfrd/ --workers 1,其中:

    • --port:服務連接埠號碼,與EAS服務配置的連接埠號碼保持一致。

    • --data_dir:掛載目錄,儲存參考音頻和模型。預設為/mnt/data。如進行了儲存掛載,需與儲存掛載中設定的掛載路徑一致。

    • --model_dir:模型載入目錄。

    還支援以下參數:

    • --gpu_memory_utilization:設定GPU記憶體利用率上限。

    連接埠號碼

    選擇鏡像版本後,系統會自動設定連接埠號碼9000,無需修改。

    資源資訊

    資源類型

    本方案選擇公用資源。您也可以按需選擇其他資源類型。

    執行個體數

    本方案配置為1。

    部署資源

    資源規格必須選擇GPU機型,例如ecs.gn8is.4xlargeml.gu8is.c16m128.1-gu60

    配置系統硬碟

    由於鏡像檔案較大,為避免因儲存空間不足導致服務部署失敗,建議將系統硬碟配置為100 GiB。

    如果未手動設定,EAS後端將預設為CosyVoice2.0情境分配100 GiB的儲存空間。

    网络信息

    專用網路配置

    可選。當需要通過VPC高速直連訪問服務,或為服務配置公網訪問時,需配置專用網路。請在下拉式清單中分別選擇專用網路、交換器和安全性群組。如何建立,請參見建立和管理專用網路管理安全性群組

  4. 參數配置完成後,單擊部署

    因拉取鏡像較慢,大概需要持續5~10分鐘左右。當服務狀態運行中時,表明服務部署成功。

方式二:自訂部署

  1. 登入PAI控制台,在頁面上方選擇目標地區,並在右側選擇目標工作空間,然後單擊進入EAS

  2. 推理服務頁簽,單擊部署服務,然後在自訂模型部署地區,單擊自訂部署

  3. 自訂部署頁面,配置以下關鍵參數,其他參數配置說明,請參見自訂部署

    參數

    描述

    環境資訊

    部署方式

    選擇鏡像部署,並勾選開啟Web應用

    鏡像配置

    官方鏡像列表中選擇cosyvoice-webui > cosyvoice-webui:0.2.0-pytorch2.3.1-gpu-py310-cu128-ubuntu22.04

    說明

    由於版本迭代迅速,部署時鏡像版本選擇最高版本即可。

    運行命令

    選擇鏡像後,系統會自動設定運行命令/bin/bash /tmp/entry.sh --action=start_webui --port=9000 --data_dir=/mnt/data/ --model_dir=/nasmnt/models/pretrained_models/CosyVoice2-0.5B/ --ttsfrd_dir=/nasmnt/models/pretrained_models/CosyVoice-ttsfrd/ --workers 1,其中:

    • --port:服務連接埠號碼,與EAS服務配置的連接埠號碼保持一致。

    • --data_dir:掛載目錄,儲存參考音頻和模型。預設為/mnt/data。如進行了儲存掛載,需與儲存掛載中設定的掛載路徑一致。

    • --model_dir:模型載入目錄。

    • --workers:設定內建的Frontend服務Worker數。未指定時,系統根據使用的資源規格自動設定。如需通過瀏覽器訪問WebUI頁面, 必須設定 --workers 1

    還支援以下參數:

    • --gpu_memory_utilization:設定GPU記憶體利用率上限。

    連接埠號碼

    選擇鏡像後,系統會自動設定連接埠號碼9000,無需修改。

    資源資訊

    資源類型

    本方案選擇公用資源。您也可以按需選擇其他資源類型。

    執行個體數

    本方案配置為1。

    部署資源

    資源規格必須選擇GPU機型,例如ecs.gn8is.4xlargeml.gu8is.c16m128.1-gu60

    配置系統硬碟

    由於鏡像檔案較大,為避免因儲存空間不足導致服務部署失敗,建議將系統硬碟配置為100 GiB。

    如果未手動設定,EAS後端將預設為CosyVoice2.0情境分配100 GiB的儲存空間。

    网络信息

    專用網路配置

    可選。當需要通過VPC高速直連訪問服務,或為服務配置公網訪問時,需配置專用網路。請在下拉式清單中分別選擇專用網路、交換器和安全性群組。如何建立,請參見建立和管理專用網路管理安全性群組

  4. 參數配置完成後,單擊部署

    因拉取鏡像較慢,大概需要持續5~10分鐘左右。當服務狀態運行中時,表明服務部署成功。

推理服務產生音頻

API調用

通過API調用服務產生音頻。詳情請參見API介面說明