CosyVoice用戶端事件 - Alibaba Cloud Model Studio

使用者指南：關於模型介紹和選型建議請參見語音合成。

run-task

說明：啟動語音合成任務，設定模型、音色、採樣率等參數。

發送時機：建立 WebSocket 串連後立即發送。

響應事件：服務端返回 task-started 事件後才能發送後續指令。

header object （必選）

屬性

action string （必選）

指令類型，固定為 run-task。

task_id string （必選）

用戶端產生的任務 ID（UUID 格式），用於關聯後續事件。和後續 continue-task、finish-task 中的 task_id 保持一致。

streaming string （必選）

固定為 duplex

{
    "header": {
        "action": "run-task",
        "task_id": "2bf83b9a-baeb-4fda-8d9a-xxxxxxxxxxxx",
        "streaming": "duplex"
    },
    "payload": {
        "task_group": "audio",
        "task": "tts",
        "function": "SpeechSynthesizer",
        "model": "cosyvoice-v3-flash",
        "parameters": {
            "text_type": "PlainText",
            "voice": "longanyang",
            "format": "mp3",
            "sample_rate": 22050,
            "volume": 50,
            "rate": 1.0,
            "pitch": 1.0,
            "enable_ssml": false
        },
        "input": {}
    }
}

payload object （必選）

屬性

task_group string （必選）

工作群組，固定為 audio。

task string （必選）

任務類型，固定為 tts。

function string （必選）

功能類型，固定為 SpeechSynthesizer。

model string （必選）

模型名稱。

input object （必選）

輸入資料：固定為空白對象 {}，待合成文本通過 continue-task 指令發送。

parameters object （必選）

語音合成參數。

屬性

text_type string （必選）

固定為 PlainText。

voice string （必選）

語音合成所使用的音色。

系統音色：參見音色列表
複刻音色：通過聲音複刻功能定製
聲音設計音色：通過聲音設計功能定製

format string （可選）

音頻編碼格式。

取值範圍：

pcm
wav
mp3（預設）
opus

sample_rate integer （可選）

音頻採樣率（Hz）。

取值範圍：8000, 16000, 22050（預設）, 24000, 44100, 48000。

volume integer （可選）

音量。

預設值：50。

取值範圍：[0, 100]。

rate float （可選）

語速。

預設值：1.0。

取值範圍：[0.5, 2.0]。

pitch float （可選）

音調。

預設值：1.0。

取值範圍：[0.5, 2.0]。

bit_rate integer （可選）

音頻碼率（kbps）。音頻格式為opus時，支援通過bit_rate參數調整碼率。

預設值：32。

取值範圍：[6, 510]。

enable_ssml boolean （可選）

是否開啟 SSML 功能。

預設值：false。

設為 true 後，僅允許發送一次 continue-task 指令。

word_timestamp_enabled boolean （可選）

是否開啟字層級時間戳記。

預設值：false。

適用範圍：僅適用於cosyvoice-v3-flash、cosyvoice-v3-plus和cosyvoice-v2模型的複刻音色，以及音色列表中標記為支援的系統音色。

seed integer （可選）

產生時使用的隨機數種子，使合成的效果產生變化。在模型版本、文本、音色及其他參數均相同的前提下，使用相同的seed可複現相同的合成結果。

預設值0。

取值範圍：[0, 65535]。

language_hints array[string] （可選）

重要

此參數為數組，但目前的版本僅處理第一個元素，因此建議只傳入一個值。
此參數用於指定語音合成的目標語言，該設定與聲音複刻時的樣本音訊語種無關。如需設定複刻任務的源語言，請參見聲音複刻API參考。

指定語音合成的目標語言，提升合成效果。

當數字、縮寫、符號等朗讀方式或者小語種合成效果不符合預期時使用，例如：

數字朗讀方式不符合預期，“hello, this is 110”讀成“hello, this is one one zero”而非“hello, this is 么么零”
符號朗讀不準確，“@”讀成“艾特”而非“at”
小語種合成效果差，合成不自然

取值範圍：

zh：中文
en：英文
fr：法語
de：德語
ja：日語
ko：韓語
ru：俄語
pt：葡萄牙語
th：泰語
id：印尼語
vi：越南語

instruction string （可選）

設定指令，用於控制方言、情感或角色等合成效果。該功能僅適用於cosyvoice-v3.5-flash、cosyvoice-v3.5-plus和cosyvoice-v3-flash模型的複刻音色，以及音色列表中標記為支援Instruct的系統音色。

長度限制：100字元。

漢字（包括簡/繁體漢字、日文漢字和韓文漢字）按2個字元計算，其他所有字元（如標點符號、字母、數字、日韓文假名/諺文等）均按 1個字元計算

使用要求（因模型而異）：

cosyvoice-v3.5-flash和cosyvoice-v3.5-plus：可以輸入任意指令控制合成效果（如情感、語速等）

重要

cosyvoice-v3.5-flash和cosyvoice-v3.5-plus無系統音色，僅支援使用聲音設計/複刻音色。

指令樣本：

請用非常激昂且高亢的語氣說話，表現出獲得重大成功後的狂喜與激動。
語速請保持中等偏慢，語氣要顯得優雅、知性，給人以從容不迫的安心感。
語氣要充滿哀傷與懷念，帶有輕微的鼻音，彷彿正在訴說一段令人心碎的往事。
請嘗試用氣聲說話，音量極輕，營造出一種在耳邊親密低語的神秘感。
語氣要顯得非常急躁且不耐煩，語速加快，句子之間的停頓要盡量縮短。
請類比一位慈祥、溫和的長輩，語速平穩，聲音中要透出滿滿的關懷與愛意。
語氣要充滿諷刺和不屑，在關鍵詞上加重讀音，句尾語調略微上揚。
請用一種極度恐懼且顫抖的聲音說話。
語氣要像專業的新聞播音員一樣，冷靜、客觀且字正腔圓，情緒保持中立。
語氣要顯得活潑俏皮，帶著明顯的笑意，讓聲音聽起來充滿朝氣與陽光。

cosyvoice-v3-flash：需遵照如下要求

複刻音色：可使用任意自然語言控制語音合成效果。

指令樣本：

請用廣東話表達。（支援的方言：廣東話、東北話、甘肅話、貴州話、河南話、湖北話、江西話、閩南話、寧夏話、山西話、陝西話、山東話、上海話、四川話、天津話、雲南話。）
請儘可能非常大聲地說一句話。
請用儘可能慢地語速說一句話。
請用儘可能快地語速說一句話。
請非常輕聲地說一句話。
你可以慢一點說嗎
你可以非常快一點說嗎
你可以非常慢一點說嗎
你可以快一點說嗎
請非常生氣地說一句話。
請非常開心地說一句話。
請非常恐懼地說一句話。
請非常傷心地說一句話。
請非常驚訝地說一句話。
請儘可能表現出堅定的感覺。
請儘可能表現出憤怒的感覺。
請嘗試一下親和的語調。
請用冷酷的語調講話。
請用威嚴的語調講話。
我想體驗一下自然的語氣。
我想看看你如何表達威脅。
我想看看你怎麼表現智慧。
我想看看你怎麼表現誘惑。
我想聽聽用活潑的方式說話。
我想聽聽你用激昂的感覺說話。
我想聽聽用沉穩的方式說話的樣子。
我想聽聽你用自信的感覺說話。
你能用興奮的感覺和我交流嗎？
你能否展示狂傲的情緒表達？
你能展現一下優雅的情緒嗎？
你可以用幸福的方式回答問題嗎？
你可以做一個溫柔的情感示範嗎？
能用冷靜的語調和我談談嗎？
能用深沉的方法回答我嗎？
能用粗獷的情緒態度和我對話嗎？
用陰森的聲音告訴我這個答案。
用堅韌的聲音告訴我這個答案。
用自然親切的閑聊風格敘述。
用廣播劇部落客的語氣講話。

系統音色：指令必須使用固定格式和內容，詳情請參見音色列表

enable_aigc_tag boolean （可選）

是否在產生的音頻中添加AIGC隱性標識。設定為true時，會將隱性標識嵌入到支援格式（wav/mp3/opus）的音頻中。

預設值：false。

僅cosyvoice-v3-flash、cosyvoice-v3-plus、cosyvoice-v2支援該功能。

aigc_propagator string （可選）

設定AIGC隱性標識中的 ContentPropagator 欄位，用於標識內容的傳播者。僅在 enable_aigc_tag 為 true 時生效。

預設值：阿里雲UID。

僅cosyvoice-v3-flash、cosyvoice-v3-plus、cosyvoice-v2支援該功能。

aigc_propagate_id string （可選）

設定AIGC隱性標識中的 PropagateID 欄位，用於唯一標識一次具體的傳播行為。僅在 enable_aigc_tag 為 true 時生效。

預設值：本次語音合成請求Request ID。

僅cosyvoice-v3-flash、cosyvoice-v3-plus、cosyvoice-v2支援該功能。

hot_fix object （可選）

文本熱修複配置，用於自訂指定詞語的發音或對待合成文本進行替換。僅cosyvoice-v3-flash複刻音色支援該功能。

參數介紹：

pronunciation：自訂發音。指定詞語的拼音標註，用於糾正預設發音不準確的情況。
replace：文本替換。在語音合成前將指定詞語替換為目標文本，替換後的文本將作為實際合成內容。

樣本：

"hot_fix": {
  "pronunciation": [
    {"天氣": "tian1 qi4"}
  ],
  "replace": [
    {"今天": "金天"}
  ]
}

enable_markdown_filter boolean （可選）

重要

僅cosyvoice-v3-flash複刻音色支援該功能。

是否啟用 Markdown 過濾。啟用該功能後，系統在合成語音前自動過濾輸入文本中的 Markdown 標記符號，避免將其朗讀為文字內容。

預設值：false。

取值範圍：

true：啟用Markdown過濾
false：禁用Markdown過濾

continue-task

說明：用於發送待合成文本。可一次性發送，也可分段按順序發送。

發送時機：在接收到服務端返回的 task-started 事件後。

數量限制：

單次調用最多發送 20000 字元
累計最多發送 200000 字元
發送間隔不得超過 23 秒，否則連線逾時

header object （必選）

屬性

action string （必選）

指令類型，固定為 continue-task。

task_id string （必選）

任務 ID（UUID 格式），需要和 run-task 中的 task_id 保持一致。

streaming string （必選）

固定為 duplex。

{
    "header": {
        "action": "continue-task",
        "task_id": "2bf83b9a-baeb-4fda-8d9a-xxxxxxxxxxxx",
        "streaming": "duplex"
    },
    "payload": {
        "input": {
            "text": "床前明月光，疑是地上霜"
        }
    }
}

payload object （必選）

屬性

input object （必選）

包含待合成文本。

text string （必選）

待合成文本。單次最多 20000 字元，累計最多 200000 字元。

finish-task

說明：通知服務端文本發送完畢，請求結束任務。

發送時機：所有文本發送完畢後立即發送。

響應事件：服務端返回 task-finished 事件。

header object （必選）

屬性

action string （必選）

指令類型，固定為 finish-task。

task_id string （必選）

任務 ID（UUID 格式），需要和 run-task 中的 task_id 保持一致。

streaming string （必選）

固定為 duplex

{
    "header": {
        "action": "finish-task",
        "task_id": "2bf83b9a-baeb-4fda-8d9a-xxxxxxxxxxxx",
        "streaming": "duplex"
    },
    "payload": {
        "input": {}
    }
}

payload object （必選）

屬性

input object （必選）

固定為 {}。