header (必選) | {
"header": {
"action": "run-task",
"task_id": "2bf83b9a-baeb-4fda-8d9a-xxxxxxxxxxxx",
"streaming": "duplex"
},
"payload": {
"task_group": "audio",
"task": "tts",
"function": "SpeechSynthesizer",
"model": "cosyvoice-v3-flash",
"parameters": {
"text_type": "PlainText",
"voice": "longanyang",
"format": "mp3",
"sample_rate": 22050,
"volume": 50,
"rate": 1.0,
"pitch": 1.0,
"enable_ssml": false
},
"input": {}
}
}
|
payload object (必選) 屬性 function string (必選) 功能類型,固定為 SpeechSynthesizer。 parameters object (必選) 語音合成參數。 屬性 voice string (必選) 語音合成所使用的音色。 系統音色:參見音色列表 複刻音色:通過聲音複刻功能定製 聲音設計音色:通過聲音設計功能定製
sample_rate integer (可選) 音頻採樣率(Hz)。 取值範圍:8000, 16000, 22050(預設), 24000, 44100, 48000。 rate float (可選) 語速。 預設值:1.0。 取值範圍:[0.5, 2.0]。 pitch float (可選) 音調。 預設值:1.0。 取值範圍:[0.5, 2.0]。 bit_rate integer (可選) 音頻碼率(kbps)。音頻格式為opus時,支援通過bit_rate參數調整碼率。 預設值:32。 取值範圍:[6, 510]。 enable_ssml boolean (可選) 是否開啟 SSML 功能。 預設值:false。 設為 true 後,僅允許發送一次 continue-task 指令。 word_timestamp_enabled boolean (可選) 適用範圍:僅適用於cosyvoice-v3-flash、cosyvoice-v3-plus和cosyvoice-v2模型的複刻音色,以及音色列表中標記為支援的系統音色。 seed integer (可選) 產生時使用的隨機數種子,使合成的效果產生變化。在模型版本、文本、音色及其他參數均相同的前提下,使用相同的seed可複現相同的合成結果。 預設值0。 取值範圍:[0, 65535]。 language_hints array[string] (可選) 指定語音合成的目標語言,提升合成效果。 當數字、縮寫、符號等朗讀方式或者小語種合成效果不符合預期時使用,例如: 取值範圍: zh:中文 en:英文 fr:法語 de:德語 ja:日語 ko:韓語 ru:俄語 pt:葡萄牙語 th:泰語 id:印尼語 vi:越南語
instruction string (可選) 設定指令,用於控制方言、情感或角色等合成效果。該功能僅適用於cosyvoice-v3.5-flash、cosyvoice-v3.5-plus和cosyvoice-v3-flash模型的複刻音色,以及音色列表中標記為支援Instruct的系統音色。 長度限制:100字元。 漢字(包括簡/繁體漢字、日文漢字和韓文漢字)按2個字元計算,其他所有字元(如標點符號、字母、數字、日韓文假名/諺文等)均按 1個字元計算 使用要求(因模型而異): cosyvoice-v3.5-flash和cosyvoice-v3.5-plus:可以輸入任意指令控制合成效果(如情感、語速等)
重要 cosyvoice-v3.5-flash和cosyvoice-v3.5-plus無系統音色,僅支援使用聲音設計/複刻音色。 指令樣本: 請用非常激昂且高亢的語氣說話,表現出獲得重大成功後的狂喜與激動。
語速請保持中等偏慢,語氣要顯得優雅、知性,給人以從容不迫的安心感。
語氣要充滿哀傷與懷念,帶有輕微的鼻音,彷彿正在訴說一段令人心碎的往事。
請嘗試用氣聲說話,音量極輕,營造出一種在耳邊親密低語的神秘感。
語氣要顯得非常急躁且不耐煩,語速加快,句子之間的停頓要盡量縮短。
請類比一位慈祥、溫和的長輩,語速平穩,聲音中要透出滿滿的關懷與愛意。
語氣要充滿諷刺和不屑,在關鍵詞上加重讀音,句尾語調略微上揚。
請用一種極度恐懼且顫抖的聲音說話。
語氣要像專業的新聞播音員一樣,冷靜、客觀且字正腔圓,情緒保持中立。
語氣要顯得活潑俏皮,帶著明顯的笑意,讓聲音聽起來充滿朝氣與陽光。
cosyvoice-v3-flash:需遵照如下要求 複刻音色:可使用任意自然語言控制語音合成效果。 指令樣本: 請用廣東話表達。(支援的方言:廣東話、東北話、甘肅話、貴州話、河南話、湖北話、江西話、閩南話、寧夏話、山西話、陝西話、山東話、上海話、四川話、天津話、雲南話。)
請儘可能非常大聲地說一句話。
請用儘可能慢地語速說一句話。
請用儘可能快地語速說一句話。
請非常輕聲地說一句話。
你可以慢一點說嗎
你可以非常快一點說嗎
你可以非常慢一點說嗎
你可以快一點說嗎
請非常生氣地說一句話。
請非常開心地說一句話。
請非常恐懼地說一句話。
請非常傷心地說一句話。
請非常驚訝地說一句話。
請儘可能表現出堅定的感覺。
請儘可能表現出憤怒的感覺。
請嘗試一下親和的語調。
請用冷酷的語調講話。
請用威嚴的語調講話。
我想體驗一下自然的語氣。
我想看看你如何表達威脅。
我想看看你怎麼表現智慧。
我想看看你怎麼表現誘惑。
我想聽聽用活潑的方式說話。
我想聽聽你用激昂的感覺說話。
我想聽聽用沉穩的方式說話的樣子。
我想聽聽你用自信的感覺說話。
你能用興奮的感覺和我交流嗎?
你能否展示狂傲的情緒表達?
你能展現一下優雅的情緒嗎?
你可以用幸福的方式回答問題嗎?
你可以做一個溫柔的情感示範嗎?
能用冷靜的語調和我談談嗎?
能用深沉的方法回答我嗎?
能用粗獷的情緒態度和我對話嗎?
用陰森的聲音告訴我這個答案。
用堅韌的聲音告訴我這個答案。
用自然親切的閑聊風格敘述。
用廣播劇部落客的語氣講話。
系統音色:指令必須使用固定格式和內容,詳情請參見音色列表
enable_aigc_tag boolean (可選) 是否在產生的音頻中添加AIGC隱性標識。設定為true時,會將隱性標識嵌入到支援格式(wav/mp3/opus)的音頻中。 預設值:false。 僅cosyvoice-v3-flash、cosyvoice-v3-plus、cosyvoice-v2支援該功能。 aigc_propagator string (可選) 設定AIGC隱性標識中的 ContentPropagator 欄位,用於標識內容的傳播者。僅在 enable_aigc_tag 為 true 時生效。 預設值:阿里雲UID。 僅cosyvoice-v3-flash、cosyvoice-v3-plus、cosyvoice-v2支援該功能。 aigc_propagate_id string (可選) 設定AIGC隱性標識中的 PropagateID 欄位,用於唯一標識一次具體的傳播行為。僅在 enable_aigc_tag 為 true 時生效。 預設值:本次語音合成請求Request ID。 僅cosyvoice-v3-flash、cosyvoice-v3-plus、cosyvoice-v2支援該功能。 hot_fix object (可選) 文本熱修複配置,用於自訂指定詞語的發音或對待合成文本進行替換。僅cosyvoice-v3-flash複刻音色支援該功能。 參數介紹: 樣本: "hot_fix": {
"pronunciation": [
{"天氣": "tian1 qi4"}
],
"replace": [
{"今天": "金天"}
]
}
enable_markdown_filter boolean (可選)
重要 僅cosyvoice-v3-flash複刻音色支援該功能。 是否啟用 Markdown 過濾。啟用該功能後,系統在合成語音前自動過濾輸入文本中的 Markdown 標記符號,避免將其朗讀為文字內容。 預設值:false。 取值範圍: true:啟用Markdown過濾 false:禁用Markdown過濾
|