語音轉語音模型 - Alibaba Cloud Model Studio

選擇適合語音對話、語音翻譯等情境的模型。

S2S（Speech-to-Speech）與Pipeline對比

構建語音應用有兩種方式：

	S2S	Pipeline（ASR + LLM + TTS）
延遲	低 -- 單模型串流	較高 -- 3個階段串列處理
音頻理解	端到端 -- 能感知語調、情緒並做出相應回應	先轉文本再處理 -- 音頻中的細微資訊丟失
音色定製	通過系統提示詞選擇預設音色	聲音複製、聲音設計（CosyVoice）

使用S2S：當互動式對話、低延遲和音頻感知的回複是關鍵需求時。
使用Pipeline：當需要自訂音色，或者需要為每個階段分別選擇最優的ASR、LLM和TTS模型時。

即時還是檔案模式？

即時（WebSocket）：適用於語音助手、話務中心、同聲傳譯等即時語音互動情境。音頻流式輸入，語音流式輸出。模型名稱中包含-realtime。
檔案模式（HTTP）：可以用延遲換取更好的效果，適用於視頻配音、播客翻譯、離線內容處理等情境。支援Function Calling（Qwen3.5-Omni、Qwen3-Omni-Flash）、連網搜尋（Qwen3.5-Omni）、思考模式（Qwen3-Omni-Flash）以及視頻上下文（Livetranslate）。

Function Calling

讓模型根據聽到和看到的內容執行操作 -- 查詢知識庫、查詢議程、觸發工作流程。使用Qwen3.5 Omni（WebSocket與HTTP模式）或 Qwen3 Omni（HTTP模式）。

即時模型和Livetranslate模型不支援此功能。

連網搜尋

讓模型檢索即時資訊，回答關於時事、股價、天氣等問題。使用Qwen3.5 Omni（HTTP和WebSocket），包括Plus和Flash系列。模型自主決定是否搜尋。

Qwen3-Omni-Flash和Livetranslate模型不支援此功能。

思考模式

當回答品質比延遲更重要時，使用Qwen3 Omni（HTTP模式）。模型在回複前會逐步推理，適用於視頻分析、批量打標等情境。

思考模式下不支援產生語音。

翻譯

三個模型系列均支援語音翻譯：

Qwen3-Livetranslate：支援18種語言 + 5種中文方言，約3秒延遲，開箱即用。檔案模式支援輸入視頻以獲得上下文感知的翻譯精度。其中7種語言僅輸出文本（不輸出語音）。
Qwen3.5-Omni：支援29種輸出語言 + 7種中文方言。優秀的音視頻理解能力和連網搜尋。可通過系統提示詞注入術語和領網域內容。支援即時和檔案模式。
Qwen3-Omni-Flash：支援11種輸出語言 + 8種中文方言。可通過系統提示詞注入術語和領網域內容。支援即時和檔案模式。成本更低。

說明

快速搭建翻譯應用推薦Livetranslate；最高品質和最廣語言覆蓋推薦Qwen3.5-Omni；成本敏感情境推薦Qwen3-Omni-Flash。

支援的語言

語言	Qwen3-Livetranslate	Qwen3.5-Omni	Qwen3-Omni-Flash
英語	支援	支援	支援
中文（普通話）	支援	支援	支援
粵語	支援	支援	支援
四川話	支援	支援	支援
上海話	支援	支援	支援
北京話	支援	支援	支援
天津話	支援	支援	支援
南京話	--	支援	支援
陝西話	--	支援	支援
閩南語	--	支援	支援
法語	支援	支援	支援
德語	支援	支援	支援
俄語	支援	支援	支援
意大利語	支援	支援	支援
西班牙語	支援	支援	支援
葡萄牙語	支援	支援	支援
日語	支援	支援	支援
韓語	支援	支援	支援
泰語	僅文本	支援	支援
印尼語	僅文本	支援	--
越南語	僅文本	支援	--
阿拉伯語	僅文本	支援	--
印地語	僅文本	支援	--
土耳其語	僅文本	支援	--
芬蘭語	--	支援	--
波蘭語	--	支援	--
荷蘭語	--	支援	--
捷克語	--	支援	--
烏爾都語	--	支援	--
他加祿語	--	支援	--
瑞典語	--	支援	--
丹麥語	--	支援	--
希伯來語	--	支援	--
冰島語	--	支援	--
馬來語	--	支援	--
挪威語	--	支援	--
波斯語	--	支援	--
希臘語	僅文本	--	--

"支援"表示同時輸出語音和文本。"僅文本"表示該語言不輸出語音。

Qwen3.5-Omni支援113種輸入語言/方言。

舊版qwen-omni-turbo僅支援中文和英文。

所有模型

Qwen3.5-Omni

以下模型適用於國際和中國內地服務部署範圍。

模型	API	輸入	Function Calling	連網搜尋	思考模式
`qwen3.5-omni-plus-realtime`	WebSocket	文本、音頻、圖片、視頻	支援	支援	--
`qwen3.5-omni-plus-realtime-2026-03-15`	WebSocket	文本、音頻、圖片、視頻	支援	支援	--
`qwen3.5-omni-plus`	HTTP	文本、音頻、圖片、視頻	支援	支援	--
`qwen3.5-omni-plus-2026-03-15`	HTTP	文本、音頻、圖片、視頻	支援	支援	--
`qwen3.5-omni-flash-realtime`	WebSocket	文本、音頻、圖片、視頻	支援	支援	--
`qwen3.5-omni-flash-realtime-2026-03-15`	WebSocket	文本、音頻、圖片、視頻	支援	支援	--
`qwen3.5-omni-flash`	HTTP	文本、音頻、圖片、視頻	支援	支援	--
`qwen3.5-omni-flash-2026-03-15`	HTTP	文本、音頻、圖片、視頻	支援	支援	--

Qwen3-Omni

以下模型適用於國際和中國內地服務部署範圍。

模型	API	輸入	Function Calling	連網搜尋	思考模式
`qwen3-omni-flash-realtime`	WebSocket	文本、音頻、圖片、視頻	--	--	--
`qwen3-omni-flash-realtime-2025-12-01`	WebSocket	文本、音頻、圖片、視頻	--	--	--
`qwen3-omni-flash-realtime-2025-09-15`	WebSocket	文本、音頻、圖片、視頻	--	--	--
`qwen3-omni-flash`	HTTP	文本、音頻、圖片、視頻	支援	--	支援
`qwen3-omni-flash-2025-12-01`	HTTP	文本、音頻、圖片、視頻	支援	--	支援
`qwen3-omni-flash-2025-09-15`	HTTP	文本、音頻、圖片、視頻	支援	--	支援

Qwen3-Livetranslate

以下模型適用於國際和中國內地服務部署範圍。

模型	API	輸入	語言數
`qwen3-livetranslate-flash-realtime`	WebSocket	音頻	18
`qwen3-livetranslate-flash-realtime-2025-09-22`	WebSocket	音頻	18
`qwen3-livetranslate-flash`	HTTP	音頻、視頻	18
`qwen3-livetranslate-flash-2025-12-01`	HTTP	音頻、視頻	18

舊版模型

以下模型不再更新，新專案提案使用Qwen3.5-Omni。

模型	輸入	API
`qwen2.5-omni-7b`	文本、音頻、圖片、視頻	HTTP
`qwen-omni-turbo`	文本、音頻、圖片、視頻	HTTP
`qwen-omni-turbo-latest`	文本、音頻、圖片、視頻	HTTP
`qwen-omni-turbo-2025-03-26`	文本、音頻、圖片、視頻	HTTP
`qwen-omni-turbo-realtime`	文本、音頻	WebSocket
`qwen-omni-turbo-realtime-latest`	文本、音頻	WebSocket
`qwen-omni-turbo-realtime-2025-05-08`	文本、音頻	WebSocket

Alibaba Cloud Model Studio：語音轉語音模型

S2S（Speech-to-Speech）與Pipeline對比

即時還是檔案模式？

Function Calling

連網搜尋

思考模式

翻譯

推薦模型

所有模型

Qwen3.5-Omni

Qwen3-Omni

Qwen3-Livetranslate

舊版模型