全部產品
Search
文件中心

Alibaba Cloud Model Studio:語音轉語音模型

更新時間:Apr 22, 2026

選擇適合語音對話、語音翻譯等情境的模型。

S2S(Speech-to-Speech)與Pipeline對比

構建語音應用有兩種方式:

S2S

Pipeline(ASR + LLM + TTS)

延遲

低 -- 單模型串流

較高 -- 3個階段串列處理

音頻理解

端到端 -- 能感知語調、情緒並做出相應回應

先轉文本再處理 -- 音頻中的細微資訊丟失

音色定製

通過系統提示詞選擇預設音色

聲音複製、聲音設計(CosyVoice)

  • 使用S2S:當互動式對話、低延遲和音頻感知的回複是關鍵需求時。

  • 使用Pipeline:當需要自訂音色,或者需要為每個階段分別選擇最優的ASR、LLM和TTS模型時。

即時還是檔案模式?

  • 即時(WebSocket):適用於語音助手、話務中心、同聲傳譯等即時語音互動情境。音頻流式輸入,語音流式輸出。模型名稱中包含-realtime

  • 檔案模式(HTTP):可以用延遲換取更好的效果,適用於視頻配音、播客翻譯、離線內容處理等情境。支援Function Calling(Qwen3.5-Omni、Qwen3-Omni-Flash)、連網搜尋(Qwen3.5-Omni)、思考模式(Qwen3-Omni-Flash)以及視頻上下文(Livetranslate)。

Function Calling

讓模型根據聽到和看到的內容執行操作 -- 查詢知識庫、查詢議程、觸發工作流程。使用Qwen3.5 Omni(WebSocket與HTTP模式) 或 Qwen3 Omni(HTTP模式)。

即時模型和Livetranslate模型不支援此功能。

連網搜尋

讓模型檢索即時資訊,回答關於時事、股價、天氣等問題。使用Qwen3.5 Omni(HTTP和WebSocket),包括Plus和Flash系列。模型自主決定是否搜尋。

Qwen3-Omni-Flash和Livetranslate模型不支援此功能。

思考模式

當回答品質比延遲更重要時,使用Qwen3 Omni(HTTP模式)。模型在回複前會逐步推理,適用於視頻分析、批量打標等情境。

思考模式下不支援產生語音。

翻譯

三個模型系列均支援語音翻譯:

  • Qwen3-Livetranslate:支援18種語言 + 5種中文方言,約3秒延遲,開箱即用。檔案模式支援輸入視頻以獲得上下文感知的翻譯精度。其中7種語言僅輸出文本(不輸出語音)。

  • Qwen3.5-Omni:支援29種輸出語言 + 7種中文方言。優秀的音視頻理解能力和連網搜尋。可通過系統提示詞注入術語和領網域內容。支援即時和檔案模式。

  • Qwen3-Omni-Flash:支援11種輸出語言 + 8種中文方言。可通過系統提示詞注入術語和領網域內容。支援即時和檔案模式。成本更低。

說明

快速搭建翻譯應用推薦Livetranslate;最高品質和最廣語言覆蓋推薦Qwen3.5-Omni;成本敏感情境推薦Qwen3-Omni-Flash。

支援的語言

語言

Qwen3-Livetranslate

Qwen3.5-Omni

Qwen3-Omni-Flash

英語

支援

支援

支援

中文(普通話)

支援

支援

支援

粵語

支援

支援

支援

四川話

支援

支援

支援

上海話

支援

支援

支援

北京話

支援

支援

支援

天津話

支援

支援

支援

南京話

--

支援

支援

陝西話

--

支援

支援

閩南語

--

支援

支援

法語

支援

支援

支援

德語

支援

支援

支援

俄語

支援

支援

支援

意大利語

支援

支援

支援

西班牙語

支援

支援

支援

葡萄牙語

支援

支援

支援

日語

支援

支援

支援

韓語

支援

支援

支援

泰語

僅文本

支援

支援

印尼語

僅文本

支援

--

越南語

僅文本

支援

--

阿拉伯語

僅文本

支援

--

印地語

僅文本

支援

--

土耳其語

僅文本

支援

--

芬蘭語

--

支援

--

波蘭語

--

支援

--

荷蘭語

--

支援

--

捷克語

--

支援

--

烏爾都語

--

支援

--

他加祿語

--

支援

--

瑞典語

--

支援

--

丹麥語

--

支援

--

希伯來語

--

支援

--

冰島語

--

支援

--

馬來語

--

支援

--

挪威語

--

支援

--

波斯語

--

支援

--

希臘語

僅文本

--

--

"支援"表示同時輸出語音和文本。"僅文本"表示該語言不輸出語音。

Qwen3.5-Omni支援113種輸入語言/方言。

舊版qwen-omni-turbo僅支援中文和英文。

推薦模型

模型

API

輸入

Function Calling

連網搜尋

思考模式

qwen3.5-omni-plus-realtime

WebSocket

文本、音頻、圖片

支援

支援

--

qwen3.5-omni-plus

HTTP

文本、音頻、圖片、視頻

支援

支援

--

qwen3.5-omni-flash-realtime

WebSocket

文本、音頻、圖片

支援

支援

--

qwen3.5-omni-flash

HTTP

文本、音頻、圖片、視頻

支援

支援

--

qwen3-omni-flash-realtime

WebSocket

文本、音頻、圖片、視頻

--

--

--

qwen3-omni-flash

HTTP

文本、音頻、圖片、視頻

支援

--

支援

qwen3-livetranslate-flash-realtime

WebSocket

音頻、圖片

--

--

--

qwen3-livetranslate-flash

HTTP

音頻、視頻

--

--

--

所有模型

Qwen3.5-Omni

以下模型適用於國際和中國內地服務部署範圍。

模型

API

輸入

Function Calling

連網搜尋

思考模式

qwen3.5-omni-plus-realtime

WebSocket

文本、音頻、圖片、視頻

支援

支援

--

qwen3.5-omni-plus-realtime-2026-03-15

WebSocket

文本、音頻、圖片、視頻

支援

支援

--

qwen3.5-omni-plus

HTTP

文本、音頻、圖片、視頻

支援

支援

--

qwen3.5-omni-plus-2026-03-15

HTTP

文本、音頻、圖片、視頻

支援

支援

--

qwen3.5-omni-flash-realtime

WebSocket

文本、音頻、圖片、視頻

支援

支援

--

qwen3.5-omni-flash-realtime-2026-03-15

WebSocket

文本、音頻、圖片、視頻

支援

支援

--

qwen3.5-omni-flash

HTTP

文本、音頻、圖片、視頻

支援

支援

--

qwen3.5-omni-flash-2026-03-15

HTTP

文本、音頻、圖片、視頻

支援

支援

--

Qwen3-Omni

以下模型適用於國際和中國內地服務部署範圍。

模型

API

輸入

Function Calling

連網搜尋

思考模式

qwen3-omni-flash-realtime

WebSocket

文本、音頻、圖片、視頻

--

--

--

qwen3-omni-flash-realtime-2025-12-01

WebSocket

文本、音頻、圖片、視頻

--

--

--

qwen3-omni-flash-realtime-2025-09-15

WebSocket

文本、音頻、圖片、視頻

--

--

--

qwen3-omni-flash

HTTP

文本、音頻、圖片、視頻

支援

--

支援

qwen3-omni-flash-2025-12-01

HTTP

文本、音頻、圖片、視頻

支援

--

支援

qwen3-omni-flash-2025-09-15

HTTP

文本、音頻、圖片、視頻

支援

--

支援

Qwen3-Livetranslate

以下模型適用於國際和中國內地服務部署範圍。

模型

API

輸入

語言數

qwen3-livetranslate-flash-realtime

WebSocket

音頻

18

qwen3-livetranslate-flash-realtime-2025-09-22

WebSocket

音頻

18

qwen3-livetranslate-flash

HTTP

音頻、視頻

18

qwen3-livetranslate-flash-2025-12-01

HTTP

音頻、視頻

18

舊版模型

以下模型不再更新,新專案提案使用Qwen3.5-Omni。

模型

輸入

API

qwen2.5-omni-7b

文本、音頻、圖片、視頻

HTTP

qwen-omni-turbo

文本、音頻、圖片、視頻

HTTP

qwen-omni-turbo-latest

文本、音頻、圖片、視頻

HTTP

qwen-omni-turbo-2025-03-26

文本、音頻、圖片、視頻

HTTP

qwen-omni-turbo-realtime

文本、音頻

WebSocket

qwen-omni-turbo-realtime-latest

文本、音頻

WebSocket

qwen-omni-turbo-realtime-2025-05-08

文本、音頻

WebSocket