選擇適合語音對話、語音翻譯等情境的模型。
S2S(Speech-to-Speech)與Pipeline對比
構建語音應用有兩種方式:
S2S | Pipeline(ASR + LLM + TTS) | |
延遲 | 低 -- 單模型串流 | 較高 -- 3個階段串列處理 |
音頻理解 | 端到端 -- 能感知語調、情緒並做出相應回應 | 先轉文本再處理 -- 音頻中的細微資訊丟失 |
音色定製 | 通過系統提示詞選擇預設音色 | 聲音複製、聲音設計(CosyVoice) |
使用S2S:當互動式對話、低延遲和音頻感知的回複是關鍵需求時。
使用Pipeline:當需要自訂音色,或者需要為每個階段分別選擇最優的ASR、LLM和TTS模型時。
即時還是檔案模式?
即時(WebSocket):適用於語音助手、話務中心、同聲傳譯等即時語音互動情境。音頻流式輸入,語音流式輸出。模型名稱中包含
-realtime。檔案模式(HTTP):可以用延遲換取更好的效果,適用於視頻配音、播客翻譯、離線內容處理等情境。支援Function Calling(Qwen3.5-Omni、Qwen3-Omni-Flash)、連網搜尋(Qwen3.5-Omni)、思考模式(Qwen3-Omni-Flash)以及視頻上下文(Livetranslate)。
Function Calling
讓模型根據聽到和看到的內容執行操作 -- 查詢知識庫、查詢議程、觸發工作流程。使用Qwen3.5 Omni(WebSocket與HTTP模式) 或 Qwen3 Omni(HTTP模式)。
即時模型和Livetranslate模型不支援此功能。
連網搜尋
讓模型檢索即時資訊,回答關於時事、股價、天氣等問題。使用Qwen3.5 Omni(HTTP和WebSocket),包括Plus和Flash系列。模型自主決定是否搜尋。
Qwen3-Omni-Flash和Livetranslate模型不支援此功能。
思考模式
當回答品質比延遲更重要時,使用Qwen3 Omni(HTTP模式)。模型在回複前會逐步推理,適用於視頻分析、批量打標等情境。
思考模式下不支援產生語音。
翻譯
三個模型系列均支援語音翻譯:
Qwen3-Livetranslate:支援18種語言 + 5種中文方言,約3秒延遲,開箱即用。檔案模式支援輸入視頻以獲得上下文感知的翻譯精度。其中7種語言僅輸出文本(不輸出語音)。
Qwen3.5-Omni:支援29種輸出語言 + 7種中文方言。優秀的音視頻理解能力和連網搜尋。可通過系統提示詞注入術語和領網域內容。支援即時和檔案模式。
Qwen3-Omni-Flash:支援11種輸出語言 + 8種中文方言。可通過系統提示詞注入術語和領網域內容。支援即時和檔案模式。成本更低。
快速搭建翻譯應用推薦Livetranslate;最高品質和最廣語言覆蓋推薦Qwen3.5-Omni;成本敏感情境推薦Qwen3-Omni-Flash。
推薦模型
模型 | API | 輸入 | Function Calling | 連網搜尋 | 思考模式 |
| WebSocket | 文本、音頻、圖片 | 支援 | 支援 | -- |
| HTTP | 文本、音頻、圖片、視頻 | 支援 | 支援 | -- |
| WebSocket | 文本、音頻、圖片 | 支援 | 支援 | -- |
| HTTP | 文本、音頻、圖片、視頻 | 支援 | 支援 | -- |
| WebSocket | 文本、音頻、圖片、視頻 | -- | -- | -- |
| HTTP | 文本、音頻、圖片、視頻 | 支援 | -- | 支援 |
| WebSocket | 音頻、圖片 | -- | -- | -- |
| HTTP | 音頻、視頻 | -- | -- | -- |
所有模型
Qwen3.5-Omni
以下模型適用於國際和中國內地服務部署範圍。
模型 | API | 輸入 | Function Calling | 連網搜尋 | 思考模式 |
| WebSocket | 文本、音頻、圖片、視頻 | 支援 | 支援 | -- |
| WebSocket | 文本、音頻、圖片、視頻 | 支援 | 支援 | -- |
| HTTP | 文本、音頻、圖片、視頻 | 支援 | 支援 | -- |
| HTTP | 文本、音頻、圖片、視頻 | 支援 | 支援 | -- |
| WebSocket | 文本、音頻、圖片、視頻 | 支援 | 支援 | -- |
| WebSocket | 文本、音頻、圖片、視頻 | 支援 | 支援 | -- |
| HTTP | 文本、音頻、圖片、視頻 | 支援 | 支援 | -- |
| HTTP | 文本、音頻、圖片、視頻 | 支援 | 支援 | -- |
Qwen3-Omni
以下模型適用於國際和中國內地服務部署範圍。
模型 | API | 輸入 | Function Calling | 連網搜尋 | 思考模式 |
| WebSocket | 文本、音頻、圖片、視頻 | -- | -- | -- |
| WebSocket | 文本、音頻、圖片、視頻 | -- | -- | -- |
| WebSocket | 文本、音頻、圖片、視頻 | -- | -- | -- |
| HTTP | 文本、音頻、圖片、視頻 | 支援 | -- | 支援 |
| HTTP | 文本、音頻、圖片、視頻 | 支援 | -- | 支援 |
| HTTP | 文本、音頻、圖片、視頻 | 支援 | -- | 支援 |
Qwen3-Livetranslate
以下模型適用於國際和中國內地服務部署範圍。
模型 | API | 輸入 | 語言數 |
| WebSocket | 音頻 | 18 |
| WebSocket | 音頻 | 18 |
| HTTP | 音頻、視頻 | 18 |
| HTTP | 音頻、視頻 | 18 |
舊版模型
以下模型不再更新,新專案提案使用Qwen3.5-Omni。
模型 | 輸入 | API |
| 文本、音頻、圖片、視頻 | HTTP |
| 文本、音頻、圖片、視頻 | HTTP |
| 文本、音頻、圖片、視頻 | HTTP |
| 文本、音頻、圖片、視頻 | HTTP |
| 文本、音頻 | WebSocket |
| 文本、音頻 | WebSocket |
| 文本、音頻 | WebSocket |