選擇適合即時語音辨識、錄音檔案轉寫等情境的模型。
通過以下兩個問題可以快速縮小語音辨識模型選擇範圍:
您需要在使用者說話時即時擷取結果,還是在錄音結束後批量處理?
您的音頻是否包含專業術語?
即時還是非即時?
即時
基於WebSocket協議,音頻流式輸入,文字資料流式輸出。適用於即時字幕、語音助手和會議轉寫。
模型 | 系列 | 核心優勢 |
| Fun-ASR | 熱詞、方言支援、多語種混合識別 |
| Qwen3-ASR | 情緒識別 |
| Qwen3.5-Omni | Prompt上下文注入、語義打斷、113種語言 |
| Qwen3.5-Omni | 輕量版,低成本 |
| Qwen3-Omni(上一代) | Prompt上下文注入 |
非即時
提交音頻檔案,輪詢擷取結果。支援最長12小時、最大2 GB的錄音檔案。適用於話務中心錄音、播客和訪談等情境。
模型 | 系列 | 核心優勢 |
| Fun-ASR | 說話人分離、熱詞、多語種混合識別 |
| Qwen3-ASR | 情緒識別 |
| Qwen3.5-Omni | Prompt上下文注入、113種語言、OpenAI相容介面 |
| Qwen3.5-Omni | 輕量版,低成本,OpenAI相容HTTP介面 |
| Qwen3-Omni-Flash(上一代) | Prompt上下文注入、多模態、OpenAI相容介面 |
近即時替代方案
非即時API也接受短音頻片段。可以提交5秒的音頻分區來獲得近即時的識別結果,無需使用WebSocket。但真正的WebSocket方案可以避免重連開銷,如果延遲敏感,建議使用即時模型。
處理專業術語
兩種方式,按靈活性排序:
Prompt上下文注入(Qwen3.5-Omni):在系統提示詞中描述您的領域背景,無需預配置。模型在每次請求時自適應。代價是每次請求的延遲高於專用ASR模型。
熱詞(Fun-ASR):提供帶權重的詞彙表。適合穩定且變化不頻繁的術語列表。
Qwen3.5-Omni不是傳統ASR,而是一個能理解音訊大語言模型。您通過Prompt注入上下文,模型無需熱詞列表即可自適應。
說話人分離
僅Fun-ASR系列的非即時模型(fun-asr、fun-asr-mtl)支援說話人分離。如果您需要區分"誰說了什麼",請使用這些模型。
情緒識別
qwen3-asr-flash-realtime、qwen3-asr-flash-filetrans以及Qwen3.5-Omni系列模型在轉寫的同時支援情緒識別。
完整對比
模型 | 模式 | API | 精度增強 | 情緒 | 說話人分離 | 支援語言 | 最大時間長度 |
| 即時 | WebSocket | 熱詞(僅中國內地) | 不支援 | 不支援 | 中、英、日及方言 | 流式 |
| 非即時 | 非同步REST | 熱詞 | 不支援 | 支援 | 中、英、日及方言 | 12小時 / 2GB |
| 即時 | WebSocket | -- | 支援 | 不支援 | 26種語言 | 流式 |
| 非即時 | 非同步REST | -- | 支援 | 不支援 | 26種語言 | 12小時 / 2GB |
| 即時 | WebSocket | 熱詞 | 不支援 | 不支援 | 中、英、日、韓、德、法、俄 | 流式 |
| 非即時 | 非同步REST | 熱詞 | 不支援 | 支援 | 中、英、日、韓、德、法、俄 | 12小時 / 2GB |
| 即時 | WebSocket | 熱詞 | 支援 | 不支援 | 中文 | 流式 |
| 非即時 | 非同步REST | 熱詞 | 不支援 | 不支援 | 中文 | 12小時 / 2GB |
| 非即時 | HTTP(OpenAI相容) | Prompt上下文 | 支援 | 不支援 | 113種語言 | 單次要求節流 |
| 非即時 | HTTP(OpenAI相容) | Prompt上下文 | 支援 | 不支援 | 113種語言 | 單次要求節流 |
| 即時 | WebSocket | Prompt上下文 | 支援 | 不支援 | 113種語言 | 120分鐘 |
| 即時 | WebSocket | Prompt上下文 | 支援 | 不支援 | 113種語言 | 120分鐘 |
| 非即時 | HTTP(OpenAI相容) | Prompt上下文 | 支援 | 不支援 | 中、英、日、韓、德、法、意、西、葡、俄;中文方言:四川話、上海話、粵語、閩南語、陝西話、南京話、天津話、北京話 | 單次要求節流 |
| 即時 | WebSocket | Prompt上下文 | 支援 | 不支援 | 中、英、日、韓、德、法、意、西、葡、俄;中文方言:四川話、上海話、粵語、閩南語、陝西話、南京話、天津話、北京話 | 120分鐘 |
所有模型均支援WAV、MP3、AAC等常見音頻格式。
適用範圍
不同地區支援的模型有所不同。請根據您的 API Key 所屬地區查看可用模型。
國際
使用新加坡地區的 API Key 訪問以下模型。
模型系列 | 模式 | 可用模型 |
Fun-ASR | 即時 |
|
非即時 |
| |
Qwen3-ASR | 即時 |
|
非即時 |
| |
Qwen3.5-Omni Qwen3-Omni | 即時 / 非即時 |
|
中國內地
使用北京地區的 API Key 訪問以下模型。
模型系列 | 模式 | 類型 | 可用模型 |
Fun-ASR | 即時 | 推薦 |
|
非即時 | 推薦 |
| |
Qwen3-ASR | 即時 | 推薦 |
|
非即時 | 推薦 |
| |
Qwen3.5-Omni Qwen3-Omni | 即時 / 非即時 | 推薦 |
|
Legacy | 即時 | 舊版 |
|
非即時 |
| ||
非即時 |
|
美國地區額外支援 qwen3-asr-flash-us(非即時),需使用美國地區的 API Key。