語音辨識 - Alibaba Cloud Model Studio

從閉源模型遷移到百鍊?

如果你正在使用 Whisper、Deepgram 或 Google 的語音辨識服務，可參考下表選擇對應的百鍊模型。

使用情境	閉源模型代表	百鍊推薦
即時識別	Deepgram Nova-3、Google Chirp 3	`fun-asr-realtime`、`qwen3.5-omni-plus-realtime`
非即時 / 檔案轉寫	OpenAI gpt-4o-transcribe、Whisper	`fun-asr`、`qwen3.5-omni-plus`

本文按“先選維度、再看模型”的順序協助您完成選型：先從“選型決策維度”（即時/非即時、專業術語、說話人分離、情感識別）確認情境；再到“推薦模型”查看針對各情境的首選；如需更多版本可在“所有模型”按系列展開；最後到“音頻規格”核對輸入檔案約束。各模型支援的語言（含方言）隨附在“所有模型”的各系列子節內。

選型決策維度

從以下 4 個維度逐項確認，每個維度都會推薦適配的模型。

即時還是非即時？

即時是指在使用者說話的同時輸出識別結果，非即時是指錄音結束後再進行轉寫。

即時（即時語音辨識）：基於WebSocket協議，音頻流式輸入，文字資料流式輸出。適用於即時字幕、語音助手和會議轉寫。推薦使用 fun-asr-realtime（熱詞、方言支援）或 qwen3.5-omni-plus-realtime（Prompt上下文、多語種）。
非即時（錄音檔案識別）：基於HTTP協議，提交音頻檔案擷取識別結果。適用於話務中心錄音、播客和訪談等情境。推薦使用 fun-asr（熱詞、說話人分離）或 qwen3.5-omni-plus（Prompt上下文、多語種）。

Fun-ASR 和 Qwen-ASR 的即時模型支援通過 DashScope SDK（Java、Python）接入。其他模型需根據對應的 WebSocket 或 HTTP 協議直接調用。

選擇即時接入請參考即時語音辨識，選擇非即時接入請參考非即時語音辨識。

處理專業術語

兩種方式，按靈活性排序：

Prompt上下文注入：在系統提示詞中描述您的領域背景，無需預配置。模型在每次請求時自適應。代價是每次請求的延遲高於專用ASR模型。使用 qwen3.5-omni-plus-realtime（即時）或 qwen3.5-omni-plus（非即時）。
熱詞：提供帶權重的詞彙表。適合穩定且變化不頻繁的術語列表。使用 fun-asr-realtime（即時）或 fun-asr（非即時）。

說明

Qwen3.5-Omni不是傳統ASR，而是一個能理解音訊大語言模型。您通過Prompt注入上下文，模型無需熱詞列表即可自適應。

說話人分離

僅Fun-ASR系列的非即時模型（fun-asr、fun-asr-mtl）支援說話人分離。如果您需要區分“誰說了什麼”，請使用這些模型。

情感識別

Qwen-ASR 和 Qwen3.5-Omni 系列模型在轉寫的同時支援情感識別。推薦使用 qwen3-asr-flash-realtime（即時）或 qwen3-asr-flash-filetrans（非即時）。

所有模型

Fun-ASR

模型ID	模式	API	精度增強	情感識別	說話人分離	支援語言	音頻最大時間長度/大小
`fun-asr-realtime`	即時	WebSocket	熱詞	不支援	不支援	多語種及方言	無限制
`fun-asr-realtime-2026-02-28`	即時	WebSocket	熱詞	不支援	不支援	中、英、日及方言	無限制
`fun-asr-realtime-2025-11-07`	即時	WebSocket	熱詞	不支援	不支援	多語種及方言	無限制
`fun-asr-realtime-2025-09-15`	即時	WebSocket	熱詞	不支援	不支援	中、英	無限制
`fun-asr-flash-8k-realtime`	即時	WebSocket	熱詞	不支援	不支援	中文	無限制
`fun-asr-flash-8k-realtime-2026-01-28`	即時	WebSocket	熱詞	不支援	不支援	中文	無限制
`fun-asr`	非即時	HTTP	熱詞	不支援	支援	多語種及方言	12小時 / 2GB
`fun-asr-flash-2026-06-15`	非即時	HTTP	Prompt上下文	不支援	不支援	多語種及方言	5分鐘 / 2GB
`fun-asr-2025-11-07`	非即時	HTTP	熱詞	不支援	支援	多語種及方言	12小時 / 2GB
`fun-asr-2025-08-25`	非即時	HTTP	熱詞	不支援	支援	中、英	12小時 / 2GB
`fun-asr-mtl`	非即時	HTTP	熱詞	不支援	支援	多語種及方言	12小時 / 2GB
`fun-asr-mtl-2025-08-25`	非即時	HTTP	熱詞	不支援	支援	多語種及方言	12小時 / 2GB

支援的語言（按版本）：

Fun-ASR-Realtime 主要版本（fun-asr-realtime、fun-asr-realtime-2025-11-07）：中文（普通話、粵語、吳語、閩南語、客家話、贛語、湘語、晉語；並支援中原、西南、冀魯、江淮、蘭銀、膠遼、東北、北京、港台等，包括河南、陝西、湖北、四川、重慶、雲南、貴州、廣東、廣西、河北、天津、山東、安徽、南京、江蘇、杭州、甘肅、寧夏等地區官話口音）、英語、日語、韓語、越南語、泰語、印尼語、馬來語、菲律賓語、印地語、阿拉伯語、法語、德語、西班牙語、葡萄牙語、俄語、意大利語、荷蘭語、瑞典語、丹麥語、芬蘭語、挪威語、希臘語、波蘭語、捷克語、匈牙利語、羅馬尼亞語、保加利亞語、克羅地亞語、斯洛伐克語
fun-asr-realtime-2026-02-28：中文（普通話、粵語、吳語、閩南語、客家話、贛語、湘語、晉語；並支援中原、西南、冀魯、江淮、蘭銀、膠遼、東北、北京、港台等，包括河南、陝西、湖北、四川、重慶、雲南、貴州、廣東、廣西、河北、天津、山東、安徽、南京、江蘇、杭州、甘肅、寧夏等地區官話口音）、英語、日語
fun-asr-realtime-2025-09-15：中文（普通話）、英文
Fun-ASR-Flash-8K-Realtime（fun-asr-flash-8k-realtime、fun-asr-flash-8k-realtime-2026-01-28）：中文
Fun-ASR / Fun-ASR-MTL 主要版本（fun-asr、fun-asr-2025-11-07）：中文（普通話、粵語、吳語、閩南語、客家話、贛語、湘語、晉語；並支援中原、西南、冀魯、江淮、蘭銀、膠遼、東北、北京、港台等，包括河南、陝西、湖北、四川、重慶、雲南、貴州、廣東、廣西、河北、天津、山東、安徽、南京、江蘇、杭州、甘肅、寧夏等地區官話口音）、英語、日語、韓語、越南語、泰語、印尼語、馬來語、菲律賓語、印地語、阿拉伯語、法語、德語、西班牙語、葡萄牙語、俄語、意大利語、荷蘭語、瑞典語、丹麥語、芬蘭語、挪威語、希臘語、波蘭語、捷克語、匈牙利語、羅馬尼亞語、保加利亞語、克羅地亞語、斯洛伐克語
Fun-ASR-Flash（fun-asr-flash-2026-06-15）：中文（普通話、粵語、吳語、閩南語、客家話、贛語、湘語、晉語；並支援中原、西南、冀魯、江淮、蘭銀、膠遼、東北、北京、港台等，包括河南、陝西、湖北、四川、重慶、雲南、貴州、廣東、廣西、河北、天津、山東、安徽、南京、江蘇、杭州、甘肅、寧夏等地區官話口音）、英語、日語、韓語、越南語、泰語、印尼語、馬來語、菲律賓語、印地語、阿拉伯語、法語、德語、西班牙語、葡萄牙語、俄語、意大利語、荷蘭語、瑞典語、丹麥語、芬蘭語、挪威語、希臘語、波蘭語、捷克語、匈牙利語、羅馬尼亞語、保加利亞語、克羅地亞語、斯洛伐克語
fun-asr-2025-08-25：中文（普通話）、英文
Fun-ASR-MTL（fun-asr-mtl、fun-asr-mtl-2025-08-25）：中文（普通話、粵語）、英語、日語、韓語、越南語、泰語、印尼語、馬來語、菲律賓語、印地語、阿拉伯語、法語、德語、西班牙語、葡萄牙語、俄語、意大利語、荷蘭語、瑞典語、丹麥語、芬蘭語、挪威語、希臘語、波蘭語、捷克語、匈牙利語、羅馬尼亞語、保加利亞語、克羅地亞語、斯洛伐克語

Qwen-ASR

模型ID	模式	API	精度增強	情感識別	說話人分離	支援語言	音頻最大時間長度/大小
`qwen3-asr-flash-realtime`	即時	WebSocket	不支援	支援	不支援	多語種及方言	無限制
`qwen3-asr-flash-realtime-2026-02-10`	即時	WebSocket	不支援	支援	不支援	多語種及方言	無限制
`qwen3-asr-flash-realtime-2025-10-27`	即時	WebSocket	不支援	支援	不支援	多語種及方言	無限制
`qwen3-asr-flash-filetrans`	非即時	HTTP	不支援	支援	不支援	多語種及方言	12小時 / 2GB
`qwen3-asr-flash-filetrans-2025-11-17`	非即時	HTTP	不支援	支援	不支援	多語種及方言	12小時 / 2GB
`qwen3-asr-flash`	非即時	HTTP（OpenAI相容）	不支援	支援	不支援	多語種及方言	5分鐘 / 10MB
`qwen3-asr-flash-2026-02-10`	非即時	HTTP（OpenAI相容）	不支援	支援	不支援	多語種及方言	5分鐘 / 10MB
`qwen3-asr-flash-2025-09-08`	非即時	HTTP（OpenAI相容）	不支援	支援	不支援	多語種及方言	5分鐘 / 10MB

支援的語言：所有 Qwen-ASR 系列模型（qwen3-asr-flash-realtime、qwen3-asr-flash-filetrans、qwen3-asr-flash 及其快照版）均支援相同的語言列表：中文（普通話、四川話、閩南語、吳語、粵語）、英語、日語、德語、韓語、俄語、法語、葡萄牙語、阿拉伯語、意大利語、西班牙語、印地語、印尼語、泰語、土耳其語、烏克蘭語、越南語、捷克語、丹麥語、菲律賓語、芬蘭語、冰島語、馬來語、挪威語、波蘭語、瑞典語。

Qwen3.5-Omni / Qwen3-Omni

模型ID	模式	API	精度增強	情感識別	說話人分離	支援語言	音頻最大時間長度/大小
`qwen3.5-omni-plus-realtime`	即時	WebSocket	Prompt上下文	支援	不支援	多語種	2小時
`qwen3.5-omni-plus`	非即時	HTTP（OpenAI相容）	Prompt上下文	支援	不支援	多語種	3小時 / 2GB
`qwen3.5-omni-flash-realtime`	即時	WebSocket	Prompt上下文	支援	不支援	多語種	2小時
`qwen3.5-omni-flash`	非即時	HTTP（OpenAI相容）	Prompt上下文	支援	不支援	多語種	3小時 / 2GB
`qwen3-omni-flash-realtime`	即時	WebSocket	Prompt上下文	支援	不支援	多語種及方言	2小時
`qwen3-omni-flash`	非即時	HTTP（OpenAI相容）	Prompt上下文	支援	不支援	多語種及方言	20分鐘 / 100MB

支援的語言：Qwen3.5-Omni / Qwen3-Omni 不屬於專用 ASR 模型，其支援的語言以各模型的使用者指南和 API 文檔為準。

Paraformer

Paraformer 是較早一代的 ASR 模型，包括即時與非即時兩類。若您的業務允許，建議遷移到前文推薦的 Fun-ASR 或 Qwen-ASR。

模型ID	API	說明
`paraformer-realtime-v2`	WebSocket	即時識別，中、英、日、韓、德、法、俄
`paraformer-realtime-v1`	WebSocket	即時識別，中、英、日、韓、德、法、俄
`paraformer-realtime-8k-v2`	WebSocket	即時識別，8kHz電話情境，中文
`paraformer-realtime-8k-v1`	WebSocket	即時識別，8kHz電話情境，中文
`paraformer-v2`	HTTP	錄音檔案識別，支援說話人分離，中、英、日、韓、德、法、俄
`paraformer-8k-v2`	HTTP	錄音檔案識別，8kHz電話情境，中文

支援的語言（按版本）：

paraformer-realtime-v2、paraformer-v2：中文（普通話、粵語、吳語、閩南語、東北話、甘肅話、貴州話、河南話、湖北話、湖南話、寧夏話、山西話、陝西話、山東話、四川話、天津話、江西話、雲南話、上海話）、英文、日語、韓語、德語、法語、俄語
paraformer-realtime-v1、paraformer-realtime-8k-v2、paraformer-realtime-8k-v1、paraformer-8k-v2：中文普通話

音頻規格

下表匯總了即時和非即時兩種模式下的音頻規格（輸入方式、格式、採樣率、大小/時間長度）。各模型支援的語言（含方言）見上文“所有模型”內對應系列子節。Qwen3.5-Omni / Qwen3-Omni 不屬於專用 ASR，其音頻規格請以各自模型的使用者指南和 API 文檔為準。

即時

模型ID	輸入方式	音頻格式	採樣率	大小/時間長度
Fun-ASR-Realtime（`fun-asr-realtime` 系列）	二進位（Binary）流	`pcm`、`wav`、`mp3`、`opus`、`speex`、`aac`、`amr`	任意	不限
Fun-ASR-Flash-8K-Realtime（`fun-asr-flash-8k-realtime` 系列）	二進位（Binary）流	同 Fun-ASR-Realtime	8 kHz	不限
Qwen-ASR-Realtime（`qwen3-asr-flash-realtime` 系列）	二進位（Binary）流	`pcm`、`opus`	8 kHz、16 kHz	不限
Paraformer-Realtime（`paraformer-realtime-v2/v1`、`paraformer-realtime-8k-v2/v1`）	二進位（Binary）流	同 Fun-ASR-Realtime	`paraformer-realtime-v2` 任意；`paraformer-realtime-v1` 16 kHz；`paraformer-realtime-8k-*` 8 kHz	不限

所有即時模型均為單聲道輸入。

非即時

模型ID	輸入方式	音頻格式	採樣率	檔案大小/時間長度
Fun-ASR（`fun-asr`、`fun-asr-mtl` 系列）	公網可訪問的檔案 URL，單次 1 個	`aac`、`amr`、`avi`、`flac`、`flv`、`m4a`、`mkv`、`mov`、`mp3`、`mp4`、`mpeg`、`ogg`、`opus`、`wav`、`webm`、`wma`、`wmv`	任意	≤2 GB；≤12 小時（啟用說話人分離建議 ≤2 小時）
Fun-ASR-Flash（`fun-asr-flash-2026-06-15`）	URL / Base64，單次 1 個	`aac`、`amr`、`avi`、`flac`、`flv`、`m4a`、`mkv`、`mov`、`mp3`、`mp4`、`mpeg`、`ogg`、`opus`、`wav`、`webm`、`wma`、`wmv`	任意	≤2 GB；≤5 分鐘
Paraformer（`paraformer-v2/v1`、`paraformer-mtl-v1`、`paraformer-8k-v2/v1`）	同 Fun-ASR	同 Fun-ASR	`paraformer-v2` 任意；`paraformer-8k-*` 僅 8 kHz	同 Fun-ASR
Qwen3-ASR-Flash-Filetrans（`qwen3-asr-flash-filetrans` 系列）	公網可訪問的檔案 URL，單次 1 個	`aac`、`amr`、`avi`、`flac`、`flv`、`m4a`、`mkv`、`mov`、`mp3`、`mp4`、`mpeg`、`ogg`、`opus`、`wav`、`webm`、`wma`、`wmv`	`pcm` 必須 16 kHz；其他格式任意（服務端會重採樣為 16 kHz 再識別）	≤2 GB；≤12 小時
Qwen3-ASR-Flash（`qwen3-asr-flash` 系列）	URL / Base64 / 本地檔案絕對路徑，單次 1 個	`aac`、`amr`、`avi`、`aiff`、`flac`、`flv`、`mkv`、`mp3`、`mpeg`、`ogg`、`opus`、`wav`、`webm`、`wma`、`wmv`	`pcm` 必須 16 kHz；其他格式任意（服務端會重採樣為 16 kHz 再識別）	≤10 MB；≤5 分鐘