全部產品
Search
文件中心

Alibaba Cloud Model Studio:語音轉文字模型

更新時間:Apr 22, 2026

選擇適合即時語音辨識、錄音檔案轉寫等情境的模型。

通過以下兩個問題可以快速縮小語音辨識模型選擇範圍:

  1. 您需要在使用者說話時即時擷取結果,還是在錄音結束後批量處理?

  2. 您的音頻是否包含專業術語?

即時還是非即時?

即時

基於WebSocket協議,音頻流式輸入,文字資料流式輸出。適用於即時字幕、語音助手和會議轉寫。

模型

系列

核心優勢

fun-asr-realtime

Fun-ASR

熱詞、方言支援、多語種混合識別

qwen3-asr-flash-realtime

Qwen3-ASR

情緒識別

qwen3.5-omni-plus-realtime

Qwen3.5-Omni

Prompt上下文注入、語義打斷、113種語言

qwen3.5-omni-flash-realtime

Qwen3.5-Omni

輕量版,低成本

qwen3-omni-flash-realtime

Qwen3-Omni(上一代)

Prompt上下文注入

非即時

提交音頻檔案,輪詢擷取結果。支援最長12小時、最大2 GB的錄音檔案。適用於話務中心錄音、播客和訪談等情境。

模型

系列

核心優勢

fun-asr

Fun-ASR

說話人分離、熱詞、多語種混合識別

qwen3-asr-flash-filetrans

Qwen3-ASR

情緒識別

qwen3.5-omni-plus

Qwen3.5-Omni

Prompt上下文注入、113種語言、OpenAI相容介面

qwen3.5-omni-flash

Qwen3.5-Omni

輕量版,低成本,OpenAI相容HTTP介面

qwen3-omni-flash

Qwen3-Omni-Flash(上一代)

Prompt上下文注入、多模態、OpenAI相容介面

近即時替代方案

非即時API也接受短音頻片段。可以提交5秒的音頻分區來獲得近即時的識別結果,無需使用WebSocket。但真正的WebSocket方案可以避免重連開銷,如果延遲敏感,建議使用即時模型。

處理專業術語

兩種方式,按靈活性排序:

  1. Prompt上下文注入(Qwen3.5-Omni):在系統提示詞中描述您的領域背景,無需預配置。模型在每次請求時自適應。代價是每次請求的延遲高於專用ASR模型。

  2. 熱詞(Fun-ASR):提供帶權重的詞彙表。適合穩定且變化不頻繁的術語列表。

說明

Qwen3.5-Omni不是傳統ASR,而是一個能理解音訊大語言模型。您通過Prompt注入上下文,模型無需熱詞列表即可自適應。

說話人分離

僅Fun-ASR系列的非即時模型(fun-asrfun-asr-mtl)支援說話人分離。如果您需要區分"誰說了什麼",請使用這些模型。

情緒識別

qwen3-asr-flash-realtimeqwen3-asr-flash-filetrans以及Qwen3.5-Omni系列模型在轉寫的同時支援情緒識別。

完整對比

模型

模式

API

精度增強

情緒

說話人分離

支援語言

最大時間長度

fun-asr-realtime

即時

WebSocket

熱詞(僅中國內地)

不支援

不支援

中、英、日及方言

流式

fun-asr

非即時

非同步REST

熱詞

不支援

支援

中、英、日及方言

12小時 / 2GB

qwen3-asr-flash-realtime

即時

WebSocket

--

支援

不支援

26種語言

流式

qwen3-asr-flash-filetrans

非即時

非同步REST

--

支援

不支援

26種語言

12小時 / 2GB

paraformer-realtime-v2

即時

WebSocket

熱詞

不支援

不支援

中、英、日、韓、德、法、俄

流式

paraformer-v2

非即時

非同步REST

熱詞

不支援

支援

中、英、日、韓、德、法、俄

12小時 / 2GB

paraformer-realtime-8k-v2

即時

WebSocket

熱詞

支援

不支援

中文

流式

paraformer-8k-v2

非即時

非同步REST

熱詞

不支援

不支援

中文

12小時 / 2GB

qwen3.5-omni-plus

非即時

HTTP(OpenAI相容)

Prompt上下文

支援

不支援

113種語言

單次要求節流

qwen3.5-omni-flash

非即時

HTTP(OpenAI相容)

Prompt上下文

支援

不支援

113種語言

單次要求節流

qwen3.5-omni-plus-realtime

即時

WebSocket

Prompt上下文

支援

不支援

113種語言

120分鐘

qwen3.5-omni-flash-realtime

即時

WebSocket

Prompt上下文

支援

不支援

113種語言

120分鐘

qwen3-omni-flash(上一代)

非即時

HTTP(OpenAI相容)

Prompt上下文

支援

不支援

中、英、日、韓、德、法、意、西、葡、俄;中文方言:四川話、上海話、粵語、閩南語、陝西話、南京話、天津話、北京話

單次要求節流

qwen3-omni-flash-realtime(上一代)

即時

WebSocket

Prompt上下文

支援

不支援

中、英、日、韓、德、法、意、西、葡、俄;中文方言:四川話、上海話、粵語、閩南語、陝西話、南京話、天津話、北京話

120分鐘

說明

所有模型均支援WAV、MP3、AAC等常見音頻格式。

適用範圍

不同地區支援的模型有所不同。請根據您的 API Key 所屬地區查看可用模型。

國際

使用新加坡地區的 API Key 訪問以下模型。

模型系列

模式

可用模型

Fun-ASR

即時

fun-asr-realtime

非即時

fun-asrfun-asr-mtl

Qwen3-ASR

即時

qwen3-asr-flash-realtime

非即時

qwen3-asr-flash-filetransqwen3-asr-flash

Qwen3.5-Omni

Qwen3-Omni

即時 / 非即時

qwen3.5-omni-plus-realtimeqwen3.5-omni-flash-realtimeqwen3.5-omni-plusqwen3.5-omni-flashqwen3-omni-flash-realtime(上一代)、qwen3-omni-flash(上一代)

中國內地

使用北京地區的 API Key 訪問以下模型。

模型系列

模式

類型

可用模型

Fun-ASR

即時

推薦

fun-asr-realtimefun-asr-flash-8k-realtimefun-asr-mtl-realtime

非即時

推薦

fun-asrfun-asr-mtl

Qwen3-ASR

即時

推薦

qwen3-asr-flash-realtime

非即時

推薦

qwen3-asr-flash-filetransqwen3-asr-flash

Qwen3.5-Omni

Qwen3-Omni

即時 / 非即時

推薦

qwen3.5-omni-plus-realtimeqwen3.5-omni-flash-realtimeqwen3.5-omni-plusqwen3.5-omni-flashqwen3-omni-flash-realtime(上一代)、qwen3-omni-flash(上一代)

Legacy

即時

舊版

gummy-realtime-v1gummy-chat-v1paraformer-realtime-v2paraformer-realtime-v1paraformer-realtime-8k-v2paraformer-realtime-8k-v1

非即時

paraformer-v2paraformer-8k-v2paraformer-v1paraformer-8k-v1paraformer-mtl-v1

非即時

sensevoice-v1(即將下線)

說明

美國地區額外支援 qwen3-asr-flash-us(非即時),需使用美國地區的 API Key。