选择适合实时语音识别、录音文件转写等场景的模型。
通过以下两个问题可以快速缩小语音识别模型选择范围:
您需要在用户说话时实时获取结果,还是在录音结束后批量处理?
您的音频是否包含专业术语?
实时还是非实时?
实时
基于WebSocket协议,音频流式输入,文本流式输出。适用于实时字幕、语音助手和会议转写。
模型 | 系列 | 核心优势 |
| Fun-ASR | 热词、方言支持、多语种混合识别 |
| Qwen3-ASR | 情绪识别 |
| Qwen3.5-Omni | Prompt上下文注入、语义打断、113种语言 |
| Qwen3.5-Omni | 轻量版,低成本 |
| Qwen3-Omni(上一代) | Prompt上下文注入 |
非实时
提交音频文件,轮询获取结果。支持最长12小时、最大2 GB的录音文件。适用于呼叫中心录音、播客和访谈等场景。
模型 | 系列 | 核心优势 |
| Fun-ASR | 说话人分离、热词、多语种混合识别 |
| Qwen3-ASR | 情绪识别 |
| Qwen3.5-Omni | Prompt上下文注入、113种语言、OpenAI兼容接口 |
| Qwen3.5-Omni | 轻量版,低成本,OpenAI兼容HTTP接口 |
| Qwen3-Omni-Flash(上一代) | Prompt上下文注入、多模态、OpenAI兼容接口 |
近实时替代方案
非实时API也接受短音频片段。可以提交5秒的音频分片来获得近实时的识别结果,无需使用WebSocket。但真正的WebSocket方案可以避免重连开销,如果延迟敏感,建议使用实时模型。
处理专业术语
两种方式,按灵活性排序:
Prompt上下文注入(Qwen3.5-Omni):在系统提示词中描述您的领域背景,无需预配置。模型在每次请求时自适应。代价是每次请求的延迟高于专用ASR模型。
热词(Fun-ASR):提供带权重的词汇表。适合稳定且变化不频繁的术语列表。
Qwen3.5-Omni不是传统ASR,而是一个能理解音频的大语言模型。您通过Prompt注入上下文,模型无需热词列表即可自适应。
说话人分离
仅Fun-ASR系列的非实时模型(fun-asr、fun-asr-mtl)支持说话人分离。如果您需要区分"谁说了什么",请使用这些模型。
情绪识别
qwen3-asr-flash-realtime、qwen3-asr-flash-filetrans以及Qwen3.5-Omni系列模型在转写的同时支持情绪识别。
完整对比
模型 | 模式 | API | 精度增强 | 情绪 | 说话人分离 | 支持语言 | 最大时长 |
| 实时 | WebSocket | 热词(仅中国内地) | 不支持 | 不支持 | 中、英、日及方言 | 流式 |
| 非实时 | 异步REST | 热词 | 不支持 | 支持 | 中、英、日及方言 | 12小时 / 2GB |
| 实时 | WebSocket | -- | 支持 | 不支持 | 26种语言 | 流式 |
| 非实时 | 异步REST | -- | 支持 | 不支持 | 26种语言 | 12小时 / 2GB |
| 实时 | WebSocket | 热词 | 不支持 | 不支持 | 中、英、日、韩、德、法、俄 | 流式 |
| 非实时 | 异步REST | 热词 | 不支持 | 支持 | 中、英、日、韩、德、法、俄 | 12小时 / 2GB |
| 实时 | WebSocket | 热词 | 支持 | 不支持 | 中文 | 流式 |
| 非实时 | 异步REST | 热词 | 不支持 | 不支持 | 中文 | 12小时 / 2GB |
| 非实时 | HTTP(OpenAI兼容) | Prompt上下文 | 支持 | 不支持 | 113种语言 | 单次请求限制 |
| 非实时 | HTTP(OpenAI兼容) | Prompt上下文 | 支持 | 不支持 | 113种语言 | 单次请求限制 |
| 实时 | WebSocket | Prompt上下文 | 支持 | 不支持 | 113种语言 | 120分钟 |
| 实时 | WebSocket | Prompt上下文 | 支持 | 不支持 | 113种语言 | 120分钟 |
| 非实时 | HTTP(OpenAI兼容) | Prompt上下文 | 支持 | 不支持 | 中、英、日、韩、德、法、意、西、葡、俄;中文方言:四川话、上海话、粤语、闽南语、陕西话、南京话、天津话、北京话 | 单次请求限制 |
| 实时 | WebSocket | Prompt上下文 | 支持 | 不支持 | 中、英、日、韩、德、法、意、西、葡、俄;中文方言:四川话、上海话、粤语、闽南语、陕西话、南京话、天津话、北京话 | 120分钟 |
所有模型均支持WAV、MP3、AAC等常见音频格式。
适用范围
不同地域支持的模型有所不同。请根据您的 API Key 所属地域查看可用模型。
国际
使用新加坡地域的 API Key 访问以下模型。
模型系列 | 模式 | 可用模型 |
Fun-ASR | 实时 |
|
非实时 |
| |
Qwen3-ASR | 实时 |
|
非实时 |
| |
Qwen3.5-Omni Qwen3-Omni | 实时 / 非实时 |
|
中国内地
使用北京地域的 API Key 访问以下模型。
模型系列 | 模式 | 类型 | 可用模型 |
Fun-ASR | 实时 | 推荐 |
|
非实时 | 推荐 |
| |
Qwen3-ASR | 实时 | 推荐 |
|
非实时 | 推荐 |
| |
Qwen3.5-Omni Qwen3-Omni | 实时 / 非实时 | 推荐 |
|
Legacy | 实时 | 旧版 |
|
非实时 |
| ||
非实时 |
|
美国地域额外支持 qwen3-asr-flash-us(非实时),需使用美国地域的 API Key。