本文介绍 Qwen-ASR 模型的输入与输出参数。可通过OpenAI 兼容或DashScope协议调用 API。
用户指南:模型介绍和选型请参见录音文件识别-千问。
模型接入方式
不同模型支持的接入方式不同,请根据下表选择正确的方式进行集成。
|
模型 |
接入方式 |
|
千问3-ASR-Flash-Filetrans |
仅支持DashScope异步调用方式 |
|
千问3-ASR-Flash |
OpenAI 兼容
美国地域不支持OpenAI兼容模式。
URL
国际
在国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。
HTTP请求地址:POST https://dashscope-intl.aliyuncs.com/compatible-mode/v1/chat/completions
SDK调用配置的base_url:https://dashscope-intl.aliyuncs.com/compatible-mode/v1
中国内地
在中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。
HTTP请求地址:POST https://dashscope.aliyuncs.com/compatible-mode/v1/chat/completions
SDK调用配置的base_url:https://dashscope.aliyuncs.com/compatible-mode/v1
请求体 |
输入内容:音频文件URLPython SDK
Node.js SDK
cURL通过System Message的
输入内容:Base64编码的音频文件可输入Base64编码数据(Data URL),格式为:
Python SDK示例中用到的音频文件为:welcome.mp3。
Node.js SDK示例中用到的音频文件为:welcome.mp3。
|
|
model 模型名称。仅适用于千问3-ASR-Flash模型。 |
|
|
messages 消息列表。 |
|
|
asr_options 用来指定某些功能是否启用。
|
|
|
stream 是否以流式输出方式回复。相关文档:流式输出 可选值:
推荐设置为 |
|
|
stream_options 流式输出的配置项,仅在 |
返回体 |
非流式输出
流式输出
|
|
id 本次调用的唯一标识符。 |
|
|
choices 模型的输出信息。 |
|
|
created 请求创建时的 Unix 时间戳(秒)。 |
|
|
model 本次请求使用的模型。 |
|
|
object 始终为 |
|
|
usage 本次请求的Token消耗信息。 |
DashScope同步调用
URL
国际
在国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。
HTTP请求地址:POST https://dashscope-intl.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation
SDK调用配置的base_url:https://dashscope-intl.aliyuncs.com/api/v1
美国
在美国部署模式下,接入点与数据存储均位于美国(弗吉尼亚)地域,模型推理计算资源仅限于美国境内。
HTTP请求地址:POST https://dashscope-us.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation
SDK调用配置的base_url:https://dashscope-us.aliyuncs.com/api/v1
中国内地
在中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。
HTTP请求地址:POST https://dashscope.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation
SDK调用配置的base_url:https://dashscope.aliyuncs.com/api/v1
请求体 |
千问3-ASR-Flash以下示例为音频 URL 识别;本地音频文件识别示例请参见快速开始。 cURL
Java
Python
|
|
model 模型名称。仅适用于千问3-ASR-Flash模型。 |
|
|
messages 消息列表。 通过HTTP调用时,请将messages 放入 input 对象中。 |
|
|
asr_options 用来指定某些功能是否启用。 仅千问3-ASR-Flash支持该参数。 |
返回体 |
千问3-ASR-Flash
|
|
request_id 本次调用的唯一标识符。 Java SDK返回参数为requestId。 |
|
|
output 调用结果信息。 |
|
|
usage 本次请求的Token消耗信息。 |
DashScope异步调用
流程说明
与OpenAI兼容模式或DashScope同步调用(均为一次请求、立即返回结果)不同,异步调用专为处理长音频文件或耗时较长的任务设计,该模式采用“提交-轮询”的两步式流程,避免了因长时间等待而导致的请求超时:
-
第一步:提交任务
-
客户端发起一个异步处理请求。
-
服务器验证请求后,不会立即执行任务,而是返回一个唯一的
task_id,表示任务已成功创建。
-
-
第二步:获取结果
-
客户端使用获取到的
task_id,通过轮询方式反复调用结果查询接口。 -
当任务处理完成后,结果查询接口将返回最终的识别结果。
-
您可以根据集成环境选择使用SDK或直接调用RESTful API。
-
使用 SDK(示例代码请参见快速开始,请求参数请参见提交任务的请求体,返回结果请参见异步调用识别结果说明)
SDK封装了底层的API调用细节,提供了更便捷的编程体验。
-
提交任务:调用
async_call()(Python) 或asyncCall()(Java) 方法提交任务。此方法将返回一个包含task_id的任务对象。 -
获取结果:使用上一步返回的任务对象或
task_id,调用fetch()方法获取结果。SDK内部会自动处理轮询逻辑,直到任务完成或超时。
-
-
2. 使用 RESTful API
直接调用HTTP接口提供了最大的灵活性。
提交任务
URL
国际
在国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。
HTTP请求地址:POST https://dashscope-intl.aliyuncs.com/api/v1/services/audio/asr/transcription
SDK调用配置的base_url:https://dashscope-intl.aliyuncs.com/api/v1
中国内地
在中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。
HTTP请求地址:POST https://dashscope.aliyuncs.com/api/v1/services/audio/asr/transcription
SDK调用配置的base_url:https://dashscope.aliyuncs.com/api/v1
请求体 |
cURLJavaSDK示例请参见快速开始。
PythonSDK示例请参见快速开始。
|
|
model 模型名称。仅适用于千问3-ASR-Flash-Filetrans模型。 |
|
|
input |
|
|
parameters |
返回体 |
|
|
request_id 本次调用的唯一标识符。 |
|
|
output 调用结果信息。 |
获取任务执行结果
URL
国际
HTTP请求地址:GET https://dashscope-intl.aliyuncs.com/api/v1/tasks/{task_id}
SDK调用配置的base_url:https://dashscope-intl.aliyuncs.com/api/v1
中国内地
SDK调用配置的base_url:https://dashscope.aliyuncs.com/api/v1
HTTP请求地址:GET https://dashscope.aliyuncs.com/api/v1/tasks/{task_id}
请求体 |
cURLJavaSDK示例请参见快速开始。
PythonSDK示例请参见快速开始。
|
|
task_id 任务ID。将提交任务返回结果中的task_id作为参数传入,查询语音识别结果。 |
返回体 |
RUNNING
SUCCEEDED
FAILED
|
|
request_id 本次调用的唯一标识符。 |
|
|
output 调用结果信息。 |
异步调用识别结果说明 |
|
|
file_url 被识别的音频文件URL。 |
|
|
audio_info 被识别音频文件相关信息。 |
|
|
transcripts 完整的识别结果列表,每个元素对应一条音轨的识别内容。 |