全部產品
Search
文件中心

Alibaba Cloud Model Studio:錄音檔案識別(Qwen-ASR)API參考

更新時間:Dec 20, 2025

本文介紹 Qwen-ASR 模型的輸入與輸出參數。

使用者指南:模型介紹和選型請參見錄音檔案識別-通義千問

通義千問3-ASR-Flash和通義千問Audio ASR模型需採用同步調用接入;通義千問3-ASR-Flash-Filetrans模型需採用非同步呼叫接入。兩種調用方式在請求體、返回體及流程上均存在差異,請勿混用。

同步調用

中國大陸(北京):POST https://dashscope.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation

國際(新加坡):POST https://dashscope-intl.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation

請求體

通義千問3-ASR-Flash

以下樣本為音頻 URL 識別;本地音頻檔案識別樣本請參見快速開始

cURL

# ======= 重要提示 =======
# 以下為新加坡地區url,若使用北京地區的模型,需將url替換為:https://dashscope.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation
# 新加坡地區和北京地區的API Key不同。擷取API Key:https://www.alibabacloud.com/help/zh/model-studio/get-api-key
# === 執行時請刪除該注釋 ===

curl --location --request POST "https://dashscope-intl.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation" \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header "Content-Type: application/json" \
--data "{
    "model": "qwen3-asr-flash",
    "input": {
        "messages": [
            {
                "content": [
                    {
                        "text": ""
                    }
                ],
                "role": "system"
            },
            {
                "content": [
                    {
                        "audio": "https://dashscope.oss-cn-beijing.aliyuncs.com/audios/welcome.mp3"
                    }
                ],
                "role": "user"
            }
        ]
    },
    "parameters": {
        "asr_options": {
            "enable_itn": false
        }
    }
}"

Java

import java.util.Arrays;
import java.util.Collections;
import java.util.HashMap;
import java.util.Map;

import com.alibaba.dashscope.aigc.multimodalconversation.MultiModalConversation;
import com.alibaba.dashscope.aigc.multimodalconversation.MultiModalConversationParam;
import com.alibaba.dashscope.aigc.multimodalconversation.MultiModalConversationResult;
import com.alibaba.dashscope.common.MultiModalMessage;
import com.alibaba.dashscope.common.Role;
import com.alibaba.dashscope.exception.ApiException;
import com.alibaba.dashscope.exception.NoApiKeyException;
import com.alibaba.dashscope.exception.UploadFileException;
import com.alibaba.dashscope.utils.Constants;
import com.alibaba.dashscope.utils.JsonUtils;

public class Main {
    public static void simpleMultiModalConversationCall()
            throws ApiException, NoApiKeyException, UploadFileException {
        MultiModalConversation conv = new MultiModalConversation();
        MultiModalMessage userMessage = MultiModalMessage.builder()
                .role(Role.USER.getValue())
                .content(Arrays.asList(
                        Collections.singletonMap("audio", "https://dashscope.oss-cn-beijing.aliyuncs.com/audios/welcome.mp3")))
                .build();

        MultiModalMessage sysMessage = MultiModalMessage.builder().role(Role.SYSTEM.getValue())
                // 此處用於配置定製化識別的Context
                .content(Arrays.asList(Collections.singletonMap("text", "")))
                .build();

        Map<String, Object> asrOptions = new HashMap<>();
        asrOptions.put("enable_itn", false);
        // asrOptions.put("language", "zh"); // 可選,若已知音訊語種,可通過該參數指定待識別語種,以提升識別準確率
        MultiModalConversationParam param = MultiModalConversationParam.builder()
                // 新加坡地區和北京地區的API Key不同。擷取API Key:https://www.alibabacloud.com/help/zh/model-studio/get-api-key
                // 若沒有配置環境變數,請用百鍊API Key將下行替換為:.apiKey("sk-xxx")
                .apiKey(System.getenv("DASHSCOPE_API_KEY"))
                .model("qwen3-asr-flash")
                .message(userMessage)
                .message(sysMessage)
                .parameter("asr_options", asrOptions)
                .build();
        MultiModalConversationResult result = conv.call(param);
        System.out.println(JsonUtils.toJson(result));
    }
    public static void main(String[] args) {
        try {
            // 以下為新加坡地區url,若使用北京地區的模型,需將url替換為:https://dashscope.aliyuncs.com/api/v1
            Constants.baseHttpApiUrl = "https://dashscope-intl.aliyuncs.com/api/v1";
            simpleMultiModalConversationCall();
        } catch (ApiException | NoApiKeyException | UploadFileException e) {
            System.out.println(e.getMessage());
        }
        System.exit(0);
    }
}

Python

import os
import dashscope

# 以下為新加坡地區url,若使用北京地區的模型,需將url替換為:https://dashscope.aliyuncs.com/api/v1
dashscope.base_http_api_url = 'https://dashscope-intl.aliyuncs.com/api/v1'

messages = [
    {"role": "system", "content": [{"text": ""}]},  # 配置定製化識別的 Context
    {"role": "user", "content": [{"audio": "https://dashscope.oss-cn-beijing.aliyuncs.com/audios/welcome.mp3"}]}
]

response = dashscope.MultiModalConversation.call(
    # 新加坡地區和北京地區的API Key不同。擷取API Key:https://www.alibabacloud.com/help/zh/model-studio/get-api-key
    # 若沒有配置環境變數,請用百鍊API Key將下行替換為:api_key = "sk-xxx"
    api_key=os.getenv("DASHSCOPE_API_KEY"),
    model="qwen3-asr-flash",
    messages=messages,
    result_format="message",
    asr_options={
        #"language": "zh", # 可選,若已知音訊語種,可通過該參數指定待識別語種,以提升識別準確率
        "enable_itn":False
    }
)
print(response)

model string (必選)

模型名稱。僅適用於通義千問3-ASR-Flash和通義千問Audio ASR模型。

messages array (必選)

訊息列表。

通過HTTP調用時,請將messages 放入 input 對象中。

訊息類型

System Message object(可選)

模型的目標或角色。如果設定系統訊息,請放在messages列表的第一位。

僅通義千問3-ASR-Flash支援該參數,通義千問Audio ASR不支援。

屬性

content array(必選)

訊息內容。

屬性

text string

指定上下文(Context)。通義千問3-ASR-Flash支援使用者在語音辨識的同時,提供背景文本、實體詞表等參考資訊(Context),從而獲得定製化的識別結果。

長度限制:不超過10000 Token。

具體介紹請參見上下文增強

role string (必選)

固定為system

User Message object(必選)

使用者發送給模型的訊息。

屬性

content array (必選)

使用者訊息的內容。

屬性

audio string(必選)

待識別音頻。具體用法請參見快速開始

通義千問3-ASR-Flash模型支援三種輸入形式:Base64編碼的檔案、本地檔案絕對路徑、公網可訪問的待識別檔案URL。

通義千問Audio ASR模型支援兩種輸入形式:本地檔案絕對路徑、公網可訪問的待識別檔案URL。

使用SDK時,若錄音檔案儲存體在阿里雲OSS,不支援使用以 oss://為首碼的臨時 URL。

使用RESTful API時,若錄音檔案儲存體在阿里雲OSS,支援使用以 oss://為首碼的臨時 URL。但需注意:

重要
  • 臨時 URL 有效期間48小時,到期後無法使用,請勿用於生產環境。

  • 檔案上傳憑證介面限流為 100 QPS 且不支援擴容,請勿用於生產環境、高並發及壓測情境。

  • 生產環境建議使用阿里雲OSS 等穩定儲存,確保檔案長期可用並規避限流問題。

role string (必選)

使用者訊息的角色,固定為user

asr_options object (可選)

用來指定某些功能是否啟用。

僅通義千問3-ASR-Flash支援該參數,通義千問Audio ASR不支援。

屬性

language string(可選)無預設值

若已知音訊語種,可通過該參數指定待識別語種,以提升識別準確率。

只能指定一個語種。

若音頻語種不確定,或包含多種語種(例如中英日韓混合),請勿指定該參數。

參數值:

  • zh:中文(普通話、四川話、閩南語、吳語)

  • yue:粵語

  • en:英文

  • ja:日語

  • de:德語

  • ko:韓語

  • ru:俄語

  • fr:法語

  • pt:葡萄牙語

  • ar:阿拉伯語

  • it:意大利語

  • es:西班牙語

  • hi:印地語

  • id:印尼語

  • th:泰語

  • tr:土耳其語

  • uk:烏克蘭語

  • vi:越南語

  • cs:捷克語

  • da:丹麥語

  • fil:菲律賓語

  • fi:芬蘭語

  • is:冰島語

  • ms:馬來語

  • no:挪威語

  • pl:波蘭語

  • sv:瑞典語

enable_itn boolean(可選)預設值為false

是否啟用ITN(Inverse Text Normalization,逆文本標準化)。該功能僅適用於中文和英文音頻。

參數值:

  • true:開啟;

  • false:關閉。

返回體

通義千問3-ASR-Flash

{
    "output": {
        "choices": [
            {
                "finish_reason": "stop",
                "message": {
                    "annotations": [
                        {
                            "language": "zh",
                            "type": "audio_info",
                            "emotion": "neutral"
                        }
                    ],
                    "content": [
                        {
                            "text": "歡迎使用阿里雲。"
                        }
                    ],
                    "role": "assistant"
                }
            }
        ]
    },
    "usage": {
        "input_tokens_details": {
            "text_tokens": 0
        },
        "output_tokens_details": {
            "text_tokens": 6
        },
        "seconds": 1
    },
    "request_id": "568e2bf0-d6f2-97f8-9f15-a57b11dc6977"
}

request_id string

本次調用的唯一識別碼。

Java SDK返回參數為requestId。

output object

調用結果資訊。

屬性

choices array

模型的輸出資訊。當result_format為message時返回choices參數。

屬性

finish_reason string

有三種情況:

  • 正在產生時為null;

  • 因模型輸出自然結束,或觸發輸入參數中的stop條件而結束時為stop;

  • 因產生長度過長而結束為length。

message object

模型輸出的訊息對象。

屬性

role string

輸出訊息的角色,固定為assistant。

content array

輸出訊息的內容。

屬性

text string

語音辨識結果。

annotations array

輸出標註資訊(如語種)

屬性

language string

被識別音訊語種。當請求參數language已指定語種時,該值與所指定的參數一致。

可能的值如下:

  • zh:中文(普通話、四川話、閩南語、吳語)

  • yue:粵語

  • en:英文

  • ja:日語

  • de:德語

  • ko:韓語

  • ru:俄語

  • fr:法語

  • pt:葡萄牙語

  • ar:阿拉伯語

  • it:意大利語

  • es:西班牙語

  • hi:印地語

  • id:印尼語

  • th:泰語

  • tr:土耳其語

  • uk:烏克蘭語

  • vi:越南語

  • cs:捷克語

  • da:丹麥語

  • fil:菲律賓語

  • fi:芬蘭語

  • is:冰島語

  • ms:馬來語

  • no:挪威語

  • pl:波蘭語

  • sv:瑞典語

type string

固定為audio_info,表示音頻資訊。

emotion string

被識別音訊情感。支援的情感如下:

  • surprised:驚訝

  • neutral:平靜

  • happy:愉快

  • sad:悲傷

  • disgusted:厭惡

  • angry:憤怒

  • fearful:恐懼

usage object

本次請求使用的Token資訊。

屬性

input_tokens_details integer

通義千問3-ASR-Flash輸入內容長度(Token)。

屬性

text_tokens integer

通義千問3-ASR-Flash使用上下文增強功能時輸入的文本長度(Token),上限為10000 Token。

output_tokens_details integer

通義千問3-ASR-Flash輸出內容長度(Token)。

屬性

text_tokens integer

通義千問3-ASR-Flash輸出的識別結果文本長度(Token)。

seconds integer

通義千問3-ASR-Flash音頻時間長度(秒)。

input_tokens integer

通義千問Audio ASR輸入音頻長度(Token)。音頻轉換Token規則:每秒音頻轉換為25個Token,不足1秒按1秒計算。

output_tokens integer

通義千問Audio ASR輸出的識別結果文本長度(Token)。

audio_tokens integer

通義千問Audio ASR輸出的音頻長度(Token)。音頻轉換Token規則:每秒音頻轉換為25個Token,不足1秒按1秒計算。

非同步呼叫

提交任務

中國大陸(北京):POST https://dashscope.aliyuncs.com/api/v1/services/audio/asr/transcription

國際(新加坡):POST https://dashscope-intl.aliyuncs.com/api/v1/services/audio/asr/transcription

請求體

cURL

# ======= 重要提示 =======
# 以下為新加坡地區url,若使用北京地區的模型,需將url替換為:https://dashscope.aliyuncs.com/api/v1/services/audio/asr/transcription
# 新加坡地區和北京地區的API Key不同。擷取API Key:https://www.alibabacloud.com/help/zh/model-studio/get-api-key
# === 執行時請刪除該注釋 ===

curl --location --request POST 'https://dashscope-intl.aliyuncs.com/api/v1/services/audio/asr/transcription' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header "Content-Type: application/json" \
--header "X-DashScope-Async: enable" \
--data '{
    "model": "qwen3-asr-flash-filetrans",
    "input": {
        "file_url": "https://dashscope.oss-cn-beijing.aliyuncs.com/audios/welcome.mp3"
    },
    "parameters": {
        "channel_id":[
            0
        ], 
        "enable_itn": false
    }
}'

Java

import com.google.gson.Gson;
import com.google.gson.annotations.SerializedName;
import okhttp3.*;

import java.io.IOException;

public class Main {
    // 以下為新加坡地區url,若使用北京地區的模型,需將url替換為:https://dashscope.aliyuncs.com/api/v1/services/audio/asr/transcription
    private static final String API_URL = "https://dashscope-intl.aliyuncs.com/api/v1/services/audio/asr/transcription";

    public static void main(String[] args) {
        // 新加坡地區和北京地區的API Key不同。擷取API Key:https://www.alibabacloud.com/help/zh/model-studio/get-api-key
        // 若沒有配置環境變數,請用百鍊API Key將下行替換為:String apiKey = "sk-xxx"
        String apiKey = System.getenv("DASHSCOPE_API_KEY");

        OkHttpClient client = new OkHttpClient();
        Gson gson = new Gson();

        /*String payloadJson = """
                {
                    "model": "qwen3-asr-flash-filetrans",
                    "input": {
                        "file_url": "https://dashscope.oss-cn-beijing.aliyuncs.com/audios/welcome.mp3"
                    },
                    "parameters": {
                        "channel_id": [0],
                        "enable_itn": false,
                        "language": "zh",
                        "corpus": {
                            "text": ""
                        }
                    }
                }
                """;*/
        String payloadJson = """
                {
                    "model": "qwen3-asr-flash-filetrans",
                    "input": {
                        "file_url": "https://dashscope.oss-cn-beijing.aliyuncs.com/audios/welcome.mp3"
                    },
                    "parameters": {
                        "channel_id": [0],
                        "enable_itn": false
                    }
                }
                """;

        RequestBody body = RequestBody.create(payloadJson, MediaType.get("application/json; charset=utf-8"));
        Request request = new Request.Builder()
                .url(API_URL)
                .addHeader("Authorization", "Bearer " + apiKey)
                .addHeader("Content-Type", "application/json")
                .addHeader("X-DashScope-Async", "enable")
                .post(body)
                .build();

        try (Response response = client.newCall(request).execute()) {
            if (response.isSuccessful() && response.body() != null) {
                String respBody = response.body().string();
                // 用 Gson 解析 JSON
                ApiResponse apiResp = gson.fromJson(respBody, ApiResponse.class);
                if (apiResp.output != null) {
                    System.out.println("task_id: " + apiResp.output.taskId);
                } else {
                    System.out.println(respBody);
                }
            } else {
                System.out.println("task failed! HTTP code: " + response.code());
                if (response.body() != null) {
                    System.out.println(response.body().string());
                }
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

    static class ApiResponse {
        @SerializedName("request_id")
        String requestId;

        Output output;
    }

    static class Output {
        @SerializedName("task_id")
        String taskId;

        @SerializedName("task_status")
        String taskStatus;
    }
}

Python

import requests
import json
import os

# 以下為新加坡地區url,若使用北京地區的模型,需將url替換為:https://dashscope.aliyuncs.com/api/v1/services/audio/asr/transcription
url = "https://dashscope-intl.aliyuncs.com/api/v1/services/audio/asr/transcription"

# 新加坡和北京地區的API Key不同。擷取API Key:https://www.alibabacloud.com/help/zh/model-studio/get-api-key
# 若沒有配置環境變數,請用百鍊API Key將下行替換為:DASHSCOPE_API_KEY = "sk-xxx"
DASHSCOPE_API_KEY = os.getenv("DASHSCOPE_API_KEY")

headers = {
    "Authorization": f"Bearer {DASHSCOPE_API_KEY}",
    "Content-Type": "application/json",
    "X-DashScope-Async": "enable"
}

payload = {
    "model": "qwen3-asr-flash-filetrans",
    "input": {
        "file_url": "https://dashscope.oss-cn-beijing.aliyuncs.com/audios/welcome.mp3"
    },
    "parameters": {
        "channel_id": [0],
        # "language": "zh",
        "enable_itn": False
        # "corpus": {
        #     "text": ""
        # }
    }
}

response = requests.post(url, headers=headers, data=json.dumps(payload))
if response.status_code == 200:
    print(f"task_id: {response.json()["output"]["task_id"]}")
else:
    print("task failed!")
    print(response.json())

model string (必選)

模型名稱。僅適用於通義千問3-ASR-Flash-Filetrans模型。

input object (必選)

屬性

file_url string(必選)

待識別音頻檔案URL,URL必須公網可訪問。

使用RESTful API時,若錄音檔案儲存體在阿里雲OSS,支援使用以 oss://為首碼的臨時 URL。但需注意:

重要
  • 臨時 URL 有效期間48小時,到期後無法使用,請勿用於生產環境。

  • 檔案上傳憑證介面限流為 100 QPS 且不支援擴容,請勿用於生產環境、高並發及壓測情境。

  • 生產環境建議使用阿里雲OSS 等穩定儲存,確保檔案長期可用並規避限流問題。

parameters object (可選)

屬性

language string(可選)無預設值

若已知音訊語種,可通過該參數指定待識別語種,以提升識別準確率。

只能指定一個語種。

若音頻語種不確定,或包含多種語種(例如中英日韓混合),請勿指定該參數。

參數值:

  • zh:中文(普通話、四川話、閩南語、吳語)

  • yue:粵語

  • en:英文

  • ja:日語

  • de:德語

  • ko:韓語

  • ru:俄語

  • fr:法語

  • pt:葡萄牙語

  • ar:阿拉伯語

  • it:意大利語

  • es:西班牙語

  • hi:印地語

  • id:印尼語

  • th:泰語

  • tr:土耳其語

  • uk:烏克蘭語

  • vi:越南語

  • cs:捷克語

  • da:丹麥語

  • fil:菲律賓語

  • fi:芬蘭語

  • is:冰島語

  • ms:馬來語

  • no:挪威語

  • pl:波蘭語

  • sv:瑞典語

enable_itn boolean(可選)預設值為false

是否啟用ITN(Inverse Text Normalization,逆文本標準化)。該功能僅適用於中文和英文音頻。

參數值:

  • true:開啟;

  • false:關閉。

text string

指定上下文(Context)。通義千問3-ASR-Flash支援使用者在語音辨識的同時,提供背景文本、實體詞表等參考資訊(Context),從而獲得定製化的識別結果。

長度限制:不超過10000 Token。

具體介紹請參見上下文增強

channel_id array (可選)預設值為[0]

指定多音軌檔案中需進行語音辨識的音軌索引。例如:[0] 表示僅識別第一條音軌,[0, 1] 表示同時識別第一條和第二條音軌。

返回體

{
    "request_id": "92e3decd-0c69-47a8-************",
    "output": {
        "task_id": "8fab76d0-0eed-4d20-************",
        "task_status": "PENDING"
    }
}

request_id string

本次調用的唯一識別碼。

output object

調用結果資訊。

屬性

task_id string

任務ID。該ID在查詢語音辨識任務介面中作為請求參數傳入。

task_status string

任務狀態:

  • PENDING:任務排隊中

  • RUNNING:任務處理中

  • SUCCEEDED:任務執行成功

  • FAILED:任務執行失敗

  • UNKNOWN:任務不存在或狀態未知

擷取任務執行結果

中國大陸(北京):GET https://dashscope.aliyuncs.com/api/v1/tasks/{task_id}

國際(新加坡):GET https://dashscope-intl.aliyuncs.com/api/v1/tasks/{task_id}

請求體

提交任務返回結果中的task_id作為參數傳入,查詢語音辨識結果。

cURL

# ======= 重要提示 =======
# 以下為新加坡地區url,若使用北京地區的模型,需將url替換為:https://dashscope.aliyuncs.com/api/v1/tasks/{task_id},注意,將{task_id}替換為待查詢任務ID
# 新加坡地區和北京地區的API Key不同。擷取API Key:https://www.alibabacloud.com/help/zh/model-studio/get-api-key
# === 執行時請刪除該注釋 ===

curl --location --request GET 'https://dashscope-intl.aliyuncs.com/api/v1/tasks/{task_id}' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header "X-DashScope-Async: enable" \
--header "Content-Type: application/json"

Java

import okhttp3.*;

import java.io.IOException;

public class Main {
    public static void main(String[] args) {
        // 替換為實際的task_id
        String taskId = "xxx";
        // 新加坡地區和北京地區的API Key不同。擷取API Key:https://www.alibabacloud.com/help/zh/model-studio/get-api-key
        // 若沒有配置環境變數,請用百鍊API Key將下行替換為:String apiKey = "sk-xxx"
        String apiKey = System.getenv("DASHSCOPE_API_KEY");

        // 以下為新加坡地區url,若使用北京地區的模型,需將url替換為:https://dashscope.aliyuncs.com/api/v1/tasks/{task_id},注意,將{task_id}替換為待查詢任務ID
        String apiUrl = "https://dashscope-intl.aliyuncs.com/api/v1/tasks/" + taskId;

        OkHttpClient client = new OkHttpClient();

        Request request = new Request.Builder()
                .url(apiUrl)
                .addHeader("Authorization", "Bearer " + apiKey)
                .addHeader("X-DashScope-Async", "enable")
                .addHeader("Content-Type", "application/json")
                .get()
                .build();

        try (Response response = client.newCall(request).execute()) {
            if (response.body() != null) {
                System.out.println(response.body().string());
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

Python

import os
import requests


# 新加坡地區和北京地區的API Key不同。擷取API Key:https://www.alibabacloud.com/help/zh/model-studio/get-api-key
# 若沒有配置環境變數,請用百鍊API Key將下行替換為:DASHSCOPE_API_KEY = "sk-xxx"
DASHSCOPE_API_KEY = os.getenv("DASHSCOPE_API_KEY")

# 替換為實際的task_id
task_id = "xxx"
# 以下為新加坡地區url,若使用北京地區的模型,需將url替換為:https://dashscope.aliyuncs.com/api/v1/tasks/{task_id},注意,將{task_id}替換為待查詢任務ID
url = f"https://dashscope-intl.aliyuncs.com/api/v1/tasks/{task_id}"

headers = {
    "Authorization": f"Bearer {DASHSCOPE_API_KEY}",
    "X-DashScope-Async": "enable",
    "Content-Type": "application/json"
}

response = requests.get(url, headers=headers)
print(response.json())

返回體

RUNNING

{
    "request_id": "6769df07-2768-4fb0-ad59-************",
    "output": {
        "task_id": "9be1700a-0f8e-4778-be74-************",
        "task_status": "RUNNING",
        "submit_time": "2025-10-27 14:19:31.150",
        "scheduled_time": "2025-10-27 14:19:31.233",
        "task_metrics": {
            "TOTAL": 1,
            "SUCCEEDED": 0,
            "FAILED": 0
        }
    }
}

SUCCEEDED

{
    "request_id": "1dca6c0a-0ed1-4662-aa39-************",
    "output": {
        "task_id": "8fab76d0-0eed-4d20-929f-************",
        "task_status": "SUCCEEDED",
        "submit_time": "2025-10-27 13:57:45.948",
        "scheduled_time": "2025-10-27 13:57:46.018",
        "end_time": "2025-10-27 13:57:47.079",
        "result": {
            "transcription_url": "http://dashscope-result-bj.oss-cn-beijing.aliyuncs.com/pre/pre-funasr-mlt-v1/20251027/13%3A57/7a3a8236-ffd1-4099-a280-0299686ac7da.json?Expires=1761631066&OSSAccessKeyId=LTAI**************&Signature=1lKv4RgyWCarRuUdIiErOeOBnwM%3D&response-content-disposition=attachment%3Bfilename%3D7a3a8236-ffd1-4099-a280-0299686ac7da.json"
        }
    },
    "usage": {
        "seconds": 3
    }
}

FAILED

{
    "request_id": "3d141841-858a-466a-9ff9-************",
    "output": {
        "task_id": "c58c7951-7789-4557-9ea3-************",
        "task_status": "FAILED",
        "submit_time": "2025-10-27 15:06:06.915",
        "scheduled_time": "2025-10-27 15:06:06.967",
        "end_time": "2025-10-27 15:06:07.584",
        "code": "FILE_403_FORBIDDEN",
        "message": "FILE_403_FORBIDDEN"
    }
}

request_id string

本次調用的唯一識別碼。

output object

調用結果資訊。

屬性

task_id string

任務ID。該ID在查詢語音辨識任務介面中作為請求參數傳入。

task_status string

任務狀態:

  • PENDING:任務排隊中

  • RUNNING:任務處理中

  • SUCCEEDED:任務執行成功

  • FAILED:任務執行失敗

  • UNKNOWN:任務不存在或狀態未知

result object

語音辨識結果。

屬性

transcription_url string

識別結果檔案的下載 URL,連結有效期間為 24 小時。到期後無法查詢任務,也無法通過先前的 URL 下載結果。
識別結果以 JSON 檔案儲存,可通過該連結下載檔案,或直接使用 HTTP 要求讀取檔案內容。

詳情參見識別結果說明

submit_time string

任務提交時間。

schedule_time string

任務調度時間,即開始執行時間。

end_time string

任務結束時間。

task_metrics object

任務指標,包含子任務狀態的統計資訊。

屬性

TOTAL integer

子任務總數。

SUCCEEDED integer

子任務成功數。

FAILED integer

子任務失敗數。

code string

錯誤碼,僅在任務失敗時返回。

message string

錯誤資訊,僅任務失敗時返回。

usage object

本次請求使用的Token資訊。

屬性

seconds integer

通義千問3-ASR-Flash音頻時間長度(秒)。

識別結果說明

{
    "file_url":"https://***.wav",
    "audio_info":{
        "format":"wav",
        "sample_rate": 16000
    },
    "transcripts":[
        {
            "channel_id":0,
            "text":"今天天氣還行吧。",
            "sentences":[
                {
                    "begin_time":100,
                    "end_time":3820,
                    "text":"今天天氣還行吧。",
                    "sentence_id":0,
                    "language":"zh",
                    "emotion":"neutral"
                }
            ]
        }
    ]
}

file_url string

被識別的音頻檔案URL。

audio_info object

被識別音頻檔案相關資訊。

屬性

format string

音頻格式。

sample_rate integer

音頻採樣率。

transcripts array

完整的識別結果清單,每個元素對應一條音軌的識別內容。

屬性

channel_id integer

音軌索引,以0為起始。

text string

識別結果文本。

sentences object

句子層級的識別結果清單。

屬性

begin_timeinteger

句子開始時間戳(毫秒)。

end_timeinteger

句子結束時間戳記(毫秒)。

text string

識別結果文本。

sentence_id integer

句子索引,以0為起始。

language string

被識別音訊語種。當請求參數language已指定語種時,該值與所指定的參數一致。

可能的值如下:

  • zh:中文(普通話、四川話、閩南語、吳語)

  • yue:粵語

  • en:英文

  • ja:日語

  • de:德語

  • ko:韓語

  • ru:俄語

  • fr:法語

  • pt:葡萄牙語

  • ar:阿拉伯語

  • it:意大利語

  • es:西班牙語

  • hi:印地語

  • id:印尼語

  • th:泰語

  • tr:土耳其語

  • uk:烏克蘭語

  • vi:越南語

  • cs:捷克語

  • da:丹麥語

  • fil:菲律賓語

  • fi:芬蘭語

  • is:冰島語

  • ms:馬來語

  • no:挪威語

  • pl:波蘭語

  • sv:瑞典語

emotion string

被識別音訊情感。支援的情感如下:

  • surprised:驚訝

  • neutral:平靜

  • happy:愉快

  • sad:悲傷

  • disgusted:厭惡

  • angry:憤怒

  • fearful:恐懼