すべてのプロダクト
Search
ドキュメントセンター

Alibaba Cloud Model Studio:音声ファイル認識 (Qwen-ASR) API リファレンス

最終更新日:Jan 06, 2026

このドキュメントでは、Qwen-ASR モデルの入力および出力パラメーターについて説明します。

ユーザーガイド:モデルの詳細と選択方法については、「音声ファイル認識 - Qwen」をご参照ください。

Qwen3-ASR-Flash および Qwen-Audio ASR モデルは同期呼び出しを使用します。Qwen3-ASR-Flash-Filetrans モデルは非同期呼び出しを使用します。2 つの呼び出しメソッドは、リクエストボディ、レスポンスボディ、およびプロセスが異なります。これらを混同して使用しないでください。

同期呼び出し

中国 (北京):POST https://dashscope.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation

シンガポール/米国 (バージニア)POST https://dashscope-intl.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation

リクエストボディ

Qwen3-ASR-Flash

次の例は、URL から音声ファイルを認識する方法を示しています。ローカル音声ファイルを認識する方法の例については、「クイックスタート」をご参照ください。

cURL

# ======= 重要 =======
# 以下はシンガポール/米国リージョンの URL です。北京リージョンのモデルを使用する場合は、URL を https://dashscope.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation に置き換えてください。
# シンガポール/米国リージョンと北京リージョンの API キーは異なります。API キーを取得するには、https://www.alibabacloud.com/help/model-studio/get-api-key をご参照ください。
# === 実行前にこのコメントを削除してください ===

curl --location --request POST "https://dashscope-intl.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation" \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header "Content-Type": "application/json" \
--data "{
    "model": "qwen3-asr-flash",
    "input": {
        "messages": [
            {
                "content": [
                    {
                        "text": ""
                    }
                ],
                "role": "system"
            },
            {
                "content": [
                    {
                        "audio": "https://dashscope.oss-cn-beijing.aliyuncs.com/audios/welcome.mp3"
                    }
                ],
                "role": "user"
            }
        ]
    },
    "parameters": {
        "asr_options": {
            "enable_itn": false
        }
    }
}"

Java

import java.util.Arrays;
import java.util.Collections;
import java.util.HashMap;
import java.util.Map;

import com.alibaba.dashscope.aigc.multimodalconversation.MultiModalConversation;
import com.alibaba.dashscope.aigc.multimodalconversation.MultiModalConversationParam;
import com.alibaba.dashscope.aigc.multimodalconversation.MultiModalConversationResult;
import com.alibaba.dashscope.common.MultiModalMessage;
import com.alibaba.dashscope.common.Role;
import com.alibaba.dashscope.exception.ApiException;
import com.alibaba.dashscope.exception.NoApiKeyException;
import com.alibaba.dashscope.exception.UploadFileException;
import com.alibaba.dashscope.utils.Constants;
import com.alibaba.dashscope.utils.JsonUtils;

public class Main {
    public static void simpleMultiModalConversationCall()
            throws ApiException, NoApiKeyException, UploadFileException {
        MultiModalConversation conv = new MultiModalConversation();
        MultiModalMessage userMessage = MultiModalMessage.builder()
                .role(Role.USER.getValue())
                .content(Arrays.asList(
                        Collections.singletonMap("audio", "https://dashscope.oss-cn-beijing.aliyuncs.com/audios/welcome.mp3")))
                .build();

        MultiModalMessage sysMessage = MultiModalMessage.builder().role(Role.SYSTEM.getValue())
                // ここでカスタム認識のコンテキストを設定します
                .content(Arrays.asList(Collections.singletonMap("text", "")))
                .build();

        Map<String, Object> asrOptions = new HashMap<>();
        asrOptions.put("enable_itn", false);
        // asrOptions.put("language", "zh"); // オプション。音声の言語がわかっている場合は、このパラメーターで指定すると認識精度が向上します。
        MultiModalConversationParam param = MultiModalConversationParam.builder()
                // シンガポール/米国リージョンと北京リージョンの API キーは異なります。API キーを取得するには、https://www.alibabacloud.com/help/model-studio/get-api-key をご参照ください。
                // 環境変数を設定していない場合は、次の行をご利用の Model Studio API キーに置き換えてください: .apiKey("sk-xxx")
                .apiKey(System.getenv("DASHSCOPE_API_KEY"))
                .model("qwen3-asr-flash")
                .message(sysMessage)
                .message(userMessage)
                .parameter("asr_options", asrOptions)
                .build();
        MultiModalConversationResult result = conv.call(param);
        System.out.println(JsonUtils.toJson(result));
    }
    public static void main(String[] args) {
        try {
            // 以下はシンガポール/米国リージョンの URL です。北京リージョンのモデルを使用する場合は、URL を https://dashscope.aliyuncs.com/api/v1 に置き換えてください。
            Constants.baseHttpApiUrl = "https://dashscope-intl.aliyuncs.com/api/v1";
            simpleMultiModalConversationCall();
        } catch (ApiException | NoApiKeyException | UploadFileException e) {
            System.out.println(e.getMessage());
        }
        System.exit(0);
    }
}

Python

import os
import dashscope

# 以下はシンガポール/米国リージョンの URL です。北京リージョンのモデルを使用する場合は、URL を https://dashscope.aliyuncs.com/api/v1 に置き換えてください。
dashscope.base_http_api_url = 'https://dashscope-intl.aliyuncs.com/api/v1'

messages = [
    {"role": "system", "content": [{"text": ""}]},  # カスタム認識のコンテキストを設定
    {"role": "user", "content": [{"audio": "https://dashscope.oss-cn-beijing.aliyuncs.com/audios/welcome.mp3"}]}
]

response = dashscope.MultiModalConversation.call(
    # シンガポール/米国リージョンと北京リージョンの API キーは異なります。API キーを取得するには、https://www.alibabacloud.com/help/model-studio/get-api-key をご参照ください。
    # 環境変数を設定していない場合は、次の行をご利用の Model Studio API キーに置き換えてください: api_key = "sk-xxx"
    api_key=os.getenv("DASHSCOPE_API_KEY"),
    model="qwen3-asr-flash",
    messages=messages,
    result_format="message",
    asr_options={
        #"language": "zh", # オプション。音声の言語がわかっている場合は、このパラメーターで指定すると認識精度が向上します。
        "enable_itn":False
    }
)
print(response)

model string (必須)

モデルの名前です。このパラメーターは、Qwen3-ASR-Flash および Qwen-Audio ASR モデルにのみ適用されます。

messages array (必須)

メッセージのリストです。

HTTP 呼び出しを行う場合、messagesinput オブジェクト内に配置します。

メッセージタイプ

object (オプション)

モデルの目標またはロールを指定します。システムメッセージを指定する場合、リストの最初のメッセージでなければなりません。

このパラメーターは Qwen3-ASR-Flash でのみサポートされています。Qwen-Audio ASR はこのパラメーターをサポートしていません。

プロパティ

content array (必須)

メッセージのコンテンツです。

プロパティ

text string

コンテキストを指定します。Qwen3-ASR-Flash では、背景テキストやエンティティ語彙などの参照情報を音声認識中にコンテキストとして提供し、カスタマイズされた結果を受け取ることができます。

長さ制限:10,000 トークン。

詳細については、「コンテキスト拡張」をご参照ください。

role string (必須)

system に設定します。

object (必須)

ユーザーからモデルに送信されるメッセージです。

プロパティ

content array (必須)

ユーザーメッセージのコンテンツです。

プロパティ

audio string (必須)

認識対象の音声です。このパラメーターの使用方法の詳細については、「クイックスタート」をご参照ください。

Qwen3-ASR-Flash モデルは、Base64 エンコードされたファイル、ローカルファイルの絶対パス、またはパブリックネットワーク経由でアクセス可能なファイルの URL の 3 つの入力フォーマットをサポートしています。

Qwen-Audio ASR モデルは、ローカルファイルの絶対パスまたはパブリックネットワーク経由でアクセス可能なファイルの URL の 2 つの入力フォーマットをサポートしています。

SDK を使用する場合、音声ファイルが Object Storage Service (OSS) に保存されている場合、oss:// で始まる一時的な URL はサポートされていません。

RESTful API を使用する場合、音声ファイルが OSS に保存されている場合、oss:// で始まる一時的な URL はサポートされています。ただし、次の点にご注意ください:

重要
  • 一時的な URL は 48 時間有効で、有効期限が切れると使用できなくなります。本番環境では使用しないでください。

  • アップロード認証情報を取得するための API は 100 QPS に制限されており、スケールアウトをサポートしていません。本番環境、高並行シナリオ、またはストレステストシナリオでは使用しないでください。

  • 本番環境では、ファイルの長期的な可用性を確保し、レート制限の問題を回避するために、Alibaba Cloud OSS などの安定したストレージサービスを使用してください。

role string (必須)

ユーザーメッセージのロールです。user に設定します。

asr_options object (オプション)

特定の機能を有効にするかどうかを指定します。

このパラメーターは Qwen3-ASR-Flash でのみサポートされています。Qwen-Audio ASR はこのパラメーターをサポートしていません。

プロパティ

language string (オプション) デフォルト値なし

音声の言語がわかっている場合は、このパラメーターで指定すると認識精度が向上します。

指定できる言語は 1 つだけです。

音声の言語が不明な場合や、中国語、英語、日本語、韓国語が混在しているなど複数の言語が含まれる場合は、このパラメーターを指定しないでください。

有効な値:

  • zh:中国語 (標準語、四川語、閩南語、呉語)

  • yue:広東語

  • en:英語

  • ja:日本語

  • de:ドイツ語

  • ko:韓国語

  • ru:ロシア語

  • fr:フランス語

  • pt:ポルトガル語

  • ar:アラビア語

  • it:イタリア語

  • es:スペイン語

  • hi:ヒンディー語

  • id:インドネシア語

  • th:タイ語

  • tr:トルコ語

  • uk:ウクライナ語

  • vi:ベトナム語

  • cs:チェコ語

  • da:デンマーク語

  • fil:フィリピン語

  • fi:フィンランド語

  • is:アイスランド語

  • ms:マレー語

  • no:ノルウェー語

  • pl:ポーランド語

  • sv:スウェーデン語

enable_itn boolean (オプション) デフォルト:false

テキスト逆正規化 (ITN) を有効にするかどうかを指定します。この機能は、中国語と英語の音声にのみ適用されます。

値:

  • true:有効

  • false:無効

レスポンスボディ

Qwen3-ASR-Flash

{
    "output": {
        "choices": [
            {
                "finish_reason": "stop",
                "message": {
                    "annotations": [
                        {
                            "language": "zh",
                            "type": "audio_info",
                            "emotion": "neutral"
                        }
                    ],
                    "content": [
                        {
                            "text": "Welcome to Alibaba Cloud."
                        }
                    ],
                    "role": "assistant"
                }
            }
        ]
    },
    "usage": {
        "input_tokens_details": {
            "text_tokens": 0
        },
        "output_tokens_details": {
            "text_tokens": 6
        },
        "seconds": 1
    },
    "request_id": "568e2bf0-d6f2-97f8-9f15-a57b11dc6977"
}

request_id string

呼び出しの一意の識別子です。

Java SDK はこのパラメーターを requestId

output object

呼び出し結果に関する情報です。

プロパティ

choices array

モデルの出力です。`choices` パラメーターは、`result_format` が `message` に設定されている場合に返されます。

プロパティ

finish_reason string

次の 3 つのシナリオが考えられます:

  • 生成中は null です。

  • stop:生成が自然に停止したか、入力パラメーターで指定された停止条件によって終了しました。

  • length:出力が最大長に達したため、生成が停止しました。

message object

モデルが返すメッセージオブジェクトです。

プロパティ

role string

出力メッセージのロールです。値は assistant です。

content array

出力メッセージのコンテンツです。

プロパティ

text string

音声認識の結果です。

annotations array

言語などのアノテーション情報です。

プロパティ

language string

認識された音声の言語です。リクエストパラメーター language を指定した場合、このパラメーターは同じ値を返します。

有効な値:

  • zh:中国語 (標準語、四川語、閩南語、呉語)

  • yue:広東語

  • en:英語

  • ja:日本語

  • de:ドイツ語

  • ko:韓国語

  • ru:ロシア語

  • fr:フランス語

  • pt:ポルトガル語

  • ar:アラビア語

  • it:イタリア語

  • es:スペイン語

  • hi:ヒンディー語

  • id:インドネシア語

  • th:タイ語

  • tr:トルコ語

  • uk:ウクライナ語

  • vi:ベトナム語

  • cs:チェコ語

  • da:デンマーク語

  • fil:フィリピン語

  • fi:フィンランド語

  • is:アイスランド語

  • ms:マレー語

  • no:ノルウェー語

  • pl:ポーランド語

  • sv:スウェーデン語

type string

値は audio_info に固定されており、音声情報を示します。

emotion string

認識された音声で検出された感情です。以下の感情がサポートされています:

  • surprised:驚き

  • neutral:中立

  • happy:喜び

  • sad:悲しみ

  • disgusted:嫌悪

  • angry

  • fearful:恐怖

usage object

リクエストのトークン使用量情報です。

プロパティ

input_tokens_details integer

Qwen3-ASR-Flash の入力コンテンツの長さをトークン単位で示します。

プロパティ

text_tokens integer

Qwen3-ASR-Flash のコンテキスト拡張機能を使用した場合の入力テキストの長さをトークン単位で示します。最大値は 10,000 トークンです。

output_tokens_details integer

Qwen3-ASR-Flash からの出力コンテンツの長さをトークン単位で示します。

プロパティ

text_tokens integer

Qwen3-ASR-Flash によって出力された認識テキストの長さをトークン単位で示します。

seconds integer

Qwen3-ASR-Flash の音声の長さを秒単位で示します。

input_tokens integer

Qwen-Audio ASR の入力音声の長さをトークン単位で示します。音声は、1 秒あたり 25 トークンに変換されるルールに基づいてトークンに変換されます。1 秒未満の長さは 1 秒としてカウントされます。

output_tokens integer

Qwen-Audio ASR によって出力された認識テキストの長さをトークン単位で示します。

audio_tokens integer

Qwen-Audio ASR の入力音声の長さをトークン単位で示します。音声は、1 秒あたり 25 トークンに変換されるルールに基づいてトークンに変換されます。1 秒未満の長さは 1 秒としてカウントされます。

非同期呼び出し

タスクの送信

中国 (北京):POST https://dashscope.aliyuncs.com/api/v1/services/audio/asr/transcription

国際 (シンガポール): POST https://dashscope-intl.aliyuncs.com/api/v1/services/audio/asr/transcription

リクエストボディ

cURL

# ======= 重要 =======
# 以下の URL はシンガポールリージョン用です。北京リージョンのモデルを使用する場合は、URL を https://dashscope.aliyuncs.com/api/v1/services/audio/asr/transcription に置き換えてください。
# シンガポールリージョンと北京リージョンの API キーは異なります。API キーを取得するには、https://www.alibabacloud.com/help/model-studio/get-api-key をご参照ください。
# === 実行前にこのコメントを削除してください ===

curl --location --request POST 'https://dashscope-intl.aliyuncs.com/api/v1/services/audio/asr/transcription' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header "Content-Type: application/json" \
--header "X-DashScope-Async: enable" \
--data '{
    "model": "qwen3-asr-flash-filetrans",
    "input": {
        "file_url": "https://dashscope.oss-cn-beijing.aliyuncs.com/audios/welcome.mp3"
    },
    "parameters": {
        "channel_id":[
            0
        ], 
        "enable_itn": false
    }
}'

Java

import com.google.gson.Gson;
import com.google.gson.annotations.SerializedName;
import okhttp3.*;

import java.io.IOException;

public class Main {
    // 以下の URL はシンガポールリージョン用です。北京リージョンのモデルを使用する場合は、URL を https://dashscope.aliyuncs.com/api/v1/services/audio/asr/transcription に置き換えてください。
    private static final String API_URL = "https://dashscope-intl.aliyuncs.com/api/v1/services/audio/asr/transcription";

    public static void main(String[] args) {
        // シンガポールリージョンと北京リージョンの API キーは異なります。API キーを取得するには、https://www.alibabacloud.com/help/model-studio/get-api-key をご参照ください。
        // 環境変数が設定されていない場合は、次の行を String apiKey = "sk-xxx" に置き換えて、ご利用の Model Studio API キーを使用してください。
        String apiKey = System.getenv("DASHSCOPE_API_KEY");

        OkHttpClient client = new OkHttpClient();
        Gson gson = new Gson();

        /*String payloadJson = """
                {
                    "model": "qwen3-asr-flash-filetrans",
                    "input": {
                        "file_url": "https://dashscope.oss-cn-beijing.aliyuncs.com/audios/welcome.mp3"
                    },
                    "parameters": {
                        "channel_id": [0],
                        "enable_itn": false,
                        "language": "zh",
                        "corpus": {
                            "text": ""
                        }
                    }
                }
                """;*/
        String payloadJson = """
                {
                    "model": "qwen3-asr-flash-filetrans",
                    "input": {
                        "file_url": "https://dashscope.oss-cn-beijing.aliyuncs.com/audios/welcome.mp3"
                    },
                    "parameters": {
                        "channel_id": [0],
                        "enable_itn": false
                    }
                }
                """;

        RequestBody body = RequestBody.create(payloadJson, MediaType.get("application/json; charset=utf-8"));
        Request request = new Request.Builder()
                .url(API_URL)
                .addHeader("Authorization", "Bearer " + apiKey)
                .addHeader("Content-Type", "application/json")
                .addHeader("X-DashScope-Async", "enable")
                .post(body)
                .build();

        try (Response response = client.newCall(request).execute()) {
            if (response.isSuccessful() && response.body() != null) {
                String respBody = response.body().string();
                // Gson で JSON を解析
                ApiResponse apiResp = gson.fromJson(respBody, ApiResponse.class);
                if (apiResp.output != null) {
                    System.out.println("task_id: " + apiResp.output.taskId);
                } else {
                    System.out.println(respBody);
                }
            } else {
                System.out.println("task failed! HTTP code: " + response.code());
                if (response.body() != null) {
                    System.out.println(response.body().string());
                }
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

    static class ApiResponse {
        @SerializedName("request_id")
        String requestId;

        Output output;
    }

    static class Output {
        @SerializedName("task_id")
        String taskId;

        @SerializedName("task_status")
        String taskStatus;
    }
}

Python

import requests
import json
import os

# 以下の URL はシンガポールリージョン用です。北京リージョンのモデルを使用する場合は、URL を https://dashscope.aliyuncs.com/api/v1/services/audio/asr/transcription に置き換えてください。
url = "https://dashscope-intl.aliyuncs.com/api/v1/services/audio/asr/transcription"

# シンガポールリージョンと北京リージョンの API キーは異なります。API キーを取得するには、https://www.alibabacloud.com/help/model-studio/get-api-key をご参照ください。
# 環境変数が設定されていない場合は、次の行を DASHSCOPE_API_KEY = "sk-xxx" に置き換えて、ご利用の Model Studio API キーを使用してください。
DASHSCOPE_API_KEY = os.getenv("DASHSCOPE_API_KEY")

headers = {
    "Authorization": f"Bearer {DASHSCOPE_API_KEY}",
    "Content-Type": "application/json",
    "X-DashScope-Async": "enable"
}

payload = {
    "model": "qwen3-asr-flash-filetrans",
    "input": {
        "file_url": "https://dashscope.oss-cn-beijing.aliyuncs.com/audios/welcome.mp3"
    },
    "parameters": {
        "channel_id": [0],
        # "language": "zh",
        "enable_itn": False
        # "corpus": {
        #     "text": ""
        # }
    }
}

response = requests.post(url, headers=headers, data=json.dumps(payload))
if response.status_code == 200:
    print(f"task_id: {response.json()['output']['task_id']}")
else:
    print("task failed!")
    print(response.json())

model string (必須)

モデルの名前です。このパラメーターは、Qwen3-ASR-Flash-Filetrans モデルにのみ適用されます。

input object (必須)

プロパティ

file_url string (必須)

認識対象の音声ファイルの URL です。URL はパブリックネットワークからアクセス可能である必要があります。

RESTful API を使用する場合、音声ファイルが OSS に保存されている場合、oss:// で始まる一時的な URL はサポートされています。ただし、次の点にご注意ください:

重要
  • 一時的な URL は 48 時間有効で、有効期限が切れると使用できなくなります。本番環境では使用しないでください。

  • アップロード認証情報を取得するための API は 100 QPS に制限されており、スケールアウトをサポートしていません。本番環境、高並行シナリオ、またはストレステストシナリオでは使用しないでください。

  • 本番環境では、ファイルの長期的な可用性を確保し、レート制限の問題を回避するために、Alibaba Cloud OSS などの安定したストレージサービスを使用してください。

parameters object (オプション)

プロパティ

language string (オプション) デフォルト値なし

音声の言語がわかっている場合は、このパラメーターで指定すると認識精度が向上します。

指定できる言語は 1 つだけです。

音声の言語が不明な場合や、中国語、英語、日本語、韓国語が混在しているなど複数の言語が含まれる場合は、このパラメーターを指定しないでください。

有効な値:

  • zh:中国語 (標準語、四川語、閩南語、呉語)

  • yue:広東語

  • en:英語

  • ja:日本語

  • de:ドイツ語

  • ko:韓国語

  • ru:ロシア語

  • fr:フランス語

  • pt:ポルトガル語

  • ar:アラビア語

  • it:イタリア語

  • es:スペイン語

  • hi:ヒンディー語

  • id:インドネシア語

  • th:タイ語

  • tr:トルコ語

  • uk:ウクライナ語

  • vi:ベトナム語

  • cs:チェコ語

  • da:デンマーク語

  • fil:フィリピン語

  • fi:フィンランド語

  • is:アイスランド語

  • ms:マレー語

  • no:ノルウェー語

  • pl:ポーランド語

  • sv:スウェーデン語

enable_itn boolean (オプション) デフォルト:false

テキスト逆正規化 (ITN) を有効にするかどうかを指定します。この機能は、中国語と英語の音声にのみ適用されます。

値:

  • true:有効

  • false:無効

text string

コンテキストを指定します。Qwen3-ASR-Flash では、背景テキストやエンティティ語彙などの参照情報を音声認識中にコンテキストとして提供し、カスタマイズされた結果を受け取ることができます。

長さ制限:10,000 トークン。

詳細については、「コンテキスト拡張」をご参照ください。

channel_id array (オプション) デフォルト:[0]

マルチトラック音声ファイルで認識するオーディオトラックのインデックスを指定します。インデックスは 0 から始まります。たとえば、[0] は最初のトラックのみを認識することを示し、[0, 1] は最初のトラックと 2 番目のトラックの両方を認識することを示します。このパラメーターを指定しない場合、デフォルトで最初のトラックが処理されます。

重要

指定された各オーディオトラックは個別に課金されます。たとえば、1 つのファイルに対して [0, 1] をリクエストすると、2 つの個別の料金が発生します。

レスポンスボディ

{
    "request_id": "92e3decd-0c69-47a8-************",
    "output": {
        "task_id": "8fab76d0-0eed-4d20-************",
        "task_status": "PENDING"
    }
}

request_id string

呼び出しの一意の識別子です。

output object

呼び出し結果に関する情報です。

プロパティ

task_id string

タスク ID です。この ID は、音声認識タスクをクエリするための API のリクエストパラメーターとして渡されます。

task_status string

タスクのステータス:

  • PENDING:タスクはキューに登録されています。

  • RUNNING:タスクは進行中です。

  • SUCCEEDED:タスクは正常に完了しました。

  • FAILED:タスクの実行に失敗しました。

  • UNKNOWN:タスクが存在しないか、ステータスを特定できません。

タスク実行結果の取得

中国 (北京):GET https://dashscope.aliyuncs.com/api/v1/tasks/{task_id}

国際 (シンガポール): GET https://dashscope-intl.aliyuncs.com/api/v1/tasks/{task_id}

リクエストボディ

タスク送信のレスポンスから得られる task_id をパラメーターとして渡し、音声認識結果をクエリします。

cURL

# ======= 重要 =======
# 以下の URL はシンガポールリージョン用です。北京リージョンのモデルを使用する場合は、URL を https://dashscope.aliyuncs.com/api/v1/tasks/{task_id} に置き換えてください。注意:{task_id} をクエリするタスクの ID に置き換えてください。
# シンガポールリージョンと北京リージョンの API キーは異なります。API キーを取得するには、https://www.alibabacloud.com/help/model-studio/get-api-key をご参照ください。
# === 実行前にこのコメントを削除してください ===

curl --location --request GET 'https://dashscope-intl.aliyuncs.com/api/v1/tasks/{task_id}' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header "X-DashScope-Async: enable" \
--header "Content-Type: application/json"

Java

import okhttp3.*;

import java.io.IOException;

public class Main {
    public static void main(String[] args) {
        // 実際の task_id に置き換えてください。
        String taskId = "xxx";
        // シンガポールリージョンと北京リージョンの API キーは異なります。API キーを取得するには、https://www.alibabacloud.com/help/model-studio/get-api-key をご参照ください。
        // 環境変数が設定されていない場合は、次の行を String apiKey = "sk-xxx" に置き換えて、ご利用の Model Studio API キーを使用してください。
        String apiKey = System.getenv("DASHSCOPE_API_KEY");

        // 以下の URL はシンガポールリージョン用です。北京リージョンのモデルを使用する場合は、URL を https://dashscope.aliyuncs.com/api/v1/tasks/{task_id} に置き換えてください。注意:{task_id} をクエリするタスクの ID に置き換えてください。
        String apiUrl = "https://dashscope-intl.aliyuncs.com/api/v1/tasks/" + taskId;

        OkHttpClient client = new OkHttpClient();

        Request request = new Request.Builder()
                .url(apiUrl)
                .addHeader("Authorization", "Bearer " + apiKey)
                .addHeader("X-DashScope-Async", "enable")
                .addHeader("Content-Type", "application/json")
                .get()
                .build();

        try (Response response = client.newCall(request).execute()) {
            if (response.body() != null) {
                System.out.println(response.body().string());
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

Python

import os
import requests


# シンガポールリージョンと北京リージョンの API キーは異なります。API キーを取得するには、https://www.alibabacloud.com/help/model-studio/get-api-key をご参照ください。
# 環境変数が設定されていない場合は、次の行を DASHSCOPE_API_KEY = "sk-xxx" に置き換えて、ご利用の Model Studio API キーを使用してください。
DASHSCOPE_API_KEY = os.getenv("DASHSCOPE_API_KEY")

# 実際の task_id に置き換えてください。
task_id = "xxx"
# 以下の URL はシンガポールリージョン用です。北京リージョンのモデルを使用する場合は、URL を https://dashscope.aliyuncs.com/api/v1/tasks/{task_id} に置き換えてください。注意:{task_id} をクエリするタスクの ID に置き換えてください。
url = f"https://dashscope-intl.aliyuncs.com/api/v1/tasks/{task_id}"

headers = {
    "Authorization": f"Bearer {DASHSCOPE_API_KEY}",
    "X-DashScope-Async": "enable",
    "Content-Type": "application/json"
}

response = requests.get(url, headers=headers)
print(response.json())

レスポンスボディ

RUNNING

{
    "request_id": "6769df07-2768-4fb0-ad59-************",
    "output": {
        "task_id": "9be1700a-0f8e-4778-be74-************",
        "task_status": "RUNNING",
        "submit_time": "2025-10-27 14:19:31.150",
        "scheduled_time": "2025-10-27 14:19:31.233",
        "task_metrics": {
            "TOTAL": 1,
            "SUCCEEDED": 0,
            "FAILED": 0
        }
    }
}

SUCCEEDED

{
    "request_id": "1dca6c0a-0ed1-4662-aa39-************",
    "output": {
        "task_id": "8fab76d0-0eed-4d20-929f-************",
        "task_status": "SUCCEEDED",
        "submit_time": "2025-10-27 13:57:45.948",
        "scheduled_time": "2025-10-27 13:57:46.018",
        "end_time": "2025-10-27 13:57:47.079",
        "result": {
            "transcription_url": "http://dashscope-result-bj.oss-cn-beijing.aliyuncs.com/pre/pre-funasr-mlt-v1/20251027/13%3A57/7a3a8236-ffd1-4099-a280-0299686ac7da.json?Expires=1761631066&OSSAccessKeyId=LTAI**************&Signature=1lKv4RgyWCarRuUdIiErOeOBnwM%3D&response-content-disposition=attachment%3Bfilename%3D7a3a8236-ffd1-4099-a280-0299686ac7da.json"
        }
    },
    "usage": {
        "seconds": 3
    }
}

FAILED

{
    "request_id": "3d141841-858a-466a-9ff9-************",
    "output": {
        "task_id": "c58c7951-7789-4557-9ea3-************",
        "task_status": "FAILED",
        "submit_time": "2025-10-27 15:06:06.915",
        "scheduled_time": "2025-10-27 15:06:06.967",
        "end_time": "2025-10-27 15:06:07.584",
        "code": "FILE_403_FORBIDDEN",
        "message": "FILE_403_FORBIDDEN"
    }
}

request_id string

呼び出しの一意の識別子です。

output object

呼び出し結果に関する情報です。

プロパティ

task_id string

タスク ID です。この ID は、音声認識タスクをクエリするための API のリクエストパラメーターとして渡されます。

task_status string

タスクのステータス:

  • PENDING:タスクは処理のためにキューに登録されています。

  • RUNNING:タスクは実行中です。

  • SUCCEEDED:タスクの実行に成功しました。

  • FAILED:タスクの実行に失敗しました。

  • UNKNOWN:タスクが存在しないか、ステータスを特定できません。

result object

音声認識の結果です。

プロパティ

transcription_url string

認識結果ファイルのダウンロード URL です。このリンクは 24 時間有効です。有効期限が切れると、以前の URL を使用してタスクをクエリしたり、結果をダウンロードしたりすることはできません。
認識結果は JSON ファイルとして保存されます。このリンクからファイルをダウンロードするか、HTTP リクエストを使用してファイルの内容を直接読み取ることができます。

詳細については、「認識結果の詳細」をご参照ください。

submit_time string

タスクが送信された時間です。

schedule_time string

スケジュールされた時間は、ジョブが実行を開始する時間です。

end_time string

タスクが終了した時間です。

task_metrics object

タスクメトリクス。サブタスクのステータスに関するパフォーマンス統計が含まれます。

プロパティ

TOTAL integer

サブタスクの総数です。

SUCCEEDED integer

成功したサブタスクの数です。

FAILED integer

失敗したサブタスクの数です。

code string

エラーコードです。タスクが失敗した場合にのみ返されます。

message string

エラーメッセージです。タスクが失敗した場合にのみ返されます。

usage object

リクエストのトークン使用量情報です。

プロパティ

seconds integer

Qwen3-ASR-Flash の音声の長さを秒単位で示します。

認識結果の詳細

{
    "file_url":"https://***.wav",
    "audio_info":{
        "format":"wav",
        "sample_rate": 16000
    },
    "transcripts":[
        {
            "channel_id":0,
            "text":"The weather is okay today.",
            "sentences":[
                {
                    "begin_time":100,
                    "end_time":3820,
                    "text":"The weather is okay today.",
                    "sentence_id":0,
                    "language":"zh",
                    "emotion":"neutral"
                }
            ]
        }
    ]
}

file_url string

認識された音声ファイルの URL です。

audio_info object

認識された音声ファイルに関する情報です。

プロパティ

format string

音声フォーマットです。

sample_rate integer

音声サンプリングレートです。

transcripts array

完全な認識結果のリストです。各要素は、1 つのオーディオトラックの認識されたコンテンツに対応します。

プロパティ

channel_id integer

オーディオトラックのインデックスです。インデックスは 0 から始まります。

text string

認識されたテキストです。

sentences object

文レベルの認識結果のリストです。

プロパティ

begin_timeinteger

文の開始タイムスタンプ (ミリ秒単位) です。

end_timeinteger

文の終了タイムスタンプ (ミリ秒単位) です。

text string

認識されたテキストです。

sentence_id integer

文のインデックスです。インデックスは 0 から始まります。

language string

認識された音声の言語です。リクエストパラメーター language を指定した場合、このパラメーターは同じ値を返します。

有効な値:

  • zh:中国語 (標準語、四川語、閩南語、呉語)

  • yue:広東語

  • en:英語

  • ja:日本語

  • de:ドイツ語

  • ko:韓国語

  • ru:ロシア語

  • fr:フランス語

  • pt:ポルトガル語

  • ar:アラビア語

  • it:イタリア語

  • es:スペイン語

  • hi:ヒンディー語

  • id:インドネシア語

  • th:タイ語

  • tr:トルコ語

  • uk:ウクライナ語

  • vi:ベトナム語

  • cs:チェコ語

  • da:デンマーク語

  • fil:フィリピン語

  • fi:フィンランド語

  • is:アイスランド語

  • ms:マレー語

  • no:ノルウェー語

  • pl:ポーランド語

  • sv:スウェーデン語

emotion string

認識された音声で検出された感情です。以下の感情がサポートされています:

  • surprised:驚き

  • neutral:中立

  • happy:喜び

  • sad:悲しみ

  • disgusted:嫌悪

  • angry:怒り

  • fearful:恐怖