このトピックでは、Qwen-ASR の入力パラメーターと出力パラメーターについて説明します。OpenAI 互換プロトコルまたは DashScope プロトコルを使用して API を呼び出します。
ユーザーガイド: モデルの詳細および選択方法については、「音声ファイル認識 - Qwen」をご参照ください。
モデルの接続タイプ
異なるモデルは、異なる接続タイプをサポートしています。次の表から適切な統合方法を選択してください。
モデル | 接続タイプ |
Qwen3-ASR-Flash-Filetrans | DashScope 非同期方式のみをサポート |
Qwen3-ASR-Flash |
OpenAI 互換
米国リージョンは OpenAI 互換モードをサポートしていません。
URL
国際
国際デプロイメントモードでは、エンドポイントおよびデータストレージはシンガポールリージョンに配置され、モデル推論の計算リソースは中国本土を除くグローバルで動的にスケジュールされます。
HTTP エンドポイント:POST https://dashscope-intl.aliyuncs.com/compatible-mode/v1/chat/completions
SDK の base_url:https://dashscope-intl.aliyuncs.com/compatible-mode/v1
中国本土
中国本土のデプロイメントモードでは、エンドポイントおよびデータストレージは中国 (北京) リージョンに配置され、モデル推論の計算リソースは中国本土内に限定されます。
HTTP エンドポイント:POST https://dashscope.aliyuncs.com/compatible-mode/v1/chat/completions
SDK の base_url:https://dashscope.aliyuncs.com/compatible-mode/v1
リクエストボディ | 入力:音声ファイルの URLPython SDKNode.js SDKcURLカスタマイズされた認識のためにコンテキストを設定するには、システムメッセージの 入力:Base64 エンコードされた音声ファイルData URL (RFC 2397) 形式の Base64 エンコードデータを入力できます:
Python SDK例で使用する音声ファイルはwelcome.mp3です。 Node.js SDK例で使用する音声ファイルはwelcome.mp3です。 |
model モデル名。このパラメーターは Qwen3-ASR-Flash のみに適用されます。 | |
messages メッセージのリスト。 | |
asr_options 特定の機能を有効にするかどうかを指定します。
| |
stream 応答にストリーミング出力を使用するかどうかを指定します。詳細については、「ストリーミング出力」をご参照ください。 有効な値:
レスポンス性を向上させ、タイムアウトのリスクを軽減するために、このパラメーターを | |
stream_options ストリーミング出力の設定項目。このパラメーターは、 |
レスポンス本文 | 非ストリーミング出力ストリーミング出力 |
id この呼び出しの一意の識別子です。 | |
choices モデルの出力情報です。 | |
created リクエストが作成されたときの UNIX タイムスタンプ (秒単位) です。 | |
model このリクエストで使用されたモデルです。 | |
object 常に | |
usage このリクエストのトークン消費情報です。 |
DashScope 同期
URL
国際
国際デプロイメントモードでは、エンドポイントおよびデータストレージはシンガポールリージョンに配置され、モデル推論の計算リソースは中国本土を除くグローバルで動的にスケジュールされます。
HTTP エンドポイント:POST https://dashscope-intl.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation
SDK の base_url:https://dashscope-intl.aliyuncs.com/api/v1
米国
米国デプロイメントモードでは、エンドポイントおよびデータストレージは米国 (バージニア) リージョンに配置され、モデル推論の計算リソースは米国内に限定されます。
HTTP エンドポイント:POST https://dashscope-us.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation
SDK の base_url:https://dashscope-us.aliyuncs.com/api/v1
中国本土
中国本土のデプロイメントモードでは、エンドポイントおよびデータストレージは中国 (北京) リージョンに配置され、モデル推論の計算リソースは中国本土でのみ利用可能です。
HTTP エンドポイント:POST https://dashscope.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation
SDK の base_url:https://dashscope.aliyuncs.com/api/v1
リクエストボディ | Qwen3-ASR-Flash以下の例は、URL からの音声認識方法を示しています。ローカル音声ファイルの認識方法の例については、「クイックスタート」をご参照ください。 cURLJavaPython |
model モデル名。このパラメーターは Qwen3-ASR-Flash のみに適用されます。 | |
messages メッセージのリスト。 HTTP 呼び出しを行う場合、messages は input オブジェクト内に配置します。 | |
asr_options 特定の機能を有効にするかどうかを指定します。 このパラメーターは Qwen3-ASR-Flash。 |
レスポンスボディ | Qwen3-ASR-Flash |
request_id この呼び出しの一意な識別子。 Java SDK によって返されるパラメーターは requestId | |
output 呼び出し結果に関する情報。 | |
usage このリクエストのトークン消費情報。 |
DashScope 非同期
プロセスの説明
OpenAI 互換モードまたは DashScope 同期呼び出しとは異なり、非同期呼び出しは長時間の音声ファイルやその他の時間のかかるタスクの処理を目的として設計されています。このモードでは、長時間の待機によるリクエストタイムアウトを防ぐために、「タスク送信 - 結果取得」という 2 段階のプロセスを使用します。
ステップ 1:タスクを送信
クライアントが非同期処理リクエストを開始します。
サーバーはリクエストを検証した後、すぐにタスクを実行しません。代わりに、タスクが正常に作成されたことを示す一意の
task_idを返します。
ステップ 2:結果を取得
クライアントは、取得した
task_idを使用して、ポーリングにより結果照会 API を繰り返し呼び出します。タスクが完了すると、結果照会 API は最終的な認識結果を返します。
統合環境に応じて、SDK を使用するか RESTful API を直接呼び出すかを選択できます。
SDK を使用する場合(サンプルコードについては「クイックスタート」、リクエストパラメーターについては「タスクの送信」のリクエストボディ、返された結果については「非同期呼び出しの認識結果」をご参照ください)。
SDK は基盤となる API 呼び出しの詳細をカプセル化し、より便利なプログラミング体験を提供します。
タスクを送信:タスクを送信するには、
async_call()(Python) またはasyncCall()(Java) メソッドを呼び出します。このメソッドは、task_idを含むタスクオブジェクトを返します。結果を取得:前のステップで返されたタスクオブジェクトまたは
task_idを使用して、fetch()メソッドを呼び出して結果を取得します。SDK はタスクが完了またはタイムアウトするまで、ポーリングロジックを自動的に処理します。
2. RESTful API を使用する
HTTP API を直接呼び出すことで、最大限の柔軟性を実現できます。
前のステップの
task_idを使用して、タスク実行結果を取得します。
タスクの送信
URL
国際
国際デプロイメントモードでは、エンドポイントおよびデータストレージはシンガポールリージョンに配置され、モデル推論の計算リソースは中国本土を除くグローバルで動的にスケジュールされます。
HTTP エンドポイント:POST https://dashscope-intl.aliyuncs.com/api/v1/services/audio/asr/transcription
SDK の base_url:https://dashscope-intl.aliyuncs.com/api/v1
中国本土
中国本土のデプロイメントモードでは、エンドポイントおよびデータストレージは中国 (北京) リージョンに配置され、モデル推論の計算リソースは中国本土内に限定されます。
HTTP エンドポイント:POST https://dashscope.aliyuncs.com/api/v1/services/audio/asr/transcription
SDK の base_url:https://dashscope.aliyuncs.com/api/v1
リクエストボディ | cURLJavaSDK のサンプルについては、「クイックスタート」をご参照ください。 PythonSDK の例については、「クイックスタート」をご参照ください。 |
model モデル名。Qwen3-ASR-Flash-Filetrans のみに適用されます。 | |
input | |
parameters |
レスポンスボディ | |
request_id この呼び出しの一意な識別子。 | |
output 呼び出し結果に関する情報。 |
タスク実行結果の取得
URL
国際
HTTP エンドポイント:GET https://dashscope-intl.aliyuncs.com/api/v1/tasks/{task_id}
SDK の base_url:https://dashscope-intl.aliyuncs.com/api/v1
中国本土
SDK の base_url:https://dashscope.aliyuncs.com/api/v1
HTTP エンドポイント:GET https://dashscope.aliyuncs.com/api/v1/tasks/{task_id}
リクエストボディ | cURLJavaSDK の例については、「クイックスタート」をご参照ください。 PythonSDK の例については、「クイックスタート」をご参照ください。 |
task_id タスクの ID。「タスクの送信」操作で返された task_id を渡して、音声認識結果を照会します。 |
レスポンスボディ | RUNNINGSUCCEEDEDFAILED |
request_id この呼び出しの一意な識別子。 | |
output 呼び出し結果に関する情報。 |
非同期呼び出しの認識結果の説明 | |
file_url 認識された音声ファイルの URL。 | |
audio_info 認識された音声ファイルに関する情報。 | |
transcripts 完全な認識結果のリスト。各要素は音声トラックの認識内容に対応します。 |