AI Search Open Platform は、API を介した音声認識サービスの呼び出しをサポートしています。動画や音声の音声コンテンツを構造化テキストに変換することをサポートしています。これは、会議記録、動画検索、オンラインカスタマーサービスなどのシナリオに使用できます。
サービス一覧
サービス名 | サービス ID (service_id) | サービスの説明 | API 呼び出し QPS 制限 (Alibaba Cloud アカウントと RAM ユーザーを含む) |
音声認識サービス | ops-audio-asr-001 | 音声情報を抽出して字幕ファイルを作成します。 | 5 説明 より高い QPS を申請するには、チケットを送信してください。 |
認証情報を取得します。
API を使用して AI Search Open Platform サービスを呼び出す場合は、呼び出し元の ID を認証する必要があります。
サービスアクセスアドレスを取得します。
インターネットまたは VPC (仮想プライベートクラウド) を介してサービスを呼び出すことができます。詳細については、「サービス登録アドレスを取得する」をご参照ください。
非同期音声認識タスクを作成する
リクエストメソッド: POST
URL
POST {host}/v3/openapi/workspaces/{workspace_name}/audio-asr/{service_id}/async host: サービスを呼び出すためのアドレス。インターネットまたは VPC を介して API サービスを呼び出すことができます。詳細については、「サービス登録アドレスを取得する」をご参照ください。
workspace_name: ワークスペースの名前 (例: default)。
service_id: システムに組み込まれているサービス ID (例: ops-audio-asr-001)。
リクエストパラメーター
ヘッダーパラメーター
API-KEY 認証
パラメーター | タイプ | 必須 | 説明 | 値の例 |
Content-Type | String | はい | リクエストタイプ: application/json | application/json |
Authorization | String | はい | API-Key | Bearer OS-d1**2a |
ボディパラメーター
パラメーター | タイプ | 必須 | 説明 |
input | Object(input) | はい | 処理対象のマルチメディアファイルを指定します。 |
parameters | Object | いいえ | サービスのパラメーターを指定します。 |
output | Object(output) | はい | 出力を制御します。 |
input
パラメーター | タイプ | 必須 | 説明 |
content | String | いいえ | 動画/音声コンテンツの Base64 エンコードデータ。 サポートされているオーディオ形式は、mp3、wav、aac、flac、ogg、m4a、alac、wma です。 サポートされているビデオ形式は、mp4、avi、mkv、mov、flv、webm です。 説明 input.content パラメーターと input.oss パラメーターは相互排他です。どちらか一方のみを選択できます。 BASE64 データの使用: エンコードされた BASE64 データを
例:
|
oss | String | いいえ | 入力ファイルの OSS パス (例: oss://<BUCKET_NAME>/xxx/xxx.mp3)。 |
file_name | String | いいえ | 動画/音声ファイルの名前。設定されていない場合は、コンテンツのファイル名から解析されます。 |
output
パラメーター | タイプ | 必須 | 説明 |
type | String | いいえ | text: 音声認識結果をテキスト形式で返します。同期タスク呼び出しでのみサポートされます。 oss: 音声ファイルは OSS に保存されます (デフォルト)。 |
oss | String | いいえ | 出力ファイルの OSS パス。 type が oss の場合は、これを入力する必要があります。 例: |
レスポンスパラメーター
パラメーター | タイプ | 説明 | 値の例 |
result.task_id | String | 音声認識タスクの一意の識別子 ID。 | asr-xxxx-abc-123 |
Curl リクエストの例
curl -X POST \
-H "Content-Type: application/json" \
-H "Authorization: Bearer <Your API-KEY>" \
"http://***-hangzhou.opensearch.aliyuncs.com/v3/openapi/workspaces/default/audio-asr/ops-audio-asr-001/async"
--data '{
"input":{
"oss":"oss://<BUCKET_NAME>/xxx/xxx.mp3",
"file_name":"xxx"
},
"output" :{
"type":"oss",
"oss":"oss://<BUCKET_NAME>/result"
}
}' \
レスポンスの例
{
"request_id":"3eb8de02091b59431601f3bff******",
"latency":37,
"usage":{},
"result":{
"task_id":"asr-20250610164552-1108418170738252-******",
"status":"PENDING" // ペンディング
}
}非同期音声認識タスクのステータスを取得する
リクエストメソッド: GET
URL
{host}/v3/openapi/workspaces/{workspace_name}/audio-asr/{service_id}/async/task-status?task_id={task_id}host: サービスを呼び出すためのアドレス。インターネットまたは VPC を介して API サービスを呼び出します。詳細については、「サービス登録アドレスを取得する」をご参照ください。
workspace_name: ワークスペースの名前 (例: default)。
service_id: システムに組み込まれているサービス ID (例: ops-audio-asr-001)。
task_id: 非同期音声認識タスクの作成の戻りパラメーターにあるタスク識別子。
リクエストパラメーター
パラメーター | タイプ | 必須 | 説明 | 例 |
Content-Type | String | はい | リクエストタイプ: application/json | application/json |
Authorization | String | はい | API-Key | Bearer OS-d1**2a |
レスポンスパラメーター
パラメーター | タイプ | 説明 | 例 |
request_id | String | リクエスト ID。 | 3C09570D-12DB-46B4-BF0F-A100D79B**** |
latency | Float/Int | リクエストレイテンシ (ミリ秒)。 | 3.0 |
result.task_id | String | 非同期タスク ID。 | a7e4c0f6-874c-47e3-b05b-02278a96e**** |
result.status | String | タスクステータス:
| PENDING |
result.error | String | status=FAIL の場合のエラーメッセージの内容。通常の状況下では空です。 | |
result.data | List(AsrResult) | 音声認識の結果。非同期タスクのステータスが正常に完了していない (SUCCESS) 場合、このフィールドは空です。 | |
usage.duration | Float.duration | 音声ファイルの長さ。 |
AsrResult
パラメーター | タイプ | 説明 |
text | String | 音声認識から取得したテキストデータ。 |
start | Float | 動画内の現在のテキストの開始タイムスタンプ (秒)。 |
end | Float | 動画内の現在のテキストの終了タイムスタンプ (秒)。 |
Curl リクエストの例
curl -X GET \
-H"Content-Type: application/json" \
-H "Authorization: Bearer <Your API-KEY>" \
"http://***-hangzhou.opensearch.aliyuncs.com/v3/openapi/workspaces/default/audio-asr/ops-audio-asr-001/async/task-status?task_id=asr-20250618112151-1108418170738252-******"
レスポンスの例
{
"request_id": "1a1a4ca4b7a91dd630a40c54af******",
"latency": 9,
"usage": {
"duration": 9
},
"result": {
"task_id": "asr-20250618112151-1108418170738252-******",
"status": "SUCCESS",
"data": [
{
"text": "Rong Jielvdou began to speak, his voice as warm as the spring sun,", // ロン・ジエルブドウが話し始め、彼の声は春の太陽のように暖かく、
"start": 0.0,
"end": 3.9
},
{
"text": "full of life and warming the hearts of everyone who listened.", // 生気に満ち、聞いた人すべての心を温めました。
"start": 4.24,
"end": 9.06
}
]
}
}同期音声認識タスクを作成する
リクエストメソッド: POST
URL
{host}/v3/openapi/workspaces/{workspace_name}/audio-asr/{service_id}/synchost: サービスを呼び出すためのアドレス。インターネットまたは VPC を介して API サービスを呼び出すことができます。詳細については、「サービス登録アドレスを取得する」をご参照ください。
workspace_name: ワークスペースの名前 (例: default)。
service_id: システムに組み込まれているサービス ID (例: ops-audio-asr-001)。
リクエストパラメーター
ヘッダーパラメーター
API-KEY 認証
パラメーター | タイプ | 必須 | 説明 | 値の例 |
Content-Type | String | はい | リクエストタイプ: application/json | application/json |
Authorization | String | はい | API-Key | Bearer OS-d1**2a |
ボディパラメーター
パラメーター | タイプ | 必須 | 説明 |
input | Object(input) | はい | 処理対象のマルチメディアファイルを指定します。 |
parameters | Object | いいえ | サービスのパラメーターを指定します。 |
output | Object(output) | はい | 出力を制御します。 |
input
パラメーター | タイプ | 必須 | 説明 |
content | String | いいえ | 動画/音声コンテンツの Base64 エンコードデータ。 サポートされているオーディオ形式は、mp3、wav、aac、flac、ogg、m4a、alac、wma です。 サポートされているビデオ形式は、mp4、avi、mkv、mov、flv、webm です。 説明 input.content パラメーターと input.oss パラメーターは相互排他です。どちらか一方のみを選択できます。 BASE64 データの使用: エンコードされた BASE64 データを
例:
|
oss | String | いいえ | 入力ファイルの OSS パス (例: oss://<BUCKET_NAME>/xxx/xxx.mp3)。 |
file_name | String | いいえ | 動画/音声ファイルの名前。設定されていない場合は、コンテンツのファイル名から解析されます。 |
Output
パラメーター | タイプ | 必須 | 説明 |
type | String | いいえ | text: 音声認識結果をテキスト形式で返します。同期呼び出しのみサポートします。 oss: 動画/音声ファイルは OSS に保存されます (デフォルト)。 |
oss | String | いいえ | 出力ファイルの OSS パス。 type が oss の場合は、これを入力する必要があります。 例: |
レスポンスパラメーター
パラメーター | タイプ | 説明 | 値の例 |
result.task_id | String | 音声認識タスクの一意の識別子 ID。 | asr-xxxx-abc-123 |
Curl リクエストの例
curl -X POST \
-H "Content-Type: application/json" \
-H "Authorization: Bearer <Your API-KEY>" \
"http://***-hangzhou.opensearch.aliyuncs.com/v3/openapi/workspaces/default/audio-asr/ops-audio-asr-001/sync"
--data '{
"input":{
"oss":"oss://<BUCKET_NAME>/xxx/xxx.mp3",
"file_name":"xxx"
},
"output" :{
"type":"oss",
"oss":"oss://<BUCKET_NAME>/result"
}
}' \
レスポンスの例
{
"request_id": "df96b5c444281e0e79561fe9f8******",
"latency": 570,
"usage": {
"duration": 9
},
"result": {
"task_id": "asr-20250618132401-1108418170738252-******",
"status": "SUCCESS",
"data": [
{
"text": "Rong Jielvdou began to speak, his voice as warm as the spring sun,", // ロン・ジエルブドウが話し始め、彼の声は春の太陽のように暖かく、
"start": 0.0,
"end": 3.9
},
{
"text": "full of life and warming the hearts of everyone who listened.", // 生気に満ち、聞いた人すべての心を温めました。
"start": 4.24,
"end": 9.06
}
]
}
}状態コードの説明
リクエストエラーが発生した場合、出力結果には code と message によってエラーの理由が示されます。
{
"request_id": "6F33AFB6-A35C-4DA7-AFD2-9EA16CCF****",
"latency": 2.0,
"code": "InvalidParameter", // 無効なパラメーター
"http_code": 400,
"message": "JSON parse error: Cannot deserialize value of type `ImageStorage` from String \\"xxx\\"" // JSON 解析エラー: 文字列 \\"xxx\\" から `ImageStorage` タイプの値を逆シリアル化できません
}HTTP ステータスコード | エラーコード | 説明 |
200 | - | リクエスト成功。タスク失敗のシナリオも含みます。実際のタスクステータスは result.status から判断する必要があります。 |
404 | BadRequest.TaskNotExist | タスクが存在しないために返されたエラーメッセージ。 |
400 | InvalidParameter | 無効なリクエスト。 |
500 | InternalServerError | 内部エラー。 |
状態コードの詳細については、「状態コードの説明」をご参照ください。