音声認識 - OpenSearch - Alibaba Cloud ドキュメントセンター

AI Search Open Platform は、API を介した音声認識サービスの呼び出しをサポートしています。動画や音声の音声コンテンツを構造化テキストに変換することをサポートしています。これは、会議記録、動画検索、オンラインカスタマーサービスなどのシナリオに使用できます。

サービス一覧

サービス名	サービス ID (service_id)	サービスの説明	API 呼び出し QPS 制限 (Alibaba Cloud アカウントと RAM ユーザーを含む)
音声認識サービス	ops-audio-asr-001	音声情報を抽出して字幕ファイルを作成します。	5 説明より高い QPS を申請するには、チケットを送信してください。

認証情報を取得します。
API を使用して AI Search Open Platform サービスを呼び出す場合は、呼び出し元の ID を認証する必要があります。
サービスアクセスアドレスを取得します。
インターネットまたは VPC (仮想プライベートクラウド) を介してサービスを呼び出すことができます。詳細については、「サービス登録アドレスを取得する」をご参照ください。

非同期音声認識タスクを作成する

リクエストメソッド: POST

URL

POST {host}/v3/openapi/workspaces/{workspace_name}/audio-asr/{service_id}/async

host: サービスを呼び出すためのアドレス。インターネットまたは VPC を介して API サービスを呼び出すことができます。詳細については、「サービス登録アドレスを取得する」をご参照ください。

workspace_name: ワークスペースの名前 (例: default)。
service_id: システムに組み込まれているサービス ID (例: ops-audio-asr-001)。

リクエストパラメーター

ヘッダーパラメーター

API-KEY 認証

パラメーター	タイプ	必須	説明	値の例
Content-Type	String	はい	リクエストタイプ: application/json	application/json
Authorization	String	はい	API-Key	Bearer OS-d1**2a

ボディパラメーター

パラメーター	タイプ	必須	説明
input	Object(input)	はい	処理対象のマルチメディアファイルを指定します。
parameters	Object	いいえ	サービスのパラメーターを指定します。
output	Object(output)	はい	出力を制御します。

input

パラメーター	タイプ	必須	説明
content	String	いいえ	動画/音声コンテンツの Base64 エンコードデータ。サポートされているオーディオ形式は、mp3、wav、aac、flac、ogg、m4a、alac、wma です。サポートされているビデオ形式は、mp4、avi、mkv、mov、flv、webm です。説明 input.content パラメーターと input.oss パラメーターは相互排他です。どちらか一方のみを選択できます。 BASE64 データの使用: エンコードされた BASE64 データを `content` パラメーターに `data:<TYPE>/<FORMAT>;base64,<BASE64_DATA>` 形式で渡します。ここで: `<TYPE>/<FORMAT>` オーディオ (MP3 など) の場合は、audio/mp3 と入力します。ビデオ (MOV など) の場合は、video/mov と入力します。 `<BASE64_DATA>`: 音声またはビデオの BASE64 エンコードデータ。例: オーディオ: data:audio/mp3;base64,AAAAIGZ0eXBtcDQyAAABAGlzbWZj... ビデオ: data:video/mov;base64,AAAAIGZ0eXBtcDQyAAABAGlzbWZj...
oss	String	いいえ	入力ファイルの OSS パス (例: oss://<BUCKET_NAME>/xxx/xxx.mp3)。
file_name	String	いいえ	動画/音声ファイルの名前。設定されていない場合は、コンテンツのファイル名から解析されます。

output

パラメーター

タイプ

必須

説明

type

String

いいえ

text: 音声認識結果をテキスト形式で返します。同期タスク呼び出しでのみサポートされます。

oss: 音声ファイルは OSS に保存されます (デフォルト)。

oss

String

いいえ

出力ファイルの OSS パス。 type が oss の場合は、これを入力する必要があります。

例: oss://<BUCKET_NAME>/result

レスポンスパラメーター

パラメーター	タイプ	説明	値の例
result.task_id	String	音声認識タスクの一意の識別子 ID。	asr-xxxx-abc-123

Curl リクエストの例

curl -X POST \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer <Your API-KEY>" \
  "http://***-hangzhou.opensearch.aliyuncs.com/v3/openapi/workspaces/default/audio-asr/ops-audio-asr-001/async"
  --data '{
  "input":{
      "oss":"oss://<BUCKET_NAME>/xxx/xxx.mp3",
      "file_name":"xxx"
    },
    "output" :{
      "type":"oss",
      "oss":"oss://<BUCKET_NAME>/result"
    }
  }' \

レスポンスの例

{
  "request_id":"3eb8de02091b59431601f3bff******",
   "latency":37,
   "usage":{},
   "result":{
         "task_id":"asr-20250610164552-1108418170738252-******",
         "status":"PENDING"  // ペンディング
             }
}

非同期音声認識タスクのステータスを取得する

リクエストメソッド: GET

URL

{host}/v3/openapi/workspaces/{workspace_name}/audio-asr/{service_id}/async/task-status?task_id={task_id}

host: サービスを呼び出すためのアドレス。インターネットまたは VPC を介して API サービスを呼び出します。詳細については、「サービス登録アドレスを取得する」をご参照ください。
workspace_name: ワークスペースの名前 (例: default)。
service_id: システムに組み込まれているサービス ID (例: ops-audio-asr-001)。
task_id: 非同期音声認識タスクの作成の戻りパラメーターにあるタスク識別子。

リクエストパラメーター

パラメーター	タイプ	必須	説明	例
Content-Type	String	はい	リクエストタイプ: application/json	application/json
Authorization	String	はい	API-Key	Bearer OS-d1**2a

レスポンスパラメーター

パラメーター	タイプ	説明	例
request_id	String	リクエスト ID。	3C09570D-12DB-46B4-BF0F-A100D79B****
latency	Float/Int	リクエストレイテンシ (ミリ秒)。	3.0
result.task_id	String	非同期タスク ID。	a7e4c0f6-874c-47e3-b05b-02278a96e****
result.status	String	タスクステータス: PENDING: 処理待ち。 SUCCESS: タスクは正常に完了しました。 FAIL: タスクは失敗して終了しました。	PENDING
result.error	String	status=FAIL の場合のエラーメッセージの内容。通常の状況下では空です。
result.data	List(AsrResult)	音声認識の結果。非同期タスクのステータスが正常に完了していない (SUCCESS) 場合、このフィールドは空です。
usage.duration	Float.duration	音声ファイルの長さ。

AsrResult

パラメーター	タイプ	説明
text	String	音声認識から取得したテキストデータ。
start	Float	動画内の現在のテキストの開始タイムスタンプ (秒)。
end	Float	動画内の現在のテキストの終了タイムスタンプ (秒)。

Curl リクエストの例

curl -X GET \
-H"Content-Type: application/json" \
-H "Authorization: Bearer <Your API-KEY>" \
"http://***-hangzhou.opensearch.aliyuncs.com/v3/openapi/workspaces/default/audio-asr/ops-audio-asr-001/async/task-status?task_id=asr-20250618112151-1108418170738252-******"

レスポンスの例

{
  "request_id": "1a1a4ca4b7a91dd630a40c54af******",
  "latency": 9,
  "usage": {
    "duration": 9
  },
  "result": {
    "task_id": "asr-20250618112151-1108418170738252-******",
    "status": "SUCCESS",
    "data": [
      {
        "text": "Rong Jielvdou began to speak, his voice as warm as the spring sun,", // ロン・ジエルブドウが話し始め、彼の声は春の太陽のように暖かく、
        "start": 0.0,
        "end": 3.9
      },
      {
        "text": "full of life and warming the hearts of everyone who listened.", // 生気に満ち、聞いた人すべての心を温めました。
        "start": 4.24,
        "end": 9.06
      }
    ]
  }
}

同期音声認識タスクを作成する

リクエストメソッド: POST

URL

{host}/v3/openapi/workspaces/{workspace_name}/audio-asr/{service_id}/sync

host: サービスを呼び出すためのアドレス。インターネットまたは VPC を介して API サービスを呼び出すことができます。詳細については、「サービス登録アドレスを取得する」をご参照ください。
workspace_name: ワークスペースの名前 (例: default)。
service_id: システムに組み込まれているサービス ID (例: ops-audio-asr-001)。

リクエストパラメーター

ヘッダーパラメーター

API-KEY 認証

パラメーター	タイプ	必須	説明	値の例
Content-Type	String	はい	リクエストタイプ: application/json	application/json
Authorization	String	はい	API-Key	Bearer OS-d1**2a

ボディパラメーター

パラメーター	タイプ	必須	説明
input	Object(input)	はい	処理対象のマルチメディアファイルを指定します。
parameters	Object	いいえ	サービスのパラメーターを指定します。
output	Object(output)	はい	出力を制御します。

input

パラメーター	タイプ	必須	説明
content	String	いいえ	動画/音声コンテンツの Base64 エンコードデータ。サポートされているオーディオ形式は、mp3、wav、aac、flac、ogg、m4a、alac、wma です。サポートされているビデオ形式は、mp4、avi、mkv、mov、flv、webm です。説明 input.content パラメーターと input.oss パラメーターは相互排他です。どちらか一方のみを選択できます。 BASE64 データの使用: エンコードされた BASE64 データを `content` パラメーターに `data:<TYPE>/<FORMAT>;base64,<BASE64_DATA>` 形式で渡します。ここで: `<TYPE>/<FORMAT>` オーディオ (MP3 など) の場合は、audio/mp3 と入力します。ビデオ (MOV など) の場合は、video/mov と入力します。 `<BASE64_DATA>`: 音声またはビデオの BASE64 エンコードデータ。例: オーディオ: data:audio/mp3;base64,AAAAIGZ0eXBtcDQyAAABAGlzbWZj... ビデオ: data:video/mov;base64,AAAAIGZ0eXBtcDQyAAABAGlzbWZj...
oss	String	いいえ	入力ファイルの OSS パス (例: oss://<BUCKET_NAME>/xxx/xxx.mp3)。
file_name	String	いいえ	動画/音声ファイルの名前。設定されていない場合は、コンテンツのファイル名から解析されます。

Output

パラメーター

タイプ

必須

説明

type

String

いいえ

text: 音声認識結果をテキスト形式で返します。同期呼び出しのみサポートします。

oss: 動画/音声ファイルは OSS に保存されます (デフォルト)。

oss

String

いいえ

出力ファイルの OSS パス。 type が oss の場合は、これを入力する必要があります。

例: oss://<BUCKET_NAME>/result

レスポンスパラメーター

パラメーター	タイプ	説明	値の例
result.task_id	String	音声認識タスクの一意の識別子 ID。	asr-xxxx-abc-123

Curl リクエストの例

curl -X POST \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer <Your API-KEY>" \
  "http://***-hangzhou.opensearch.aliyuncs.com/v3/openapi/workspaces/default/audio-asr/ops-audio-asr-001/sync"
  --data '{
  "input":{
      "oss":"oss://<BUCKET_NAME>/xxx/xxx.mp3",
      "file_name":"xxx"
    },
    "output" :{
      "type":"oss",
      "oss":"oss://<BUCKET_NAME>/result"
    }
  }' \

レスポンスの例

{
  "request_id": "df96b5c444281e0e79561fe9f8******",
  "latency": 570,
  "usage": {
    "duration": 9
  },
  "result": {
    "task_id": "asr-20250618132401-1108418170738252-******",
    "status": "SUCCESS",
    "data": [
      {
        "text": "Rong Jielvdou began to speak, his voice as warm as the spring sun,", // ロン・ジエルブドウが話し始め、彼の声は春の太陽のように暖かく、
        "start": 0.0,
        "end": 3.9
      },
      {
        "text": "full of life and warming the hearts of everyone who listened.", // 生気に満ち、聞いた人すべての心を温めました。
        "start": 4.24,
        "end": 9.06
      }
    ]
  }
}

状態コードの説明

リクエストエラーが発生した場合、出力結果には code と message によってエラーの理由が示されます。

{
    "request_id": "6F33AFB6-A35C-4DA7-AFD2-9EA16CCF****",
    "latency": 2.0,
    "code": "InvalidParameter", // 無効なパラメーター
    "http_code": 400,
    "message": "JSON parse error: Cannot deserialize value of type `ImageStorage` from String \\"xxx\\"" // JSON 解析エラー: 文字列 \\"xxx\\" から `ImageStorage` タイプの値を逆シリアル化できません
}

HTTP ステータスコード	エラーコード	説明
200	-	リクエスト成功。タスク失敗のシナリオも含みます。実際のタスクステータスは result.status から判断する必要があります。
404	BadRequest.TaskNotExist	タスクが存在しないために返されたエラーメッセージ。
400	InvalidParameter	無効なリクエスト。
500	InternalServerError	内部エラー。

状態コードの詳細については、「状態コードの説明」をご参照ください。