すべてのプロダクト
Search
ドキュメントセンター

OpenSearch:音声認識

最終更新日:Aug 06, 2025

AI Search Open Platform は、API を介した音声認識サービスの呼び出しをサポートしています。動画や音声の音声コンテンツを構造化テキストに変換することをサポートしています。これは、会議記録、動画検索、オンラインカスタマーサービスなどのシナリオに使用できます。

サービス一覧

サービス名

サービス ID (service_id)

サービスの説明

API 呼び出し QPS 制限 (Alibaba Cloud アカウントと RAM ユーザーを含む)

音声認識サービス

ops-audio-asr-001

音声情報を抽出して字幕ファイルを作成します。

5

説明

より高い QPS を申請するには、チケットを送信してください。

  • 認証情報を取得します。

    API を使用して AI Search Open Platform サービスを呼び出す場合は、呼び出し元の ID を認証する必要があります。

  • サービスアクセスアドレスを取得します。

    インターネットまたは VPC (仮想プライベートクラウド) を介してサービスを呼び出すことができます。詳細については、「サービス登録アドレスを取得する」をご参照ください。

非同期音声認識タスクを作成する

リクエストメソッド: POST

URL

POST {host}/v3/openapi/workspaces/{workspace_name}/audio-asr/{service_id}/async 
  • host: サービスを呼び出すためのアドレス。インターネットまたは VPC を介して API サービスを呼び出すことができます。詳細については、「サービス登録アドレスを取得する」をご参照ください。

  • workspace_name: ワークスペースの名前 (例: default)。

  • service_id: システムに組み込まれているサービス ID (例: ops-audio-asr-001)。

リクエストパラメーター

ヘッダーパラメーター

API-KEY 認証

パラメーター

タイプ

必須

説明

値の例

Content-Type

String

はい

リクエストタイプ: application/json

application/json

Authorization

String

はい

API-Key

Bearer OS-d1**2a

ボディパラメーター

パラメーター

タイプ

必須

説明

input

Object(input)

はい

処理対象のマルチメディアファイルを指定します。

parameters

Object

いいえ

サービスのパラメーターを指定します。

output

Object(output)

はい

出力を制御します。

input

パラメーター

タイプ

必須

説明

content

String

いいえ

動画/音声コンテンツの Base64 エンコードデータ。

サポートされているオーディオ形式は、mp3、wav、aac、flac、ogg、m4a、alac、wma です。

サポートされているビデオ形式は、mp4、avi、mkv、mov、flv、webm です。

説明

input.content パラメーターと input.oss パラメーターは相互排他です。どちらか一方のみを選択できます。

BASE64 データの使用: エンコードされた BASE64 データを content パラメーターに data:<TYPE>/<FORMAT>;base64,<BASE64_DATA> 形式で渡します。ここで:

  • <TYPE>/<FORMAT>

    • オーディオ (MP3 など) の場合は、audio/mp3 と入力します。

    • ビデオ (MOV など) の場合は、video/mov と入力します。

  • <BASE64_DATA>: 音声またはビデオの BASE64 エンコードデータ。

例:

  • オーディオ: data:audio/mp3;base64,AAAAIGZ0eXBtcDQyAAABAGlzbWZj...

  • ビデオ: data:video/mov;base64,AAAAIGZ0eXBtcDQyAAABAGlzbWZj...

oss

String

いいえ

入力ファイルの OSS パス (例: oss://<BUCKET_NAME>/xxx/xxx.mp3)。

file_name

String

いいえ

動画/音声ファイルの名前。設定されていない場合は、コンテンツのファイル名から解析されます。

output

パラメーター

タイプ

必須

説明

type

String

いいえ

text: 音声認識結果をテキスト形式で返します。同期タスク呼び出しでのみサポートされます。

oss: 音声ファイルは OSS に保存されます (デフォルト)。

oss

String

いいえ

出力ファイルの OSS パス。 type が oss の場合は、これを入力する必要があります。

例: oss://<BUCKET_NAME>/result

レスポンスパラメーター

パラメーター

タイプ

説明

値の例

result.task_id

String

音声認識タスクの一意の識別子 ID。

asr-xxxx-abc-123

Curl リクエストの例

curl -X POST \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer <Your API-KEY>" \
  "http://***-hangzhou.opensearch.aliyuncs.com/v3/openapi/workspaces/default/audio-asr/ops-audio-asr-001/async"
  --data '{
  "input":{
      "oss":"oss://<BUCKET_NAME>/xxx/xxx.mp3",
      "file_name":"xxx"
    },
    "output" :{
      "type":"oss",
      "oss":"oss://<BUCKET_NAME>/result"
    }
  }' \ 

レスポンスの例

{
  "request_id":"3eb8de02091b59431601f3bff******",
   "latency":37,
   "usage":{},
   "result":{
         "task_id":"asr-20250610164552-1108418170738252-******",
         "status":"PENDING"  // ペンディング
             }
}

非同期音声認識タスクのステータスを取得する

リクエストメソッド: GET

URL

{host}/v3/openapi/workspaces/{workspace_name}/audio-asr/{service_id}/async/task-status?task_id={task_id}
  • host: サービスを呼び出すためのアドレス。インターネットまたは VPC を介して API サービスを呼び出します。詳細については、「サービス登録アドレスを取得する」をご参照ください。

  • workspace_name: ワークスペースの名前 (例: default)。

  • service_id: システムに組み込まれているサービス ID (例: ops-audio-asr-001)。

  • task_id: 非同期音声認識タスクの作成の戻りパラメーターにあるタスク識別子。

リクエストパラメーター

パラメーター

タイプ

必須

説明

Content-Type

String

はい

リクエストタイプ: application/json

application/json

Authorization

String

はい

API-Key

Bearer OS-d1**2a

レスポンスパラメーター

パラメーター

タイプ

説明

request_id

String

リクエスト ID。

3C09570D-12DB-46B4-BF0F-A100D79B****

latency

Float/Int

リクエストレイテンシ (ミリ秒)。

3.0

result.task_id

String

非同期タスク ID。

a7e4c0f6-874c-47e3-b05b-02278a96e****

result.status

String

タスクステータス:

  • PENDING: 処理待ち。

  • SUCCESS: タスクは正常に完了しました。

  • FAIL: タスクは失敗して終了しました。

PENDING

result.error

String

status=FAIL の場合のエラーメッセージの内容。通常の状況下では空です。

result.data

List(AsrResult)

音声認識の結果。非同期タスクのステータスが正常に完了していない (SUCCESS) 場合、このフィールドは空です。

usage.duration

Float.duration

音声ファイルの長さ。

AsrResult

パラメーター

タイプ

説明

text

String

音声認識から取得したテキストデータ。

start

Float

動画内の現在のテキストの開始タイムスタンプ (秒)。

end

Float

動画内の現在のテキストの終了タイムスタンプ (秒)。

Curl リクエストの例

curl -X GET \
-H"Content-Type: application/json" \
-H "Authorization: Bearer <Your API-KEY>" \
"http://***-hangzhou.opensearch.aliyuncs.com/v3/openapi/workspaces/default/audio-asr/ops-audio-asr-001/async/task-status?task_id=asr-20250618112151-1108418170738252-******" 
 

レスポンスの例

{
  "request_id": "1a1a4ca4b7a91dd630a40c54af******",
  "latency": 9,
  "usage": {
    "duration": 9
  },
  "result": {
    "task_id": "asr-20250618112151-1108418170738252-******",
    "status": "SUCCESS",
    "data": [
      {
        "text": "Rong Jielvdou began to speak, his voice as warm as the spring sun,", // ロン・ジエルブドウが話し始め、彼の声は春の太陽のように暖かく、
        "start": 0.0,
        "end": 3.9
      },
      {
        "text": "full of life and warming the hearts of everyone who listened.", // 生気に満ち、聞いた人すべての心を温めました。
        "start": 4.24,
        "end": 9.06
      }
    ]
  }
}

同期音声認識タスクを作成する

リクエストメソッド: POST

URL

{host}/v3/openapi/workspaces/{workspace_name}/audio-asr/{service_id}/sync
  • host: サービスを呼び出すためのアドレス。インターネットまたは VPC を介して API サービスを呼び出すことができます。詳細については、「サービス登録アドレスを取得する」をご参照ください。

  • workspace_name: ワークスペースの名前 (例: default)。

  • service_id: システムに組み込まれているサービス ID (例: ops-audio-asr-001)。

リクエストパラメーター

ヘッダーパラメーター

API-KEY 認証

パラメーター

タイプ

必須

説明

値の例

Content-Type

String

はい

リクエストタイプ: application/json

application/json

Authorization

String

はい

API-Key

Bearer OS-d1**2a

ボディパラメーター

パラメーター

タイプ

必須

説明

input

Object(input)

はい

処理対象のマルチメディアファイルを指定します。

parameters

Object

いいえ

サービスのパラメーターを指定します。

output

Object(output)

はい

出力を制御します。

input

パラメーター

タイプ

必須

説明

content

String

いいえ

動画/音声コンテンツの Base64 エンコードデータ。

サポートされているオーディオ形式は、mp3、wav、aac、flac、ogg、m4a、alac、wma です。

サポートされているビデオ形式は、mp4、avi、mkv、mov、flv、webm です。

説明

input.content パラメーターと input.oss パラメーターは相互排他です。どちらか一方のみを選択できます。

BASE64 データの使用: エンコードされた BASE64 データを content パラメーターに data:<TYPE>/<FORMAT>;base64,<BASE64_DATA> 形式で渡します。ここで:

  • <TYPE>/<FORMAT>

    • オーディオ (MP3 など) の場合は、audio/mp3 と入力します。

    • ビデオ (MOV など) の場合は、video/mov と入力します。

  • <BASE64_DATA>: 音声またはビデオの BASE64 エンコードデータ。

例:

  • オーディオ: data:audio/mp3;base64,AAAAIGZ0eXBtcDQyAAABAGlzbWZj...

  • ビデオ: data:video/mov;base64,AAAAIGZ0eXBtcDQyAAABAGlzbWZj...

oss

String

いいえ

入力ファイルの OSS パス (例: oss://<BUCKET_NAME>/xxx/xxx.mp3)。

file_name

String

いいえ

動画/音声ファイルの名前。設定されていない場合は、コンテンツのファイル名から解析されます。

Output

パラメーター

タイプ

必須

説明

type

String

いいえ

text: 音声認識結果をテキスト形式で返します。同期呼び出しのみサポートします。

oss: 動画/音声ファイルは OSS に保存されます (デフォルト)。

oss

String

いいえ

出力ファイルの OSS パス。 type が oss の場合は、これを入力する必要があります。

例: oss://<BUCKET_NAME>/result

レスポンスパラメーター

パラメーター

タイプ

説明

値の例

result.task_id

String

音声認識タスクの一意の識別子 ID。

asr-xxxx-abc-123

Curl リクエストの例

curl -X POST \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer <Your API-KEY>" \
  "http://***-hangzhou.opensearch.aliyuncs.com/v3/openapi/workspaces/default/audio-asr/ops-audio-asr-001/sync"
  --data '{
  "input":{
      "oss":"oss://<BUCKET_NAME>/xxx/xxx.mp3",
      "file_name":"xxx"
    },
    "output" :{
      "type":"oss",
      "oss":"oss://<BUCKET_NAME>/result"
    }
  }' \ 

レスポンスの例

{
  "request_id": "df96b5c444281e0e79561fe9f8******",
  "latency": 570,
  "usage": {
    "duration": 9
  },
  "result": {
    "task_id": "asr-20250618132401-1108418170738252-******",
    "status": "SUCCESS",
    "data": [
      {
        "text": "Rong Jielvdou began to speak, his voice as warm as the spring sun,", // ロン・ジエルブドウが話し始め、彼の声は春の太陽のように暖かく、
        "start": 0.0,
        "end": 3.9
      },
      {
        "text": "full of life and warming the hearts of everyone who listened.", // 生気に満ち、聞いた人すべての心を温めました。
        "start": 4.24,
        "end": 9.06
      }
    ]
  }
}

状態コードの説明

リクエストエラーが発生した場合、出力結果には code と message によってエラーの理由が示されます。

{
    "request_id": "6F33AFB6-A35C-4DA7-AFD2-9EA16CCF****",
    "latency": 2.0,
    "code": "InvalidParameter", // 無効なパラメーター
    "http_code": 400,
    "message": "JSON parse error: Cannot deserialize value of type `ImageStorage` from String \\"xxx\\"" // JSON 解析エラー: 文字列 \\"xxx\\" から `ImageStorage` タイプの値を逆シリアル化できません
}

HTTP ステータスコード

エラーコード

説明

200

-

リクエスト成功。タスク失敗のシナリオも含みます。実際のタスクステータスは result.status から判断する必要があります。

404

BadRequest.TaskNotExist

タスクが存在しないために返されたエラーメッセージ。

400

InvalidParameter

無効なリクエスト。

500

InternalServerError

内部エラー。

状態コードの詳細については、「状態コードの説明」をご参照ください。