全部產品
Search
文件中心

OpenSearch:語音辨識

更新時間:Aug 06, 2025

AI搜尋開放平台支援通過API的方式調用語音辨識服務,可將視頻或音頻中的語音內容快速轉化為結構化文本,可用於會議記錄、視頻檢索、線上客服等情境。

服務列表

服務名稱

服務ID(service_id)

服務描述

API調用QPS限制(含主帳號與RAM子帳號)

語音辨識服務

ops-audio-asr-001

提取音頻資訊產生字幕檔案。

5

說明

如需擴充QPS,請通過工單聯絡支援人員協助。

  • 擷取身份鑒權資訊

    通過API調用AI搜尋開放平台服務時,需要對調用者身份進行鑒權,如何擷取鑒權資訊請參見擷取API-KEY

  • 擷取服務調用地址

    支援通過公網和VPC兩種方式調用服務,詳情請參見擷取服務接入地址

建立語音辨識非同步任務

請求方式:POST

URL

POST {host}/v3/openapi/workspaces/{workspace_name}/audio-asr/{service_id}/async 
  • host:調用服務的地址,支援通過公網和VPC兩種方式調用API服務,可參見擷取服務接入地址

  • workspace_name:工作空間名稱,例如default。

  • service_id: 系統內建服務ID,例如ops-audio-asr-001。

請求參數

Header參數

API-KEY認證

參數

類型

必填

描述

樣本值

Content-Type

String

請求類型:application/json

application/json

Authorization

String

API-Key

Bearer OS-d1**2a

Body參數

參數

類型

必填

描述

input

Object(input)

指定待處理的多媒體檔案。

parameters

Object

指定服務的參數。

output

Object(output)

控制輸出。

input

參數

類型

必填

描述

content

String

視頻/音頻內容的base64編碼資料。

音頻格式支援mp3、wav、aac、flac、ogg、m4a、alac、wma。

視頻格式資料支援mp4、avi、mkv、mov、flv、webm。

說明

input.content 和 input.oss 參數互斥,只能二選一。

使用BASE64資料:將編碼後的BASE64資料傳遞給content參數,格式為data:<TYPE>/<FORMAT>;base64,<BASE64_DATA>,其中:

  • <TYPE>/<FORMAT>

    • 若為音頻(如MP3),則填寫audio/mp3。

    • 若為視頻(如MOV),則填寫video/mov。

  • <BASE64_DATA>:音頻或視頻的BASE64編碼資料。

樣本:

  • 音頻:data:audio/mp3;base64,AAAAIGZ0eXBtcDQyAAABAGlzbWZj...

  • 視頻:data:video/mov;base64,AAAAIGZ0eXBtcDQyAAABAGlzbWZj...

oss

String

輸入檔案的OSS路徑,例如 oss://<BUCKET_NAME>/xxx/xxx.mp3。

file_name

String

視頻/音頻檔案的名稱,如果沒有設定,則從內容的檔案名稱中解析。

output

參數

類型

必填

描述

type

String

text:將語音辨識結果以文本形式返回,僅同步任務調用下支援。

oss: 音頻檔案放在OSS中(預設)。

oss

String

輸出檔案的OSS路徑,在type為oss的情況下必須填寫。

樣本:oss://<BUCKET_NAME>/result

返回參數

參數

類型

描述

樣本值

result.task_id

String

語音辨識任務的唯一標識ID。

asr-xxxx-abc-123

Curl請求樣本

curl -X POST \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer <您的API-KEY>" \
  "http://***-hangzhou.opensearch.aliyuncs.com/v3/openapi/workspaces/default/audio-asr/ops-audio-asr-001/async"
  --data '{
  "input":{
      "oss":"oss://<BUCKET_NAME>/xxx/xxx.mp3",
      "file_name":"xxx"
    },
    "output" :{
      "type":"oss",
      "oss":"oss://<BUCKET_NAME>/result"
    }
  }' \ 

響應樣本

{
  "request_id":"3eb8de02091b59431601f3bff******",
   "latency":37,
   "usage":{},
   "result":{
         "task_id":"asr-20250610164552-1108418170738252-******",
         "status":"PENDING"
             }
}

擷取非同步語音辨識任務狀態

請求方式:GET

URL

{host}/v3/openapi/workspaces/{workspace_name}/audio-asr/{service_id}/async/task-status?task_id={task_id}
  • host:調用服務的地址,支援通過公網和VPC兩種方式調用API服務,可參見擷取服務接入地址

  • workspace_name:工作空間名稱,例如default。

  • service_id: 系統內建服務ID,例如ops-audio-asr-001。

  • task_id:建立非同步語音辨識任務返回參數中的任務標識。

請求參數

參數

類型

必填

描述

樣本

Content-Type

String

請求類型:application/json

application/json

Authorization

String

API-Key

Bearer OS-d1**2a

返回參數

參數

類型

描述

樣本

request_id

String

系統對一次API調用賦予的唯一標識。

3C09570D-12DB-46B4-BF0F-A100D79B****

latency

Float/Int

請求耗時,單位ms。

3.0

result.task_id

String

非同步任務ID。

a7e4c0f6-874c-47e3-b05b-02278a96e****

result.status

String

任務狀態:

  • PENDING:待處理。

  • SUCCESS:任務成功完成。

  • FAIL:任務失敗終止。

PENDING

result.error

String

status=FAIL時的錯誤資訊內容,正常情況為空白。

result.data

List(AsrResult)

語音辨識的結果。當非同步任務狀態未成功完成(SUCCESS)時,該欄位為空白。

usage.duration

Float.duration

語音檔案的時間長度。

AsrResult

參數

類型

描述

text

String

語音辨識得到的文本資料。

start

Float

當前文本在視頻中起始時間戳記,單位s。

end

Float

當前文本在視頻中結束時間戳記,單位s。

Curl請求樣本

curl -X GET \
-H"Content-Type: application/json" \
-H "Authorization: Bearer <您的API-KEY>" \
"http://***-hangzhou.opensearch.aliyuncs.com/v3/openapi/workspaces/default/audio-asr/ops-audio-asr-001/async/task-status?task_id=asr-20250618112151-1108418170738252-******" 
 

響應樣本

{
  "request_id": "1a1a4ca4b7a91dd630a40c54af******",
  "latency": 9,
  "usage": {
    "duration": 9
  },
  "result": {
    "task_id": "asr-20250618112151-1108418170738252-******",
    "status": "SUCCESS",
    "data": [
      {
        "text": "容傑律鬥以和煦如春陽的頭聲娓娓道來,",
        "start": 0.0,
        "end": 3.9
      },
      {
        "text": "透出了欣欣向榮的生命力,溫暖每一個傾聽的耳朵。",
        "start": 4.24,
        "end": 9.06
      }
    ]
  }
}

建立語音辨識同步任務

請求方式:POST

URL

{host}/v3/openapi/workspaces/{workspace_name}/audio-asr/{service_id}/sync
  • host:調用服務的地址,支援通過公網和VPC兩種方式調用API服務,可參見擷取服務接入地址

  • workspace_name:工作空間名稱,例如default。

  • service_id: 系統內建服務ID,例如ops-audio-asr-001。

請求參數

Header參數

API-KEY認證

參數

類型

必填

描述

樣本值

Content-Type

String

請求類型:application/json

application/json

Authorization

String

API-Key

Bearer OS-d1**2a

Body參數

參數

類型

必填

描述

input

Object(input)

指定待處理的多媒體檔案。

parameters

Object

指定服務的參數。

output

Object(output)

控制輸出。

input

參數

類型

必填

描述

content

String

視頻/音頻內容的base64編碼資料。

音頻格式支援mp3、wav、aac、flac、ogg、m4a、alac、wma。

視頻格式資料支援mp4、avi、mkv、mov、flv、webm。

說明

input.content 和 input.oss 參數互斥,只能二選一。

使用BASE64資料:將編碼後的BASE64資料傳遞給content參數,格式為data:<TYPE>/<FORMAT>;base64,<BASE64_DATA>,其中:

  • <TYPE>/<FORMAT>

    • 若為音頻(如MP3),則填寫audio/mp3。

    • 若為視頻(如MOV),則填寫video/mov。

  • <BASE64_DATA>:音頻或視頻的BASE64編碼資料。

樣本:

  • 音頻:data:audio/mp3;base64,AAAAIGZ0eXBtcDQyAAABAGlzbWZj...

  • 視頻:data:video/mov;base64,AAAAIGZ0eXBtcDQyAAABAGlzbWZj...

oss

String

輸入檔案的OSS路徑,例如 oss://<BUCKET_NAME>/xxx/xxx.mp3。

file_name

String

視頻/音頻檔案的名稱,如果沒有設定,則從內容的檔案名稱中解析。

Output

參數

類型

必填

描述

type

String

text:將語音辨識結果以文本形式返回,僅同步調用下支援。

oss:視頻/音頻檔案放在OSS中(預設)。

oss

String

輸出檔案的OSS路徑,在type為oss的情況下必須填寫。

樣本:oss://<BUCKET_NAME>/result

返回參數

參數

類型

描述

樣本值

result.task_id

String

語音辨識任務的唯一標識ID。

asr-xxxx-abc-123

Curl請求樣本

curl -X POST \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer <您的API-KEY>" \
  "http://***-hangzhou.opensearch.aliyuncs.com/v3/openapi/workspaces/default/audio-asr/ops-audio-asr-001/sync"
  --data '{
  "input":{
      "oss":"oss://<BUCKET_NAME>/xxx/xxx.mp3",
      "file_name":"xxx"
    },
    "output" :{
      "type":"oss",
      "oss":"oss://<BUCKET_NAME>/result"
    }
  }' \ 

響應樣本

{
  "request_id": "df96b5c444281e0e79561fe9f8******",
  "latency": 570,
  "usage": {
    "duration": 9
  },
  "result": {
    "task_id": "asr-20250618132401-1108418170738252-******",
    "status": "SUCCESS",
    "data": [
      {
        "text": "容傑律鬥以和煦如春陽的頭聲娓娓道來,",
        "start": 0.0,
        "end": 3.9
      },
      {
        "text": "透出了欣欣向榮的生命力,溫暖每一個傾聽的耳朵。",
        "start": 4.24,
        "end": 9.06
      }
    ]
  }
}

狀態代碼說明

在訪問請求出錯的情況下,輸出的結果中會通過code和message指明出錯原因。

{
    "request_id": "6F33AFB6-A35C-4DA7-AFD2-9EA16CCF****",
    "latency": 2.0,
    "code": "InvalidParameter",
    "http_code": 400,
    "message": "JSON parse error: Cannot deserialize value of type `ImageStorage` from String \\"xxx\\"
}

HTTP 狀態代碼

錯誤碼

描述

200

-

請求成功,包括任務失敗情境,實際任務狀態需從result.status中判斷。

404

BadRequest.TaskNotExist

任務不存在。

400

InvalidParameter

不合法請求。

500

InternalServerError

內部錯誤。

更多狀態代碼說明,請參見狀態代碼說明