AI搜尋開放平台支援通過API的方式調用語音辨識服務,可將視頻或音頻中的語音內容快速轉化為結構化文本,可用於會議記錄、視頻檢索、線上客服等情境。
服務列表
服務名稱 | 服務ID(service_id) | 服務描述 | API調用QPS限制(含主帳號與RAM子帳號) |
語音辨識服務 | ops-audio-asr-001 | 提取音頻資訊產生字幕檔案。 | 5 說明 如需擴充QPS,請通過工單聯絡支援人員協助。 |
擷取身份鑒權資訊
通過API調用AI搜尋開放平台服務時,需要對調用者身份進行鑒權,如何擷取鑒權資訊請參見擷取API-KEY。
擷取服務調用地址
支援通過公網和VPC兩種方式調用服務,詳情請參見擷取服務接入地址。
建立語音辨識非同步任務
請求方式:POST
URL
POST {host}/v3/openapi/workspaces/{workspace_name}/audio-asr/{service_id}/async host:調用服務的地址,支援通過公網和VPC兩種方式調用API服務,可參見擷取服務接入地址。
workspace_name:工作空間名稱,例如default。
service_id: 系統內建服務ID,例如ops-audio-asr-001。
請求參數
Header參數
API-KEY認證
參數 | 類型 | 必填 | 描述 | 樣本值 |
Content-Type | String | 是 | 請求類型:application/json | application/json |
Authorization | String | 是 | API-Key | Bearer OS-d1**2a |
Body參數
參數 | 類型 | 必填 | 描述 |
input | Object(input) | 是 | 指定待處理的多媒體檔案。 |
parameters | Object | 否 | 指定服務的參數。 |
output | Object(output) | 是 | 控制輸出。 |
input
參數 | 類型 | 必填 | 描述 |
content | String | 否 | 視頻/音頻內容的base64編碼資料。 音頻格式支援mp3、wav、aac、flac、ogg、m4a、alac、wma。 視頻格式資料支援mp4、avi、mkv、mov、flv、webm。 說明 input.content 和 input.oss 參數互斥,只能二選一。 使用BASE64資料:將編碼後的BASE64資料傳遞給
樣本:
|
oss | String | 否 | 輸入檔案的OSS路徑,例如 oss://<BUCKET_NAME>/xxx/xxx.mp3。 |
file_name | String | 否 | 視頻/音頻檔案的名稱,如果沒有設定,則從內容的檔案名稱中解析。 |
output
參數 | 類型 | 必填 | 描述 |
type | String | 否 | text:將語音辨識結果以文本形式返回,僅同步任務調用下支援。 oss: 音頻檔案放在OSS中(預設)。 |
oss | String | 否 | 輸出檔案的OSS路徑,在type為oss的情況下必須填寫。 樣本: |
返回參數
參數 | 類型 | 描述 | 樣本值 |
result.task_id | String | 語音辨識任務的唯一標識ID。 | asr-xxxx-abc-123 |
Curl請求樣本
curl -X POST \
-H "Content-Type: application/json" \
-H "Authorization: Bearer <您的API-KEY>" \
"http://***-hangzhou.opensearch.aliyuncs.com/v3/openapi/workspaces/default/audio-asr/ops-audio-asr-001/async"
--data '{
"input":{
"oss":"oss://<BUCKET_NAME>/xxx/xxx.mp3",
"file_name":"xxx"
},
"output" :{
"type":"oss",
"oss":"oss://<BUCKET_NAME>/result"
}
}' \
響應樣本
{
"request_id":"3eb8de02091b59431601f3bff******",
"latency":37,
"usage":{},
"result":{
"task_id":"asr-20250610164552-1108418170738252-******",
"status":"PENDING"
}
}擷取非同步語音辨識任務狀態
請求方式:GET
URL
{host}/v3/openapi/workspaces/{workspace_name}/audio-asr/{service_id}/async/task-status?task_id={task_id}host:調用服務的地址,支援通過公網和VPC兩種方式調用API服務,可參見擷取服務接入地址。
workspace_name:工作空間名稱,例如default。
service_id: 系統內建服務ID,例如ops-audio-asr-001。
task_id:建立非同步語音辨識任務返回參數中的任務標識。
請求參數
參數 | 類型 | 必填 | 描述 | 樣本 |
Content-Type | String | 是 | 請求類型:application/json | application/json |
Authorization | String | 是 | API-Key | Bearer OS-d1**2a |
返回參數
參數 | 類型 | 描述 | 樣本 |
request_id | String | 系統對一次API調用賦予的唯一標識。 | 3C09570D-12DB-46B4-BF0F-A100D79B**** |
latency | Float/Int | 請求耗時,單位ms。 | 3.0 |
result.task_id | String | 非同步任務ID。 | a7e4c0f6-874c-47e3-b05b-02278a96e**** |
result.status | String | 任務狀態:
| PENDING |
result.error | String | status=FAIL時的錯誤資訊內容,正常情況為空白。 | |
result.data | List(AsrResult) | 語音辨識的結果。當非同步任務狀態未成功完成(SUCCESS)時,該欄位為空白。 | |
usage.duration | Float.duration | 語音檔案的時間長度。 |
AsrResult
參數 | 類型 | 描述 |
text | String | 語音辨識得到的文本資料。 |
start | Float | 當前文本在視頻中起始時間戳記,單位s。 |
end | Float | 當前文本在視頻中結束時間戳記,單位s。 |
Curl請求樣本
curl -X GET \
-H"Content-Type: application/json" \
-H "Authorization: Bearer <您的API-KEY>" \
"http://***-hangzhou.opensearch.aliyuncs.com/v3/openapi/workspaces/default/audio-asr/ops-audio-asr-001/async/task-status?task_id=asr-20250618112151-1108418170738252-******"
響應樣本
{
"request_id": "1a1a4ca4b7a91dd630a40c54af******",
"latency": 9,
"usage": {
"duration": 9
},
"result": {
"task_id": "asr-20250618112151-1108418170738252-******",
"status": "SUCCESS",
"data": [
{
"text": "容傑律鬥以和煦如春陽的頭聲娓娓道來,",
"start": 0.0,
"end": 3.9
},
{
"text": "透出了欣欣向榮的生命力,溫暖每一個傾聽的耳朵。",
"start": 4.24,
"end": 9.06
}
]
}
}建立語音辨識同步任務
請求方式:POST
URL
{host}/v3/openapi/workspaces/{workspace_name}/audio-asr/{service_id}/synchost:調用服務的地址,支援通過公網和VPC兩種方式調用API服務,可參見擷取服務接入地址。
workspace_name:工作空間名稱,例如default。
service_id: 系統內建服務ID,例如ops-audio-asr-001。
請求參數
Header參數
API-KEY認證
參數 | 類型 | 必填 | 描述 | 樣本值 |
Content-Type | String | 是 | 請求類型:application/json | application/json |
Authorization | String | 是 | API-Key | Bearer OS-d1**2a |
Body參數
參數 | 類型 | 必填 | 描述 |
input | Object(input) | 是 | 指定待處理的多媒體檔案。 |
parameters | Object | 否 | 指定服務的參數。 |
output | Object(output) | 是 | 控制輸出。 |
input
參數 | 類型 | 必填 | 描述 |
content | String | 否 | 視頻/音頻內容的base64編碼資料。 音頻格式支援mp3、wav、aac、flac、ogg、m4a、alac、wma。 視頻格式資料支援mp4、avi、mkv、mov、flv、webm。 說明 input.content 和 input.oss 參數互斥,只能二選一。 使用BASE64資料:將編碼後的BASE64資料傳遞給
樣本:
|
oss | String | 否 | 輸入檔案的OSS路徑,例如 oss://<BUCKET_NAME>/xxx/xxx.mp3。 |
file_name | String | 否 | 視頻/音頻檔案的名稱,如果沒有設定,則從內容的檔案名稱中解析。 |
Output
參數 | 類型 | 必填 | 描述 |
type | String | 否 | text:將語音辨識結果以文本形式返回,僅同步調用下支援。 oss:視頻/音頻檔案放在OSS中(預設)。 |
oss | String | 否 | 輸出檔案的OSS路徑,在type為oss的情況下必須填寫。 樣本: |
返回參數
參數 | 類型 | 描述 | 樣本值 |
result.task_id | String | 語音辨識任務的唯一標識ID。 | asr-xxxx-abc-123 |
Curl請求樣本
curl -X POST \
-H "Content-Type: application/json" \
-H "Authorization: Bearer <您的API-KEY>" \
"http://***-hangzhou.opensearch.aliyuncs.com/v3/openapi/workspaces/default/audio-asr/ops-audio-asr-001/sync"
--data '{
"input":{
"oss":"oss://<BUCKET_NAME>/xxx/xxx.mp3",
"file_name":"xxx"
},
"output" :{
"type":"oss",
"oss":"oss://<BUCKET_NAME>/result"
}
}' \
響應樣本
{
"request_id": "df96b5c444281e0e79561fe9f8******",
"latency": 570,
"usage": {
"duration": 9
},
"result": {
"task_id": "asr-20250618132401-1108418170738252-******",
"status": "SUCCESS",
"data": [
{
"text": "容傑律鬥以和煦如春陽的頭聲娓娓道來,",
"start": 0.0,
"end": 3.9
},
{
"text": "透出了欣欣向榮的生命力,溫暖每一個傾聽的耳朵。",
"start": 4.24,
"end": 9.06
}
]
}
}狀態代碼說明
在訪問請求出錯的情況下,輸出的結果中會通過code和message指明出錯原因。
{
"request_id": "6F33AFB6-A35C-4DA7-AFD2-9EA16CCF****",
"latency": 2.0,
"code": "InvalidParameter",
"http_code": 400,
"message": "JSON parse error: Cannot deserialize value of type `ImageStorage` from String \\"xxx\\"
}HTTP 狀態代碼 | 錯誤碼 | 描述 |
200 | - | 請求成功,包括任務失敗情境,實際任務狀態需從result.status中判斷。 |
404 | BadRequest.TaskNotExist | 任務不存在。 |
400 | InvalidParameter | 不合法請求。 |
500 | InternalServerError | 內部錯誤。 |
更多狀態代碼說明,請參見狀態代碼說明。