録音ファイル認識サービスを使用して、録音ファイルを認識できます。ただし、このサービスは録音ファイルをリアルタイムで認識しません。さらに、録音ファイルを認識するには、ファイルの到達可能な HTTP または HTTPS URL を送信する必要があります。ローカルファイルは送信できません。
機能
WAV および MP3 形式のシングルトラック録音ファイルを認識します。
ポーリングとコールバックの 2 つの呼び出し方法をサポートします。
カスタム言語モデルとホットワードをサポートします。
中国標準語、中国の方言、英語など、複数の言語を認識します。
呼び出し制限
認識する録音ファイルへのアクセス権限はパブリックである必要があります。各録音ファイルの URL にはドメイン名を含めることができますが、IP アドレスは含めることができません。さらに、URL にスペースを含めることはできません。
有効な URL
無効な URL
https://aliyun-nls.oss-cn-hangzhou.aliyuncs.com/asr/fileASR/examples/nls-sample-16k.wav
http://127.0.0.1/sample.wav
D:\files\sample.wav
ファイルの最大サイズは 512 MB です。
無料トライアル版を使用する場合、サーバーは認識タスクを完了し、録音ファイル認識リクエストを送信してから 24 時間以内に認識結果を返します。 商用版を使用する場合、サーバーは認識タスクを完了し、録音ファイル認識リクエストを送信してから 3 時間以内に認識結果を返します。サーバーは認識結果を 72 時間保持します。
説明30 分以内にアップロードした録音ファイルの長さが 500 時間を超える場合、上記の制限時間は適用されません。大量の音声データを認識する必要がある場合は、Alibaba Cloud のプリセールススタッフにお問い合わせください。
無料トライアル版を使用して、各カレンダー日に最大 2 時間の長さの録音ファイルを認識できます。
録音ファイルの形式とオーディオサンプリングレートを確認します。ビジネスシナリオに基づいて、[インテリジェント音声対話コンソール] で適切なシナリオとモデルを選択します。
録音ファイルを Alibaba Cloud [オブジェクトストレージサービス (OSS)] に保存します。
録音ファイルへのアクセス権限がパブリックの場合は、録音ファイルの OSS URL を直接取得します。詳細については、「パブリック読み取りオブジェクト」をご参照ください。録音ファイルへのアクセス権限がプライベートの場合は、SDK を使用して有効期間のある OSS URL を生成します。詳細については、「プライベートオブジェクト」をご参照ください。
説明ファイルサーバーを構築して、録音ファイルをそこに保存することもできます。ファイルサーバーから録音ファイルをダウンロードするには、HTTP レスポンスヘッダーの
Content-Lengthフィールドに示されている長さが、レスポンスボディのデータの長さと一致していることを確認してください。そうでないと、録音ファイルのダウンロードに失敗します。 /* The length indicated by the Content-Length field in the HTTP response header must be the same as the length of data in the response body. Otherwise, the recording file fails to be downloaded. */クライアントから録音ファイル認識リクエストを送信します。
リクエストが成功すると、サーバーはタスク ID を返します。タスク ID を使用して、認識結果をポーリングできます。
クライアントからリクエストを送信して、認識結果を照会します。
クライアントは、手順 c で取得したタスク ID に基づいて認識結果を照会します。サーバーは認識結果を 72 時間保持します。
録音ファイル認識サービスは、リモートプロシージャコール (RPC) 形式で呼び出すことができる Alibaba Cloud [pctowap オープン プラットフォーム (POP) API] を提供します。API オペレーションを呼び出すには、クライアントはリクエストにパラメーターをカプセル化し、HTTP メソッドを使用してリクエストを送信します。サーバーはレスポンスで結果を返します。認識する録音ファイルをサーバーに保存し、各ファイルに URL を使用してアクセスできることを確認する必要があります。Alibaba Cloud OSS に録音ファイルを保存することをお勧めします。
録音ファイル認識 POP API は 2 つのオペレーションをサポートしています。POST メソッドを使用して録音ファイル認識リクエストを送信し、GET メソッドを使用して録音ファイル認識結果を照会します。
録音ファイル認識リクエストを送信するオペレーション:
ポーリングメソッドを使用する場合は、録音ファイル認識リクエストを送信し、後続の認識結果ポーリングのタスク ID を取得できます。
コールバックメソッドを使用する場合は、録音ファイル認識リクエストとコールバック URL を送信できます。リクエストが成功すると、サーバーは POST メソッドを使用して認識結果をコールバック URL に送信します。コールバック URL が POST リクエストを受信できることを確認してください。
説明録音ファイル認識サービスの以前のバージョン (デフォルトでは 2.0) では、コールバックメソッドで取得した認識結果は、ポーリングメソッドで取得した認識結果と異なります。違いは JSON 文字列のスタイルとフィールドにあります。バージョン 4.0 では、録音ファイル認識サービスはコールバックメソッドで取得した認識結果を camelCase JSON 文字列に更新します。これにより、ポーリングメソッドで取得した認識結果と同じ認識結果が生成されます。
バージョンを 4.0 に設定せずに録音ファイル認識サービスをアクティブにした場合、そのバージョンはデフォルトで 2.0 になります。このバージョンを引き続き使用できます。新規ユーザーの場合は、録音ファイル認識サービスのバージョンを 4.0 に設定してください。
リクエストパラメーター:
録音ファイル認識リクエストを送信するときは、リクエストパラメーターを設定し、これらのパラメーターを JSON 文字列の形式でリクエストボディに追加する必要があります。次の例は、JSON 形式のリクエストパラメーターを示しています。
{ "appkey": "your-appkey", // プロジェクトの appkey "file_link": "https://aliyun-nls.oss-cn-hangzhou.aliyuncs.com/asr/fileASR/examples/nls-sample-16k.wav", // 録音ファイルの URL "auto_split":false, "version": "4.0", // 録音ファイル認識サービスのバージョン "enable_words": false, // 単語の認識結果を返すかどうかを指定します。 "enable_sample_rate_adaptive": true, // 16,000 Hz を超えるサンプリングレートのオーディオファイルを自動的にダウンサンプリングするかどうかを指定します。 // valid_times パラメーターは、オーディオトラックの全長で実際に音声認識が必要な有効な期間を指定します。このパラメーターはオプションです。 /* The valid_times parameter specifies the valid time period that truly requires speech recognition in the total length of an audio track. This parameter is optional. */ "valid_times": [ { "begin_time": 200, // 有効な期間の開始時間オフセット /* The start time offset of the valid time period */ "end_time":2000, // 有効な期間の終了時間オフセット /* The end time offset of the valid time period */ "channel_id": 0 // 設定が適用されるオーディオトラックのシーケンス番号 /* The sequence number of the audio track to which the setting applies */ } ] }パラメーター
タイプ
必須
説明
appkey
String
はい
[インテリジェント音声対話コンソール] のプロジェクトの appkey です。
file_link
String
はい
録音ファイルの URL です。[インテリジェント音声対話コンソール] で作成されたプロジェクトのシナリオとモデルが録音ファイルに適していることを確認してください。
version
String
はい
録音ファイル認識サービスのバージョンです。デフォルト値: 2.0。このパラメーターを 4.0 に設定します。
enable_words
Boolean
いいえ
単語の認識結果を返すかどうかを指定します。デフォルト値: false。このパラメーターは、version パラメーターが 4.0 に設定されている場合にのみ有効になります。
enable_sample_rate_adaptive
Boolean
いいえ
16,000 Hz を超えるサンプリングレートのオーディオファイルを自動的にダウンサンプリングするかどうかを指定します。デフォルト値: false。このパラメーターは、version パラメーターが 4.0 に設定されている場合にのみ有効になります。
enable_callback
Boolean
いいえ
コールバックメソッドを有効にするかどうかを指定します。デフォルト値: false。
callback_url
String
いいえ
コールバック URL です。 enable_callback パラメーターを true に設定する場合は、このパラメーターを指定する必要があります。コールバック URL は、HTTP または HTTPS URL にすることができます。ドメイン名を含めることができますが、IP アドレスは含めることができません。
auto_split
Boolean
いいえ
自動トラック分割を有効にするかどうかを指定します。自動トラック分割を有効にすると、サーバーは文の認識結果の ChannelId パラメーターに基づいて、2 者間の会話の各文の話者を識別できます。通常、ChannelId パラメーターの値は、会話の最初の話者に対して 1 です。サンプリングレートが 8,000 Hz のモノラルオーディオファイルのみがサポートされています。
enable_unify_post
Boolean
いいえ
後処理を有効にするかどうかを指定します。デフォルト値: false。
説明auto_split パラメーターと enable_unify_post パラメーターの両方を true に設定することはできません。
enable_inverse_text_normalization
Boolean
いいえ
逆テキスト正規化 (ITN) を有効にするかどうかを指定します。有効な値: true および false。デフォルト値: false。このパラメーターを true に設定すると、中国語の数字がアラビア数字に変換されます。このパラメーターは、version パラメーターが 4.0 に設定され、enable_unify_post パラメーターが true に設定されている場合にのみ有効になります。
説明ITN は単語には実装されていません。
enable_disfluency
Boolean
いいえ
非流暢性検出を有効にするかどうかを指定します。デフォルト値: false。このパラメーターは、version パラメーターが 4.0 に設定され、enable_unify_post パラメーターが true に設定されている場合にのみ有効になります。
valid_times
List< ValidTime >
いいえ
オーディオトラックの全長で実際に音声認識が必要な有効な期間です。
max_end_silence
Integer
いいえ
終了無音の最大持続時間です。デフォルト値: 450。単位: ミリ秒。
max_single_segment_time
Integer
いいえ
単一の文の最大持続時間です。最小値: 10000。デフォルト値: 20000。単位: ミリ秒。
customization_id
String
いいえ
POP API を使用して作成されたカスタム言語モデルの ID です。このパラメーターはデフォルトでは指定されていません。
class_vocabulary_id
String
いいえ
作成された分類済みホットワード語彙の ID です。このパラメーターはデフォルトでは指定されていません。
vocabulary_id
String
いいえ
作成された広範なホットワード語彙の ID です。このパラメーターはデフォルトでは指定されていません。
次の表は、ValidTime オブジェクトのパラメーターについて説明しています。
パラメーター
タイプ
必須
説明
begin_time
Int
はい
有効な期間の開始時間オフセットです。単位: ミリ秒。
end_time
Int
はい
有効な期間の終了時間オフセットです。単位: ミリ秒。
channel_id
Int
はい
設定が適用されるオーディオトラックのシーケンス番号です。値は 0 から始まります。
レスポンスパラメーター:
サーバーは録音ファイル認識リクエストにレスポンスを返します。レスポンスには、JSON 文字列の形式のレスポンスパラメーターが含まれています。たとえば、サーバーは次のレスポンスを返します。
{ "TaskId": "4b56f0c4b7e611e88f34c33c2a60****", // 認識タスクの ID /* The ID of the recognition task */ "RequestId": "E4B183CC-6CFE-411E-A547-D877F7BD****", // リクエストの ID。このパラメーターはデバッグにのみ使用されます。 /* The ID of the request. This parameter is used only for debugging. */ "StatusText": "SUCCESS", // ステータスメッセージ /* The status message */ "StatusCode": 21050000 // ステータスコード /* The status code */ }HTTP ステータスコード 200 は、リクエストが成功したことを示します。詳細については、「[HTTP ステータスコード]」をご参照ください。
パラメーター
タイプ
必須
説明
TaskId
String
はい
認識タスクの ID です。
RequestId
String
はい
リクエストの ID です。このパラメーターはデバッグにのみ使用されます。
StatusCode
Int
はい
ステータスコードです。
StatusText
String
はい
ステータスメッセージです。
録音ファイル認識結果を照会するオペレーション:
送信した録音ファイル認識リクエストが成功すると、サーバーはタスク ID を返します。タスク ID を使用して、認識結果をポーリングできます。
リクエストパラメーター:
サーバーが録音ファイル認識リクエストへのレスポンスを返した後、レスポンスのタスク ID をパラメーターとして使用して、認識結果を照会できます。クエリ操作を呼び出すときは、ポーリング間隔を設定する必要があります。
重要クエリ操作は、1 秒あたり最大 100 クエリ (QPS) をサポートしています。QPS が 100 を超えると、次のエラーが返される場合があります:
Throttling.User : Request was denied due to user flow control.ポーリング間隔を長く設定することをお勧めします。パラメーター
タイプ
必須
説明
TaskId
String
はい
認識タスクの ID です。
レスポンスパラメーター:
サーバーは、録音ファイル認識結果のクエリリクエストにレスポンスを返します。レスポンスには、JSON 文字列の形式のレスポンスパラメーターが含まれています。
次のサンプルの成功レスポンスは、シングルトラック録音ファイル nls-sample-16k.wav の認識結果を示しています。
{ "TaskId": "d429dd7dd75711e89305ab6170fe****", // 認識タスクの ID /* The ID of the recognition task */ "RequestId": "9240D669-6485-4DCC-896A-F8B31F94****", // リクエストの ID。このパラメーターはデバッグにのみ使用されます。 /* The ID of the request. This parameter is used for debugging. */ "StatusText": "SUCCESS", // ステータスメッセージ /* The status message */ "BizDuration": 2956, // 認識された録音ファイルの合計持続時間 /* The total duration of the recording file that is recognized */ "SolveTime": 1540363288472, // 録音ファイル認識タスクが完了したことを示すタイムスタンプ /* The timestamp that indicates when the recording file recognition task is completed */ "StatusCode": 21050000, // ステータスコード /* The status code */ "Result": { // 認識結果オブジェクト /* The recognition result object */ "Sentences": [{ // 文の認識結果 /* The recognition results of sentences */ "EndTime": 2365, // 文の終了時間オフセット /* The end time offset of the sentence */ "SilenceDuration": 0, // 現在と前の文の間の無音持続時間 /* The silence duration between the current and the previous sentences */ "BeginTime": 340, // 文の開始時間オフセット /* The start time offset of the sentence */ "Text": "Weather in Beijing", // 文の認識結果 /* The recognition result of the sentence */ "ChannelId": 0, // 文が属するオーディオトラックの ID /* The ID of the audio track to which the sentence belongs */ "SpeechRate": 177, // 文の平均発話速度 /* The average speech rate of the sentence */ "EmotionValue": 5.0 // 感情値 /* The emotion value */ }] } }enable_callback パラメーターを true に設定し、callback_url パラメーターを指定し、version パラメーターを 4.0 に設定したとします。次のレスポンスは、コールバックメソッドで取得した認識結果を示しています。
{ "Result": { // 認識結果オブジェクト /* The recognition result object */ "Sentences": [{ // 文の認識結果 /* The recognition results of sentences */ "EndTime": 2365, // 文の終了時間オフセット /* The end time offset of the sentence */ "SilenceDuration": 0, // 現在と前の文の間の無音持続時間 /* The silence duration between the current and the previous sentences */ "BeginTime": 340, // 文の開始時間オフセット /* The start time offset of the sentence */ "Text": "Weather in Beijing", // 文の認識結果 /* The recognition result of the sentence */ "ChannelId": 0, // 文が属するオーディオトラックの ID /* The ID of the audio track to which the sentence belongs */ "SpeechRate": 177, // 文の平均発話速度 /* The average speech rate of the sentence */ "EmotionValue": 5.0 // 感情値 /* The emotion value */ }] }, "TaskId": "36d01b244ad811e9952db7bb7ed2****", // 認識タスクの ID /* The ID of the recognition task */ "StatusCode": 21050000, // ステータスコード /* The status code */ "StatusText": "SUCCESS", // ステータスメッセージ /* The status message */ "RequestTime": 1553062810452, // 録音ファイル認識リクエストが送信された時刻を示すタイムスタンプ /* A timestamp that indicates when the recording file recognition request is sent */ "SolveTime": 1553062810831, // 録音ファイル認識タスクが完了した時刻を示すタイムスタンプ /* A timestamp that indicates when the recording file recognition task is completed */ "BizDuration": 2956 // 認識された録音ファイルの合計持続時間 /* The total duration of the recording file that is recognized */ }説明RequestTime パラメーターの値は、録音ファイル認識リクエストが送信された時刻を示すタイムスタンプ (ミリ秒単位) です。たとえば、値 1553062810452 は、2019 年 3 月 20 日 14:20:10 (UTC+8) を示します。
SolveTime パラメーターの値は、録音ファイル認識タスクが完了した時刻を示すタイムスタンプ (ミリ秒単位) です。
次のレスポンスは、タスクがキューに入っていることを示しています。
{ "TaskId": "c7274235b7e611e88f34c33c2a60****", // 認識タスクの ID /* The ID of the recognition task */ "RequestId": "981AD922-0655-46B0-8C6A-5C836822****", // リクエストの ID。このパラメーターはデバッグにのみ使用されます。 /* The ID of the request. This parameter is used for debugging. */ "StatusText": "QUEUEING", // ステータスメッセージ /* The status message */ "StatusCode": 21050002 // ステータスコード /* The status code */ }次のレスポンスは、タスクが実行中であることを示しています。
{ "TaskId": "c7274235b7e611e88f34c33c2a60****", // 認識タスクの ID /* The ID of the recognition task */ "RequestId": "8E908ED2-867F-457E-82BF-4756194A****", // リクエストの ID。このパラメーターはデバッグにのみ使用されます。 /* The ID of the request. This parameter is used for debugging. */ "StatusText": "RUNNING", // ステータスメッセージ /* The status message */ "BizDuration": 0, // 認識された録音ファイルの合計持続時間 /* The total duration of the recording file that is recognized */ "StatusCode": 21050001 // ステータスコード /* The status code */ }次のサンプルエラーレスポンスは、録音ファイルのダウンロードに失敗したことを示しています。
{ "TaskId": "4cf25b7eb7e711e88f34c33c2a60****", // 認識タスクの ID /* The ID of the recognition task */ "RequestId": "098BF27C-4CBA-45FF-BD11-3F532F26****", // リクエストの ID。このパラメーターはデバッグにのみ使用されます。 /* The ID of the request. This parameter is used for debugging. */ "StatusText": "FILE_DOWNLOAD_FAILED", // ステータスメッセージ /* The status message */ "BizDuration": 0, // 認識された録音ファイルの合計持続時間 /* The total duration of the recording file that is recognized */ "SolveTime": 1536906469146, // 録音ファイル認識タスクが完了したことを示すタイムスタンプ /* The timestamp that indicates when the recording file recognition task is completed */ "StatusCode": 41050002 // ステータスコード /* The status code */ }説明詳細については、このトピックの「サービスステータスコード」セクションのエラーコードと解決策を参照してください。
HTTP ステータスコード 200 は、リクエストが成功したことを示します。詳細については、「[HTTP ステータスコード]」をご参照ください。
パラメーター
タイプ
必須
説明
TaskId
String
はい
認識タスクの ID です。
StatusCode
Int
はい
ステータスコードです。
StatusText
String
はい
ステータスメッセージです。
RequestId
String
はい
リクエストの ID です。このパラメーターはデバッグに使用されます。
Result
Object
はい
認識結果オブジェクトです。
Sentences
List< SentenceResult >
はい
文の認識結果です。このパラメーターは、StatusText パラメーターの値が SUCCESS の場合にのみ返されます。
Words
List< WordResult >
いいえ
単語の認識結果です。このパラメーターは、enable_words パラメーターが true に設定され、version パラメーターが 4.0 に設定されている場合にのみ返されます。
BizDuration
Long
はい
認識された録音ファイルの合計持続時間です。単位: ミリ秒。
SolveTime
Long
はい
録音ファイル認識タスクが完了したことを示すタイムスタンプです。単位: ミリ秒。
次の表は、各文の認識結果のパラメーターについて説明しています。
パラメーター
タイプ
必須
説明
ChannelId
Int
はい
文が属するオーディオトラックの ID です。
BeginTime
Int
はい
文の開始時間オフセットです。単位: ミリ秒。
EndTime
Int
はい
文の終了時間オフセットです。単位: ミリ秒。
Text
String
はい
文の認識結果です。
EmotionValue
Int
はい
感情値です。値は、音量のデシベル値を 10 で割った値です。有効な値: [1,10]。値が大きいほど、感情が強くなります。
SilenceDuration
Int
はい
現在と前の文の間の無音持続時間です。単位: 秒。
SpeechRate
Int
はい
文の平均発話速度です。単位: 分あたりの単語数。
単語の認識結果
enable_words パラメーターが true に設定され、version パラメーターが 4.0 に設定されている場合、サーバーはレスポンスで単語の認識結果を返します。ポーリングメソッドで取得した単語の認識結果は、コールバックメソッドで取得した単語の認識結果と同じです。次のレスポンスは、ポーリングメソッドで取得した認識結果を示しています。
{ "StatusCode": 21050000, // ステータスコード /* The status code */ "Result": { // 認識結果オブジェクト /* The recognition result object */ "Sentences": [{ // 文の認識結果 /* The recognition results of sentences */ "SilenceDuration": 0, // 現在と前の文の間の無音持続時間 /* The silence duration between the current and the previous sentences */ "EmotionValue": 5.0, // 感情値 /* The emotion value */ "ChannelId": 0, // 文が属するオーディオトラックの ID /* The ID of the audio track to which the sentence belongs */ "Text": "Weather in Beijing", // 文の認識結果 /* The recognition result of the sentence */ "BeginTime": 340, // 文の開始時間オフセット /* The start time offset of the sentence */ "EndTime": 2365, // 文の終了時間オフセット /* The end time offset of the sentence */ "SpeechRate": 177 // 文の平均発話速度 /* The average speech rate of the sentence */ }], "Words": [{ // 単語の認識結果 /* The recognition results of words */ "ChannelId": 0, // 単語が属するオーディオトラックの ID /* The ID of the audio track to which the word belongs */ "Word": "Weather", // 単語の認識結果 /* The recognition result of the word */ "BeginTime": 640, // 単語の開始時間 /* The start time of the word */ "EndTime": 940 // 単語の終了時間 /* The end time of the word */ }, { "ChannelId": 0, "Word": "in", "BeginTime": 940, "EndTime": 1120 }, { "ChannelId": 0, "Word": "Beijing", "BeginTime": 1120, "EndTime": 2020 }] }, "SolveTime": 1553236968873, // 録音ファイル認識タスクが完了したことを示すタイムスタンプ /* The timestamp that indicates when the recording file recognition task is completed */ "StatusText": "SUCCESS", // ステータスメッセージ /* The status message */ "RequestId": "027B126B-4AC8-4C98-9FEC-A031158F****", // リクエストの ID。このパラメーターはデバッグに使用されます。 /* The ID of the request. This parameter is used for debugging. */ "TaskId": "b505e78c4c6d11e9a213e11db149****", // 認識タスクの ID /* The ID of the recognition task */ "BizDuration": 2956 // 認識された録音ファイルの合計持続時間 /* The total duration of the recording file that is recognized */ }次の表は、各単語の認識結果のパラメーターについて説明しています。
パラメーター
タイプ
必須
説明
BeginTime
Int
はい
単語の開始時間です。単位: ミリ秒。
EndTime
Int
はい
単語の終了時間です。単位: ミリ秒。
ChannelId
Int
はい
単語が属するオーディオトラックの ID です。
Word
String
はい
単語の認識結果です。
次の表は、通常のステータスコードについて説明しています。
次の表は、エラーコードについて説明しています。
手順
API 呼び出し方法
サービスステータスコード
ステータスコード | ステータスメッセージ | 説明 | 解決策 |
21050000 | SUCCESS | POST メソッドを使用して録音ファイル認識リクエストを送信するか、GET メソッドを使用して録音ファイル認識結果を照会した後、リクエストが成功しました。 | 解決策は必要ありません。 |
21050001 | RUNNING | 録音ファイル認識タスクが実行中です。 | 後で GET メソッドを使用して、認識結果のクエリリクエストを送信します。 |
21050002 | QUEUEING | 録音ファイル認識タスクがキューに入っています。 | 後で GET メソッドを使用して、認識結果のクエリリクエストを送信します。 |
21050003 | SUCCESS_WITH_NO_VALID_FRAGMENT | 認識結果のクエリリクエストは成功しましたが、サーバーは音声データを検出しませんでした。 | 録音ファイルに音声データが含まれているかどうか、または音声データの持続時間が短すぎるかどうかを確認します。 |
4 で始まるステータスコードはクライアントエラーを示し、5 で始まるステータスコードはサーバーエラーを示します。
ステータスコード | ステータスメッセージ | 説明 | 解決策 |
41050001 | USER_BIZDURATION_QUOTA_EXCEED | 認識する録音ファイルの合計持続時間が、1 日のクォータを超えています。 | 大量の音声データを認識する必要がある場合は、nls_support@service.aliyun.com にメールを送信してください。 |
41050002 | FILE_DOWNLOAD_FAILED | 録音ファイルのダウンロードに失敗しました。 | 録音ファイルの URL が正しいかどうか、または録音ファイルにインターネット経由でアクセスしてダウンロードできるかどうかを確認します。 |
41050003 | FILE_CHECK_FAILED | 録音ファイルの形式が無効です。 | 録音ファイルが WAV または MP3 形式のシングルトラックまたはデュアルトラックファイルであるかどうかを確認します。 |
41050004 | FILE_TOO_LARGE | 録音ファイルが大きすぎます。 | 録音ファイルのサイズが 512 MB より大きいかどうかを確認します。 |
41050005 | FILE_NORMALIZE_FAILED | 録音ファイルの正規化に失敗しました。 | 録音ファイルが破損しているか、再生できないかを確認します。 |
41050006 | FILE_PARSE_FAILED | 録音ファイルの解析に失敗しました。 | 録音ファイルが破損しているか、再生できないかを確認します。 |
41050007 | MKV_PARSE_FAILED | MKV 解析に失敗しました。 | 録音ファイルが破損しているか、再生できないかを確認します。 |
41050008 | UNSUPPORTED_SAMPLE_RATE | オーディオサンプリングレートがサポートされていません。 | 録音ファイルのオーディオサンプリングレートが、[インテリジェント音声対話コンソール] のプロジェクトの appkey にバインドされている自動音声認識 (ASR) モデルのサンプリングレートと同じであるかどうかを確認します。 |
41050009 | UNSUPPORTED_ASR_GROUP | ASR グループがサポートされていません。 | appkey が AccessKey ペアと同じ Alibaba Cloud アカウントに属しているかどうかを確認します。 |
41050010 | FILE_TRANS_TASK_EXPIRED | 録音ファイル認識タスクが期限切れになりました。 | タスク ID が存在するか期限切れかを確認します。 |
41050011 | REQUEST_INVALID_FILE_URL_VALUE | 指定された file_link パラメーターが無効です。 | file_link パラメーターが正しい形式で指定されているかどうかを確認します。 |
41050012 | REQUEST_INVALID_CALLBACK_VALUE | 指定された callback_url パラメーターが無効です。 | callback_url パラメーターが正しい形式で指定されているかどうかを確認します。 |
41050013 | REQUEST_PARAMETER_INVALID | リクエストパラメーターが無効です。 | リクエストボディが有効な JSON 文字列であるかどうかを確認します。 |
41050014 | REQUEST_EMPTY_APPKEY_VALUE | appkey パラメーターが指定されていません。 | appkey パラメーターが指定されているかどうかを確認します。 |
41050015 | REQUEST_APPKEY_UNREGISTERED | 指定された appkey パラメーターが無効です。 | appkey パラメーターで示される appkey が有効かどうか、または appkey が指定された AccessKey ID と同じ Alibaba Cloud アカウントに属しているかどうかを確認します。 |
41050021 | RAM_CHECK_FAILED | RAM ユーザー認証に失敗しました。 | RAM ユーザーが[インテリジェント音声対話 API] を呼び出す権限を持っているかどうかを確認します。 |
41050023 | CONTENT_LENGTH_CHECK_FAILED | 指定された content-length フィールドが無効です。 | 録音ファイルをダウンロードするときに、HTTP レスポンスヘッダーの content-length フィールドに示されている長さが録音ファイルの実際の長さと一致しているかどうかを確認します。 |
41050024 | FILE_404_NOT_FOUND | ダウンロードする録音ファイルが存在しません。 | ダウンロードする録音ファイルが存在するかどうかを確認します。 |
41050025 | FILE_403_FORBIDDEN | 録音ファイルをダウンロードする権限がありません。 | 録音ファイルをダウンロードする権限があるかどうかを確認します。 |
41050026 | FILE_SERVER_ERROR | ファイルサーバーエラーが発生しました。 | 録音ファイルが保存されているサーバーが正しく動作しているかどうかを確認します。 |
51050000 | INTERNAL_ERROR | 内部エラーが発生しました。 | エラーコードがたまに返される場合は、無視してください。エラーコードが複数回返される場合は、チケットを送信してください。 |
51050001 | VAD_FAILED | 音声アクティビティ検出 (VAD) に失敗しました。 | エラーコードがたまに返される場合は、無視してください。エラーコードが複数回返される場合は、チケットを送信してください。 |
51050002 | RECOGNIZE_FAILED | ASR に失敗しました。 | エラーコードがたまに返される場合は、無視してください。エラーコードが複数回返される場合は、チケットを送信してください。 |
51050003 | RECOGNIZE_INTERRUPT | ASR が中断されました。 | エラーコードがたまに返される場合は、無視してください。エラーコードが複数回返される場合は、チケットを送信してください。 |
51050004 | OFFER_INTERRUPT | 認識タスクがキューに書き込まれるのを妨げられました。 | エラーコードがたまに返される場合は、無視してください。エラーコードが複数回返される場合は、チケットを送信してください。 |
51050005 | FILE_TRANS_TIMEOUT | タイムアウトのため、認識タスクに失敗しました。 | エラーコードがたまに返される場合は、無視してください。エラーコードが複数回返される場合は、チケットを送信してください。 |
51050006 | FRAGMENT_FAILED | マルチチャネルオーディオデータをモノラルオーディオデータに変換できませんでした。 | エラーコードがたまに返される場合は、無視してください。エラーコードが複数回返される場合は、チケットを送信してください。 |
以前のバージョン
バージョンを 4.0 に設定せずに録音ファイル認識サービスをアクティブにした場合、そのバージョンはデフォルトで 2.0 になります。バージョン 2.0 では、コールバックメソッドで取得した認識結果は、ポーリングメソッドで取得した認識結果と異なります。違いは JSON 文字列のスタイルとフィールドにあります。 enable_callback パラメーターを true に設定し、callback_url パラメーターを指定したとします。次のレスポンスは、コールバックメソッドで取得した認識結果を示しています。
{
"result": [{ // 認識結果オブジェクト /* The recognition result object */
"begin_time": 340, // 文の開始時間オフセット /* The start time offset of the sentence */
"channel_id": 0, // 文が属するオーディオトラックの ID /* The ID of the audio track to which the sentence belongs */
"emotion_value": 5.0, // 感情値 /* The emotion value */
"end_time": 2365, // 文の終了時間オフセット /* The end time offset of the sentence */
"silence_duration": 0, // 現在と前の文の間の無音持続時間 /* The silence duration between the current and the previous sentences */
"speech_rate": 177, // 文の平均発話速度 /* The average speech rate of the sentence */
"text": "Weather in Beijing" // 文の認識結果 /* The recognition result of the sentence */
}],
"task_id": "3f5d4c0c399511e98dc025f34473****", // 認識タスクの ID /* The ID of the recognition task */
"status_code": 21050000, // ステータスコード /* The status code */
"status_text": "SUCCESS", // ステータスメッセージ /* The status message */
"request_time": 1551164878830, // 録音ファイル認識リクエストが送信された時刻を示すタイムスタンプ /* A timestamp that indicates when the recording file recognition request is sent */
"solve_time": 1551164879230, // 録音ファイル認識タスクが完了した時刻を示すタイムスタンプ /* A timestamp that indicates when the recording file recognition task is completed */
"biz_duration": 2956 // 認識された録音ファイルの合計持続時間 /* The total duration of the recording file that is recognized */
}