API リファレンス - Intelligent Speech Interaction - Alibaba Cloud ドキュメントセンター

録音ファイル認識サービスを使用して、録音ファイルを認識できます。ただし、このサービスは録音ファイルをリアルタイムで認識しません。さらに、録音ファイルを認識するには、ファイルの到達可能な HTTP または HTTPS URL を送信する必要があります。ローカルファイルは送信できません。

機能

WAV および MP3 形式のシングルトラック録音ファイルを認識します。
ポーリングとコールバックの 2 つの呼び出し方法をサポートします。
カスタム言語モデルとホットワードをサポートします。
中国標準語、中国の方言、英語など、複数の言語を認識します。

呼び出し制限

認識する録音ファイルへのアクセス権限はパブリックである必要があります。各録音ファイルの URL にはドメイン名を含めることができますが、IP アドレスは含めることができません。さらに、URL にスペースを含めることはできません。
有効な URL
無効な URL
https://aliyun-nls.oss-cn-hangzhou.aliyuncs.com/asr/fileASR/examples/nls-sample-16k.wav
http://127.0.0.1/sample.wav
D:\files\sample.wav
ファイルの最大サイズは 512 MB です。
無料トライアル版を使用する場合、サーバーは認識タスクを完了し、録音ファイル認識リクエストを送信してから 24 時間以内に認識結果を返します。商用版を使用する場合、サーバーは認識タスクを完了し、録音ファイル認識リクエストを送信してから 3 時間以内に認識結果を返します。サーバーは認識結果を 72 時間保持します。
説明
30 分以内にアップロードした録音ファイルの長さが 500 時間を超える場合、上記の制限時間は適用されません。大量の音声データを認識する必要がある場合は、Alibaba Cloud のプリセールススタッフにお問い合わせください。
無料トライアル版を使用して、各カレンダー日に最大 2 時間の長さの録音ファイルを認識できます。

手順

録音ファイルの形式とオーディオサンプリングレートを確認します。ビジネスシナリオに基づいて、[インテリジェント音声対話コンソール] で適切なシナリオとモデルを選択します。
録音ファイルを Alibaba Cloud [オブジェクトストレージサービス (OSS)] に保存します。
録音ファイルへのアクセス権限がパブリックの場合は、録音ファイルの OSS URL を直接取得します。詳細については、「パブリック読み取りオブジェクト」をご参照ください。録音ファイルへのアクセス権限がプライベートの場合は、SDK を使用して有効期間のある OSS URL を生成します。詳細については、「プライベートオブジェクト」をご参照ください。
説明
ファイルサーバーを構築して、録音ファイルをそこに保存することもできます。ファイルサーバーから録音ファイルをダウンロードするには、HTTP レスポンスヘッダーの Content-Length フィールドに示されている長さが、レスポンスボディのデータの長さと一致していることを確認してください。そうでないと、録音ファイルのダウンロードに失敗します。 /* The length indicated by the Content-Length field in the HTTP response header must be the same as the length of data in the response body. Otherwise, the recording file fails to be downloaded. */
クライアントから録音ファイル認識リクエストを送信します。
リクエストが成功すると、サーバーはタスク ID を返します。タスク ID を使用して、認識結果をポーリングできます。
クライアントからリクエストを送信して、認識結果を照会します。
クライアントは、手順 c で取得したタスク ID に基づいて認識結果を照会します。サーバーは認識結果を 72 時間保持します。

API 呼び出し方法

録音ファイル認識サービスは、リモートプロシージャコール (RPC) 形式で呼び出すことができる Alibaba Cloud [pctowap オープンプラットフォーム (POP) API] を提供します。API オペレーションを呼び出すには、クライアントはリクエストにパラメーターをカプセル化し、HTTP メソッドを使用してリクエストを送信します。サーバーはレスポンスで結果を返します。認識する録音ファイルをサーバーに保存し、各ファイルに URL を使用してアクセスできることを確認する必要があります。Alibaba Cloud OSS に録音ファイルを保存することをお勧めします。

録音ファイル認識 POP API は 2 つのオペレーションをサポートしています。POST メソッドを使用して録音ファイル認識リクエストを送信し、GET メソッドを使用して録音ファイル認識結果を照会します。

録音ファイル認識リクエストを送信するオペレーション:

ポーリングメソッドを使用する場合は、録音ファイル認識リクエストを送信し、後続の認識結果ポーリングのタスク ID を取得できます。
コールバックメソッドを使用する場合は、録音ファイル認識リクエストとコールバック URL を送信できます。リクエストが成功すると、サーバーは POST メソッドを使用して認識結果をコールバック URL に送信します。コールバック URL が POST リクエストを受信できることを確認してください。

説明

録音ファイル認識サービスの以前のバージョン (デフォルトでは 2.0) では、コールバックメソッドで取得した認識結果は、ポーリングメソッドで取得した認識結果と異なります。違いは JSON 文字列のスタイルとフィールドにあります。バージョン 4.0 では、録音ファイル認識サービスはコールバックメソッドで取得した認識結果を camelCase JSON 文字列に更新します。これにより、ポーリングメソッドで取得した認識結果と同じ認識結果が生成されます。

バージョンを 4.0 に設定せずに録音ファイル認識サービスをアクティブにした場合、そのバージョンはデフォルトで 2.0 になります。このバージョンを引き続き使用できます。新規ユーザーの場合は、録音ファイル認識サービスのバージョンを 4.0 に設定してください。

リクエストパラメーター:

録音ファイル認識リクエストを送信するときは、リクエストパラメーターを設定し、これらのパラメーターを JSON 文字列の形式でリクエストボディに追加する必要があります。次の例は、JSON 形式のリクエストパラメーターを示しています。

{
    "appkey": "your-appkey", // プロジェクトの appkey
    "file_link": "https://aliyun-nls.oss-cn-hangzhou.aliyuncs.com/asr/fileASR/examples/nls-sample-16k.wav", // 録音ファイルの URL
    "auto_split":false,
    "version": "4.0", // 録音ファイル認識サービスのバージョン
    "enable_words": false, // 単語の認識結果を返すかどうかを指定します。
    "enable_sample_rate_adaptive": true, // 16,000 Hz を超えるサンプリングレートのオーディオファイルを自動的にダウンサンプリングするかどうかを指定します。
    // valid_times パラメーターは、オーディオトラックの全長で実際に音声認識が必要な有効な期間を指定します。このパラメーターはオプションです。 /* The valid_times parameter specifies the valid time period that truly requires speech recognition in the total length of an audio track. This parameter is optional. */
    "valid_times": [
        {
            "begin_time": 200, // 有効な期間の開始時間オフセット /* The start time offset of the valid time period */
            "end_time":2000, // 有効な期間の終了時間オフセット /* The end time offset of the valid time period */
            "channel_id": 0 // 設定が適用されるオーディオトラックのシーケンス番号 /* The sequence number of the audio track to which the setting applies */
        }
    ]
}

パラメーター	タイプ	必須	説明
appkey	String	はい	[インテリジェント音声対話コンソール] のプロジェクトの appkey です。
file_link	String	はい	録音ファイルの URL です。[インテリジェント音声対話コンソール] で作成されたプロジェクトのシナリオとモデルが録音ファイルに適していることを確認してください。
version	String	はい	録音ファイル認識サービスのバージョンです。デフォルト値: 2.0。このパラメーターを 4.0 に設定します。
enable_words	Boolean	いいえ	単語の認識結果を返すかどうかを指定します。デフォルト値: false。このパラメーターは、version パラメーターが 4.0 に設定されている場合にのみ有効になります。
enable_sample_rate_adaptive	Boolean	いいえ	16,000 Hz を超えるサンプリングレートのオーディオファイルを自動的にダウンサンプリングするかどうかを指定します。デフォルト値: false。このパラメーターは、version パラメーターが 4.0 に設定されている場合にのみ有効になります。
enable_callback	Boolean	いいえ	コールバックメソッドを有効にするかどうかを指定します。デフォルト値: false。
callback_url	String	いいえ	コールバック URL です。 enable_callback パラメーターを true に設定する場合は、このパラメーターを指定する必要があります。コールバック URL は、HTTP または HTTPS URL にすることができます。ドメイン名を含めることができますが、IP アドレスは含めることができません。
auto_split	Boolean	いいえ	自動トラック分割を有効にするかどうかを指定します。自動トラック分割を有効にすると、サーバーは文の認識結果の ChannelId パラメーターに基づいて、2 者間の会話の各文の話者を識別できます。通常、ChannelId パラメーターの値は、会話の最初の話者に対して 1 です。サンプリングレートが 8,000 Hz のモノラルオーディオファイルのみがサポートされています。
enable_unify_post	Boolean	いいえ	後処理を有効にするかどうかを指定します。デフォルト値: false。説明 auto_split パラメーターと enable_unify_post パラメーターの両方を true に設定することはできません。
enable_inverse_text_normalization	Boolean	いいえ	逆テキスト正規化 (ITN) を有効にするかどうかを指定します。有効な値: true および false。デフォルト値: false。このパラメーターを true に設定すると、中国語の数字がアラビア数字に変換されます。このパラメーターは、version パラメーターが 4.0 に設定され、enable_unify_post パラメーターが true に設定されている場合にのみ有効になります。説明 ITN は単語には実装されていません。
enable_disfluency	Boolean	いいえ	非流暢性検出を有効にするかどうかを指定します。デフォルト値: false。このパラメーターは、version パラメーターが 4.0 に設定され、enable_unify_post パラメーターが true に設定されている場合にのみ有効になります。
valid_times	List< ValidTime >	いいえ	オーディオトラックの全長で実際に音声認識が必要な有効な期間です。
max_end_silence	Integer	いいえ	終了無音の最大持続時間です。デフォルト値: 450。単位: ミリ秒。
max_single_segment_time	Integer	いいえ	単一の文の最大持続時間です。最小値: 10000。デフォルト値: 20000。単位: ミリ秒。
customization_id	String	いいえ	POP API を使用して作成されたカスタム言語モデルの ID です。このパラメーターはデフォルトでは指定されていません。
class_vocabulary_id	String	いいえ	作成された分類済みホットワード語彙の ID です。このパラメーターはデフォルトでは指定されていません。
vocabulary_id	String	いいえ	作成された広範なホットワード語彙の ID です。このパラメーターはデフォルトでは指定されていません。

次の表は、ValidTime オブジェクトのパラメーターについて説明しています。

パラメーター	タイプ	必須	説明
begin_time	Int	はい	有効な期間の開始時間オフセットです。単位: ミリ秒。
end_time	Int	はい	有効な期間の終了時間オフセットです。単位: ミリ秒。
channel_id	Int	はい	設定が適用されるオーディオトラックのシーケンス番号です。値は 0 から始まります。

レスポンスパラメーター:

サーバーは録音ファイル認識リクエストにレスポンスを返します。レスポンスには、JSON 文字列の形式のレスポンスパラメーターが含まれています。たとえば、サーバーは次のレスポンスを返します。

{
        "TaskId": "4b56f0c4b7e611e88f34c33c2a60****", // 認識タスクの ID /* The ID of the recognition task */
        "RequestId": "E4B183CC-6CFE-411E-A547-D877F7BD****", // リクエストの ID。このパラメーターはデバッグにのみ使用されます。 /* The ID of the request. This parameter is used only for debugging. */
        "StatusText": "SUCCESS", // ステータスメッセージ /* The status message */
        "StatusCode": 21050000 // ステータスコード /* The status code */
}

HTTP ステータスコード 200 は、リクエストが成功したことを示します。詳細については、「[HTTP ステータスコード]」をご参照ください。

パラメーター	タイプ	必須	説明
TaskId	String	はい	認識タスクの ID です。
RequestId	String	はい	リクエストの ID です。このパラメーターはデバッグにのみ使用されます。
StatusCode	Int	はい	ステータスコードです。
StatusText	String	はい	ステータスメッセージです。

録音ファイル認識結果を照会するオペレーション:

送信した録音ファイル認識リクエストが成功すると、サーバーはタスク ID を返します。タスク ID を使用して、認識結果をポーリングできます。

リクエストパラメーター:

サーバーが録音ファイル認識リクエストへのレスポンスを返した後、レスポンスのタスク ID をパラメーターとして使用して、認識結果を照会できます。クエリ操作を呼び出すときは、ポーリング間隔を設定する必要があります。

重要

クエリ操作は、1 秒あたり最大 100 クエリ (QPS) をサポートしています。QPS が 100 を超えると、次のエラーが返される場合があります: Throttling.User : Request was denied due to user flow control. ポーリング間隔を長く設定することをお勧めします。

パラメーター	タイプ	必須	説明
TaskId	String	はい	認識タスクの ID です。

レスポンスパラメーター:

サーバーは、録音ファイル認識結果のクエリリクエストにレスポンスを返します。レスポンスには、JSON 文字列の形式のレスポンスパラメーターが含まれています。

次のサンプルの成功レスポンスは、シングルトラック録音ファイル nls-sample-16k.wav の認識結果を示しています。

{
        "TaskId": "d429dd7dd75711e89305ab6170fe****", // 認識タスクの ID /* The ID of the recognition task */
        "RequestId": "9240D669-6485-4DCC-896A-F8B31F94****", // リクエストの ID。このパラメーターはデバッグにのみ使用されます。 /* The ID of the request. This parameter is used for debugging. */
        "StatusText": "SUCCESS", // ステータスメッセージ /* The status message */
        "BizDuration": 2956, // 認識された録音ファイルの合計持続時間 /* The total duration of the recording file that is recognized */
        "SolveTime": 1540363288472, // 録音ファイル認識タスクが完了したことを示すタイムスタンプ /* The timestamp that indicates when the recording file recognition task is completed */
        "StatusCode": 21050000, // ステータスコード /* The status code */
        "Result": { // 認識結果オブジェクト /* The recognition result object */
                "Sentences": [{ // 文の認識結果 /* The recognition results of sentences */
                        "EndTime": 2365, // 文の終了時間オフセット /* The end time offset of the sentence */
                        "SilenceDuration": 0, // 現在と前の文の間の無音持続時間 /* The silence duration between the current and the previous sentences */
                        "BeginTime": 340, // 文の開始時間オフセット /* The start time offset of the sentence */
                        "Text": "Weather in Beijing", // 文の認識結果 /* The recognition result of the sentence */
                        "ChannelId": 0, // 文が属するオーディオトラックの ID /* The ID of the audio track to which the sentence belongs */
                        "SpeechRate": 177, // 文の平均発話速度 /* The average speech rate of the sentence */
                        "EmotionValue": 5.0 // 感情値 /* The emotion value */
                }]
        }
}

enable_callback パラメーターを true に設定し、callback_url パラメーターを指定し、version パラメーターを 4.0 に設定したとします。次のレスポンスは、コールバックメソッドで取得した認識結果を示しています。

{
        "Result": { // 認識結果オブジェクト /* The recognition result object */
                "Sentences": [{ // 文の認識結果 /* The recognition results of sentences */
                        "EndTime": 2365, // 文の終了時間オフセット /* The end time offset of the sentence */
                        "SilenceDuration": 0, // 現在と前の文の間の無音持続時間 /* The silence duration between the current and the previous sentences */
                        "BeginTime": 340, // 文の開始時間オフセット /* The start time offset of the sentence */
                        "Text": "Weather in Beijing", // 文の認識結果 /* The recognition result of the sentence */
                        "ChannelId": 0, // 文が属するオーディオトラックの ID /* The ID of the audio track to which the sentence belongs */
                        "SpeechRate": 177, // 文の平均発話速度 /* The average speech rate of the sentence */
                        "EmotionValue": 5.0 // 感情値 /* The emotion value */
                }]
        },
        "TaskId": "36d01b244ad811e9952db7bb7ed2****", // 認識タスクの ID /* The ID of the recognition task */
        "StatusCode": 21050000, // ステータスコード /* The status code */
        "StatusText": "SUCCESS", // ステータスメッセージ /* The status message */
        "RequestTime": 1553062810452, // 録音ファイル認識リクエストが送信された時刻を示すタイムスタンプ /* A timestamp that indicates when the recording file recognition request is sent */
        "SolveTime": 1553062810831, // 録音ファイル認識タスクが完了した時刻を示すタイムスタンプ /* A timestamp that indicates when the recording file recognition task is completed */
        "BizDuration": 2956 // 認識された録音ファイルの合計持続時間 /* The total duration of the recording file that is recognized */
}

説明

RequestTime パラメーターの値は、録音ファイル認識リクエストが送信された時刻を示すタイムスタンプ (ミリ秒単位) です。たとえば、値 1553062810452 は、2019 年 3 月 20 日 14:20:10 (UTC+8) を示します。
SolveTime パラメーターの値は、録音ファイル認識タスクが完了した時刻を示すタイムスタンプ (ミリ秒単位) です。

次のレスポンスは、タスクがキューに入っていることを示しています。

{
        "TaskId": "c7274235b7e611e88f34c33c2a60****", // 認識タスクの ID /* The ID of the recognition task */
        "RequestId": "981AD922-0655-46B0-8C6A-5C836822****", // リクエストの ID。このパラメーターはデバッグにのみ使用されます。 /* The ID of the request. This parameter is used for debugging. */
        "StatusText": "QUEUEING", // ステータスメッセージ /* The status message */
        "StatusCode": 21050002 // ステータスコード /* The status code */
}

次のレスポンスは、タスクが実行中であることを示しています。

{
        "TaskId": "c7274235b7e611e88f34c33c2a60****", // 認識タスクの ID /* The ID of the recognition task */
        "RequestId": "8E908ED2-867F-457E-82BF-4756194A****", // リクエストの ID。このパラメーターはデバッグにのみ使用されます。 /* The ID of the request. This parameter is used for debugging. */
        "StatusText": "RUNNING", // ステータスメッセージ /* The status message */
        "BizDuration": 0, // 認識された録音ファイルの合計持続時間 /* The total duration of the recording file that is recognized */
        "StatusCode": 21050001 // ステータスコード /* The status code */
}

次のサンプルエラーレスポンスは、録音ファイルのダウンロードに失敗したことを示しています。

{
        "TaskId": "4cf25b7eb7e711e88f34c33c2a60****", // 認識タスクの ID /* The ID of the recognition task */
        "RequestId": "098BF27C-4CBA-45FF-BD11-3F532F26****", // リクエストの ID。このパラメーターはデバッグにのみ使用されます。 /* The ID of the request. This parameter is used for debugging. */
        "StatusText": "FILE_DOWNLOAD_FAILED", // ステータスメッセージ /* The status message */
        "BizDuration": 0, // 認識された録音ファイルの合計持続時間 /* The total duration of the recording file that is recognized */
        "SolveTime": 1536906469146, // 録音ファイル認識タスクが完了したことを示すタイムスタンプ /* The timestamp that indicates when the recording file recognition task is completed */
        "StatusCode": 41050002 // ステータスコード /* The status code */
}

説明

詳細については、このトピックの「サービスステータスコード」セクションのエラーコードと解決策を参照してください。

HTTP ステータスコード 200 は、リクエストが成功したことを示します。詳細については、「[HTTP ステータスコード]」をご参照ください。

パラメーター	タイプ	必須	説明
TaskId	String	はい	認識タスクの ID です。
StatusCode	Int	はい	ステータスコードです。
StatusText	String	はい	ステータスメッセージです。
RequestId	String	はい	リクエストの ID です。このパラメーターはデバッグに使用されます。
Result	Object	はい	認識結果オブジェクトです。
Sentences	List< SentenceResult >	はい	文の認識結果です。このパラメーターは、StatusText パラメーターの値が SUCCESS の場合にのみ返されます。
Words	List< WordResult >	いいえ	単語の認識結果です。このパラメーターは、enable_words パラメーターが true に設定され、version パラメーターが 4.0 に設定されている場合にのみ返されます。
BizDuration	Long	はい	認識された録音ファイルの合計持続時間です。単位: ミリ秒。
SolveTime	Long	はい	録音ファイル認識タスクが完了したことを示すタイムスタンプです。単位: ミリ秒。

次の表は、各文の認識結果のパラメーターについて説明しています。

パラメーター	タイプ	必須	説明
ChannelId	Int	はい	文が属するオーディオトラックの ID です。
BeginTime	Int	はい	文の開始時間オフセットです。単位: ミリ秒。
EndTime	Int	はい	文の終了時間オフセットです。単位: ミリ秒。
Text	String	はい	文の認識結果です。
EmotionValue	Int	はい	感情値です。値は、音量のデシベル値を 10 で割った値です。有効な値: [1,10]。値が大きいほど、感情が強くなります。
SilenceDuration	Int	はい	現在と前の文の間の無音持続時間です。単位: 秒。
SpeechRate	Int	はい	文の平均発話速度です。単位: 分あたりの単語数。

単語の認識結果

enable_words パラメーターが true に設定され、version パラメーターが 4.0 に設定されている場合、サーバーはレスポンスで単語の認識結果を返します。ポーリングメソッドで取得した単語の認識結果は、コールバックメソッドで取得した単語の認識結果と同じです。次のレスポンスは、ポーリングメソッドで取得した認識結果を示しています。

{
        "StatusCode": 21050000, // ステータスコード /* The status code */
        "Result": { // 認識結果オブジェクト /* The recognition result object */
                "Sentences": [{ // 文の認識結果 /* The recognition results of sentences */
                        "SilenceDuration": 0, // 現在と前の文の間の無音持続時間 /* The silence duration between the current and the previous sentences */
                        "EmotionValue": 5.0, // 感情値 /* The emotion value */
                        "ChannelId": 0, // 文が属するオーディオトラックの ID /* The ID of the audio track to which the sentence belongs */
                        "Text": "Weather in Beijing", // 文の認識結果 /* The recognition result of the sentence */
                        "BeginTime": 340, // 文の開始時間オフセット /* The start time offset of the sentence */
                        "EndTime": 2365, // 文の終了時間オフセット /* The end time offset of the sentence */
                        "SpeechRate": 177 // 文の平均発話速度 /* The average speech rate of the sentence */
                }],
                "Words": [{ // 単語の認識結果 /* The recognition results of words */
                        "ChannelId": 0, // 単語が属するオーディオトラックの ID /* The ID of the audio track to which the word belongs */
                        "Word": "Weather", // 単語の認識結果 /* The recognition result of the word */
                        "BeginTime": 640, // 単語の開始時間 /* The start time of the word */
                        "EndTime": 940 // 単語の終了時間 /* The end time of the word */
                }, {
                        "ChannelId": 0,
                        "Word": "in",
                        "BeginTime": 940,
                        "EndTime": 1120
                }, {
                        "ChannelId": 0,
                        "Word": "Beijing",
                        "BeginTime": 1120,
                        "EndTime": 2020
                }]
        },
        "SolveTime": 1553236968873, // 録音ファイル認識タスクが完了したことを示すタイムスタンプ /* The timestamp that indicates when the recording file recognition task is completed */
        "StatusText": "SUCCESS", // ステータスメッセージ /* The status message */
        "RequestId": "027B126B-4AC8-4C98-9FEC-A031158F****", // リクエストの ID。このパラメーターはデバッグに使用されます。 /* The ID of the request. This parameter is used for debugging. */
        "TaskId": "b505e78c4c6d11e9a213e11db149****", // 認識タスクの ID /* The ID of the recognition task */
        "BizDuration": 2956 // 認識された録音ファイルの合計持続時間 /* The total duration of the recording file that is recognized */
}

次の表は、各単語の認識結果のパラメーターについて説明しています。

パラメーター	タイプ	必須	説明
BeginTime	Int	はい	単語の開始時間です。単位: ミリ秒。
EndTime	Int	はい	単語の終了時間です。単位: ミリ秒。
ChannelId	Int	はい	単語が属するオーディオトラックの ID です。
Word	String	はい	単語の認識結果です。

サービスステータスコード

次の表は、通常のステータスコードについて説明しています。

ステータスコード	ステータスメッセージ	説明	解決策
21050000	SUCCESS	POST メソッドを使用して録音ファイル認識リクエストを送信するか、GET メソッドを使用して録音ファイル認識結果を照会した後、リクエストが成功しました。	解決策は必要ありません。
21050001	RUNNING	録音ファイル認識タスクが実行中です。	後で GET メソッドを使用して、認識結果のクエリリクエストを送信します。
21050002	QUEUEING	録音ファイル認識タスクがキューに入っています。	後で GET メソッドを使用して、認識結果のクエリリクエストを送信します。
21050003	SUCCESS_WITH_NO_VALID_FRAGMENT	認識結果のクエリリクエストは成功しましたが、サーバーは音声データを検出しませんでした。	録音ファイルに音声データが含まれているかどうか、または音声データの持続時間が短すぎるかどうかを確認します。

次の表は、エラーコードについて説明しています。

説明

4 で始まるステータスコードはクライアントエラーを示し、5 で始まるステータスコードはサーバーエラーを示します。

ステータスコード	ステータスメッセージ	説明	解決策
41050001	USER_BIZDURATION_QUOTA_EXCEED	認識する録音ファイルの合計持続時間が、1 日のクォータを超えています。	大量の音声データを認識する必要がある場合は、nls_support@service.aliyun.com にメールを送信してください。
41050002	FILE_DOWNLOAD_FAILED	録音ファイルのダウンロードに失敗しました。	録音ファイルの URL が正しいかどうか、または録音ファイルにインターネット経由でアクセスしてダウンロードできるかどうかを確認します。
41050003	FILE_CHECK_FAILED	録音ファイルの形式が無効です。	録音ファイルが WAV または MP3 形式のシングルトラックまたはデュアルトラックファイルであるかどうかを確認します。
41050004	FILE_TOO_LARGE	録音ファイルが大きすぎます。	録音ファイルのサイズが 512 MB より大きいかどうかを確認します。
41050005	FILE_NORMALIZE_FAILED	録音ファイルの正規化に失敗しました。	録音ファイルが破損しているか、再生できないかを確認します。
41050006	FILE_PARSE_FAILED	録音ファイルの解析に失敗しました。	録音ファイルが破損しているか、再生できないかを確認します。
41050007	MKV_PARSE_FAILED	MKV 解析に失敗しました。	録音ファイルが破損しているか、再生できないかを確認します。
41050008	UNSUPPORTED_SAMPLE_RATE	オーディオサンプリングレートがサポートされていません。	録音ファイルのオーディオサンプリングレートが、[インテリジェント音声対話コンソール] のプロジェクトの appkey にバインドされている自動音声認識 (ASR) モデルのサンプリングレートと同じであるかどうかを確認します。
41050009	UNSUPPORTED_ASR_GROUP	ASR グループがサポートされていません。	appkey が AccessKey ペアと同じ Alibaba Cloud アカウントに属しているかどうかを確認します。
41050010	FILE_TRANS_TASK_EXPIRED	録音ファイル認識タスクが期限切れになりました。	タスク ID が存在するか期限切れかを確認します。
41050011	REQUEST_INVALID_FILE_URL_VALUE	指定された file_link パラメーターが無効です。	file_link パラメーターが正しい形式で指定されているかどうかを確認します。
41050012	REQUEST_INVALID_CALLBACK_VALUE	指定された callback_url パラメーターが無効です。	callback_url パラメーターが正しい形式で指定されているかどうかを確認します。
41050013	REQUEST_PARAMETER_INVALID	リクエストパラメーターが無効です。	リクエストボディが有効な JSON 文字列であるかどうかを確認します。
41050014	REQUEST_EMPTY_APPKEY_VALUE	appkey パラメーターが指定されていません。	appkey パラメーターが指定されているかどうかを確認します。
41050015	REQUEST_APPKEY_UNREGISTERED	指定された appkey パラメーターが無効です。	appkey パラメーターで示される appkey が有効かどうか、または appkey が指定された AccessKey ID と同じ Alibaba Cloud アカウントに属しているかどうかを確認します。
41050021	RAM_CHECK_FAILED	RAM ユーザー認証に失敗しました。	RAM ユーザーが[インテリジェント音声対話 API] を呼び出す権限を持っているかどうかを確認します。
41050023	CONTENT_LENGTH_CHECK_FAILED	指定された content-length フィールドが無効です。	録音ファイルをダウンロードするときに、HTTP レスポンスヘッダーの content-length フィールドに示されている長さが録音ファイルの実際の長さと一致しているかどうかを確認します。
41050024	FILE_404_NOT_FOUND	ダウンロードする録音ファイルが存在しません。	ダウンロードする録音ファイルが存在するかどうかを確認します。
41050025	FILE_403_FORBIDDEN	録音ファイルをダウンロードする権限がありません。	録音ファイルをダウンロードする権限があるかどうかを確認します。
41050026	FILE_SERVER_ERROR	ファイルサーバーエラーが発生しました。	録音ファイルが保存されているサーバーが正しく動作しているかどうかを確認します。
51050000	INTERNAL_ERROR	内部エラーが発生しました。	エラーコードがたまに返される場合は、無視してください。エラーコードが複数回返される場合は、チケットを送信してください。
51050001	VAD_FAILED	音声アクティビティ検出 (VAD) に失敗しました。	エラーコードがたまに返される場合は、無視してください。エラーコードが複数回返される場合は、チケットを送信してください。
51050002	RECOGNIZE_FAILED	ASR に失敗しました。	エラーコードがたまに返される場合は、無視してください。エラーコードが複数回返される場合は、チケットを送信してください。
51050003	RECOGNIZE_INTERRUPT	ASR が中断されました。	エラーコードがたまに返される場合は、無視してください。エラーコードが複数回返される場合は、チケットを送信してください。
51050004	OFFER_INTERRUPT	認識タスクがキューに書き込まれるのを妨げられました。	エラーコードがたまに返される場合は、無視してください。エラーコードが複数回返される場合は、チケットを送信してください。
51050005	FILE_TRANS_TIMEOUT	タイムアウトのため、認識タスクに失敗しました。	エラーコードがたまに返される場合は、無視してください。エラーコードが複数回返される場合は、チケットを送信してください。
51050006	FRAGMENT_FAILED	マルチチャネルオーディオデータをモノラルオーディオデータに変換できませんでした。	エラーコードがたまに返される場合は、無視してください。エラーコードが複数回返される場合は、チケットを送信してください。

以前のバージョン

バージョンを 4.0 に設定せずに録音ファイル認識サービスをアクティブにした場合、そのバージョンはデフォルトで 2.0 になります。バージョン 2.0 では、コールバックメソッドで取得した認識結果は、ポーリングメソッドで取得した認識結果と異なります。違いは JSON 文字列のスタイルとフィールドにあります。 enable_callback パラメーターを true に設定し、callback_url パラメーターを指定したとします。次のレスポンスは、コールバックメソッドで取得した認識結果を示しています。

{
        "result": [{ // 認識結果オブジェクト /* The recognition result object */
                "begin_time": 340, // 文の開始時間オフセット /* The start time offset of the sentence */
                "channel_id": 0, // 文が属するオーディオトラックの ID /* The ID of the audio track to which the sentence belongs */
                "emotion_value": 5.0, // 感情値 /* The emotion value */
                "end_time": 2365, // 文の終了時間オフセット /* The end time offset of the sentence */
                "silence_duration": 0, // 現在と前の文の間の無音持続時間 /* The silence duration between the current and the previous sentences */
                "speech_rate": 177, // 文の平均発話速度 /* The average speech rate of the sentence */
                "text": "Weather in Beijing" // 文の認識結果 /* The recognition result of the sentence */
        }],
        "task_id": "3f5d4c0c399511e98dc025f34473****", // 認識タスクの ID /* The ID of the recognition task */
        "status_code": 21050000, // ステータスコード /* The status code */
        "status_text": "SUCCESS", // ステータスメッセージ /* The status message */
        "request_time": 1551164878830, // 録音ファイル認識リクエストが送信された時刻を示すタイムスタンプ /* A timestamp that indicates when the recording file recognition request is sent */
        "solve_time": 1551164879230, // 録音ファイル認識タスクが完了した時刻を示すタイムスタンプ /* A timestamp that indicates when the recording file recognition task is completed */
        "biz_duration": 2956 // 認識された録音ファイルの合計持続時間 /* The total duration of the recording file that is recognized */
}

有効な URL	無効な URL
https://aliyun-nls.oss-cn-hangzhou.aliyuncs.com/asr/fileASR/examples/nls-sample-16k.wav	http://127.0.0.1/sample.wav D:\files\sample.wav