すべてのプロダクト
Search
ドキュメントセンター

Intelligent Speech Interaction:API リファレンス

最終更新日:Jan 12, 2025

録音ファイル認識サービスを使用して、録音ファイルを認識できます。ただし、このサービスは録音ファイルをリアルタイムで認識しません。さらに、録音ファイルを認識するには、ファイルの到達可能な HTTP または HTTPS URL を送信する必要があります。ローカルファイルは送信できません。

機能

  • WAV および MP3 形式のシングルトラック録音ファイルを認識します。

  • ポーリングとコールバックの 2 つの呼び出し方法をサポートします。

  • カスタム言語モデルとホットワードをサポートします。

  • 中国標準語、中国の方言、英語など、複数の言語を認識します。

呼び出し制限

  • 認識する録音ファイルへのアクセス権限はパブリックである必要があります。各録音ファイルの URL にはドメイン名を含めることができますが、IP アドレスは含めることができません。さらに、URL にスペースを含めることはできません。

    有効な URL

    無効な URL

    https://aliyun-nls.oss-cn-hangzhou.aliyuncs.com/asr/fileASR/examples/nls-sample-16k.wav

    • http://127.0.0.1/sample.wav

    • D:\files\sample.wav

  • ファイルの最大サイズは 512 MB です。

  • 無料トライアル版を使用する場合、サーバーは認識タスクを完了し、録音ファイル認識リクエストを送信してから 24 時間以内に認識結果を返します。 商用版を使用する場合、サーバーは認識タスクを完了し、録音ファイル認識リクエストを送信してから 3 時間以内に認識結果を返します。サーバーは認識結果を 72 時間保持します。

    説明

    30 分以内にアップロードした録音ファイルの長さが 500 時間を超える場合、上記の制限時間は適用されません。大量の音声データを認識する必要がある場合は、Alibaba Cloud のプリセールススタッフにお問い合わせください。

  • 無料トライアル版を使用して、各カレンダー日に最大 2 時間の長さの録音ファイルを認識できます。

  • 手順

    1. 録音ファイルの形式とオーディオサンプリングレートを確認します。ビジネスシナリオに基づいて、[インテリジェント音声対話コンソール] で適切なシナリオとモデルを選択します。

    2. 録音ファイルを Alibaba Cloud [オブジェクトストレージサービス (OSS)] に保存します。

      録音ファイルへのアクセス権限がパブリックの場合は、録音ファイルの OSS URL を直接取得します。詳細については、「パブリック読み取りオブジェクト」をご参照ください。録音ファイルへのアクセス権限がプライベートの場合は、SDK を使用して有効期間のある OSS URL を生成します。詳細については、「プライベートオブジェクト」をご参照ください。

      説明

      ファイルサーバーを構築して、録音ファイルをそこに保存することもできます。ファイルサーバーから録音ファイルをダウンロードするには、HTTP レスポンスヘッダーの Content-Length フィールドに示されている長さが、レスポンスボディのデータの長さと一致していることを確認してください。そうでないと、録音ファイルのダウンロードに失敗します。 /* The length indicated by the Content-Length field in the HTTP response header must be the same as the length of data in the response body. Otherwise, the recording file fails to be downloaded. */

    3. クライアントから録音ファイル認識リクエストを送信します。

      リクエストが成功すると、サーバーはタスク ID を返します。タスク ID を使用して、認識結果をポーリングできます。

    4. クライアントからリクエストを送信して、認識結果を照会します。

      クライアントは、手順 c で取得したタスク ID に基づいて認識結果を照会します。サーバーは認識結果を 72 時間保持します。

    API 呼び出し方法

  • 録音ファイル認識サービスは、リモートプロシージャコール (RPC) 形式で呼び出すことができる Alibaba Cloud [pctowap オープン プラットフォーム (POP) API] を提供します。API オペレーションを呼び出すには、クライアントはリクエストにパラメーターをカプセル化し、HTTP メソッドを使用してリクエストを送信します。サーバーはレスポンスで結果を返します。認識する録音ファイルをサーバーに保存し、各ファイルに URL を使用してアクセスできることを確認する必要があります。Alibaba Cloud OSS に録音ファイルを保存することをお勧めします。

  • 録音ファイル認識 POP API は 2 つのオペレーションをサポートしています。POST メソッドを使用して録音ファイル認識リクエストを送信し、GET メソッドを使用して録音ファイル認識結果を照会します。

    • 録音ファイル認識リクエストを送信するオペレーション:

      • ポーリングメソッドを使用する場合は、録音ファイル認識リクエストを送信し、後続の認識結果ポーリングのタスク ID を取得できます。

      • コールバックメソッドを使用する場合は、録音ファイル認識リクエストとコールバック URL を送信できます。リクエストが成功すると、サーバーは POST メソッドを使用して認識結果をコールバック URL に送信します。コールバック URL が POST リクエストを受信できることを確認してください。

      説明

      録音ファイル認識サービスの以前のバージョン (デフォルトでは 2.0) では、コールバックメソッドで取得した認識結果は、ポーリングメソッドで取得した認識結果と異なります。違いは JSON 文字列のスタイルとフィールドにあります。バージョン 4.0 では、録音ファイル認識サービスはコールバックメソッドで取得した認識結果を camelCase JSON 文字列に更新します。これにより、ポーリングメソッドで取得した認識結果と同じ認識結果が生成されます。

      バージョンを 4.0 に設定せずに録音ファイル認識サービスをアクティブにした場合、そのバージョンはデフォルトで 2.0 になります。このバージョンを引き続き使用できます。新規ユーザーの場合は、録音ファイル認識サービスのバージョンを 4.0 に設定してください。

      リクエストパラメーター:

      録音ファイル認識リクエストを送信するときは、リクエストパラメーターを設定し、これらのパラメーターを JSON 文字列の形式でリクエストボディに追加する必要があります。次の例は、JSON 形式のリクエストパラメーターを示しています。

      {
          "appkey": "your-appkey", // プロジェクトの appkey
          "file_link": "https://aliyun-nls.oss-cn-hangzhou.aliyuncs.com/asr/fileASR/examples/nls-sample-16k.wav", // 録音ファイルの URL
          "auto_split":false,
          "version": "4.0", // 録音ファイル認識サービスのバージョン
          "enable_words": false, // 単語の認識結果を返すかどうかを指定します。
          "enable_sample_rate_adaptive": true, // 16,000 Hz を超えるサンプリングレートのオーディオファイルを自動的にダウンサンプリングするかどうかを指定します。
          // valid_times パラメーターは、オーディオトラックの全長で実際に音声認識が必要な有効な期間を指定します。このパラメーターはオプションです。 /* The valid_times parameter specifies the valid time period that truly requires speech recognition in the total length of an audio track. This parameter is optional. */
          "valid_times": [
              {
                  "begin_time": 200, // 有効な期間の開始時間オフセット /* The start time offset of the valid time period */
                  "end_time":2000, // 有効な期間の終了時間オフセット /* The end time offset of the valid time period */
                  "channel_id": 0 // 設定が適用されるオーディオトラックのシーケンス番号 /* The sequence number of the audio track to which the setting applies */
              }
          ]
      }

      パラメーター

      タイプ

      必須

      説明

      appkey

      String

      はい

      [インテリジェント音声対話コンソール] のプロジェクトの appkey です。

      file_link

      String

      はい

      録音ファイルの URL です。[インテリジェント音声対話コンソール] で作成されたプロジェクトのシナリオとモデルが録音ファイルに適していることを確認してください。

      version

      String

      はい

      録音ファイル認識サービスのバージョンです。デフォルト値: 2.0。このパラメーターを 4.0 に設定します。

      enable_words

      Boolean

      いいえ

      単語の認識結果を返すかどうかを指定します。デフォルト値: false。このパラメーターは、version パラメーターが 4.0 に設定されている場合にのみ有効になります。

      enable_sample_rate_adaptive

      Boolean

      いいえ

      16,000 Hz を超えるサンプリングレートのオーディオファイルを自動的にダウンサンプリングするかどうかを指定します。デフォルト値: false。このパラメーターは、version パラメーターが 4.0 に設定されている場合にのみ有効になります。

      enable_callback

      Boolean

      いいえ

      コールバックメソッドを有効にするかどうかを指定します。デフォルト値: false。

      callback_url

      String

      いいえ

      コールバック URL です。 enable_callback パラメーターを true に設定する場合は、このパラメーターを指定する必要があります。コールバック URL は、HTTP または HTTPS URL にすることができます。ドメイン名を含めることができますが、IP アドレスは含めることができません。

      auto_split

      Boolean

      いいえ

      自動トラック分割を有効にするかどうかを指定します。自動トラック分割を有効にすると、サーバーは文の認識結果の ChannelId パラメーターに基づいて、2 者間の会話の各文の話者を識別できます。通常、ChannelId パラメーターの値は、会話の最初の話者に対して 1 です。サンプリングレートが 8,000 Hz のモノラルオーディオファイルのみがサポートされています。

      enable_unify_post

      Boolean

      いいえ

      後処理を有効にするかどうかを指定します。デフォルト値: false。

      説明

      auto_split パラメーターと enable_unify_post パラメーターの両方を true に設定することはできません。

      enable_inverse_text_normalization

      Boolean

      いいえ

      逆テキスト正規化 (ITN) を有効にするかどうかを指定します。有効な値: true および false。デフォルト値: false。このパラメーターを true に設定すると、中国語の数字がアラビア数字に変換されます。このパラメーターは、version パラメーターが 4.0 に設定され、enable_unify_post パラメーターが true に設定されている場合にのみ有効になります。

      説明

      ITN は単語には実装されていません。

      enable_disfluency

      Boolean

      いいえ

      非流暢性検出を有効にするかどうかを指定します。デフォルト値: false。このパラメーターは、version パラメーターが 4.0 に設定され、enable_unify_post パラメーターが true に設定されている場合にのみ有効になります。

      valid_times

      List< ValidTime >

      いいえ

      オーディオトラックの全長で実際に音声認識が必要な有効な期間です。

      max_end_silence

      Integer

      いいえ

      終了無音の最大持続時間です。デフォルト値: 450。単位: ミリ秒。

      max_single_segment_time

      Integer

      いいえ

      単一の文の最大持続時間です。最小値: 10000。デフォルト値: 20000。単位: ミリ秒。

      customization_id

      String

      いいえ

      POP API を使用して作成されたカスタム言語モデルの ID です。このパラメーターはデフォルトでは指定されていません。

      class_vocabulary_id

      String

      いいえ

      作成された分類済みホットワード語彙の ID です。このパラメーターはデフォルトでは指定されていません。

      vocabulary_id

      String

      いいえ

      作成された広範なホットワード語彙の ID です。このパラメーターはデフォルトでは指定されていません。

      次の表は、ValidTime オブジェクトのパラメーターについて説明しています。

      パラメーター

      タイプ

      必須

      説明

      begin_time

      Int

      はい

      有効な期間の開始時間オフセットです。単位: ミリ秒。

      end_time

      Int

      はい

      有効な期間の終了時間オフセットです。単位: ミリ秒。

      channel_id

      Int

      はい

      設定が適用されるオーディオトラックのシーケンス番号です。値は 0 から始まります。

      レスポンスパラメーター:

      サーバーは録音ファイル認識リクエストにレスポンスを返します。レスポンスには、JSON 文字列の形式のレスポンスパラメーターが含まれています。たとえば、サーバーは次のレスポンスを返します。

      {
              "TaskId": "4b56f0c4b7e611e88f34c33c2a60****", // 認識タスクの ID /* The ID of the recognition task */
              "RequestId": "E4B183CC-6CFE-411E-A547-D877F7BD****", // リクエストの ID。このパラメーターはデバッグにのみ使用されます。 /* The ID of the request. This parameter is used only for debugging. */
              "StatusText": "SUCCESS", // ステータスメッセージ /* The status message */
              "StatusCode": 21050000 // ステータスコード /* The status code */
      }

      HTTP ステータスコード 200 は、リクエストが成功したことを示します。詳細については、「[HTTP ステータスコード]」をご参照ください。

      パラメーター

      タイプ

      必須

      説明

      TaskId

      String

      はい

      認識タスクの ID です。

      RequestId

      String

      はい

      リクエストの ID です。このパラメーターはデバッグにのみ使用されます。

      StatusCode

      Int

      はい

      ステータスコードです。

      StatusText

      String

      はい

      ステータスメッセージです。

    • 録音ファイル認識結果を照会するオペレーション:

      送信した録音ファイル認識リクエストが成功すると、サーバーはタスク ID を返します。タスク ID を使用して、認識結果をポーリングできます。

      リクエストパラメーター:

      サーバーが録音ファイル認識リクエストへのレスポンスを返した後、レスポンスのタスク ID をパラメーターとして使用して、認識結果を照会できます。クエリ操作を呼び出すときは、ポーリング間隔を設定する必要があります。

      重要

      クエリ操作は、1 秒あたり最大 100 クエリ (QPS) をサポートしています。QPS が 100 を超えると、次のエラーが返される場合があります: Throttling.User : Request was denied due to user flow control. ポーリング間隔を長く設定することをお勧めします。

      パラメーター

      タイプ

      必須

      説明

      TaskId

      String

      はい

      認識タスクの ID です。

      レスポンスパラメーター:

      サーバーは、録音ファイル認識結果のクエリリクエストにレスポンスを返します。レスポンスには、JSON 文字列の形式のレスポンスパラメーターが含まれています。

      • 次のサンプルの成功レスポンスは、シングルトラック録音ファイル nls-sample-16k.wav の認識結果を示しています。

        {
                "TaskId": "d429dd7dd75711e89305ab6170fe****", // 認識タスクの ID /* The ID of the recognition task */
                "RequestId": "9240D669-6485-4DCC-896A-F8B31F94****", // リクエストの ID。このパラメーターはデバッグにのみ使用されます。 /* The ID of the request. This parameter is used for debugging. */
                "StatusText": "SUCCESS", // ステータスメッセージ /* The status message */
                "BizDuration": 2956, // 認識された録音ファイルの合計持続時間 /* The total duration of the recording file that is recognized */
                "SolveTime": 1540363288472, // 録音ファイル認識タスクが完了したことを示すタイムスタンプ /* The timestamp that indicates when the recording file recognition task is completed */
                "StatusCode": 21050000, // ステータスコード /* The status code */
                "Result": { // 認識結果オブジェクト /* The recognition result object */
                        "Sentences": [{ // 文の認識結果 /* The recognition results of sentences */
                                "EndTime": 2365, // 文の終了時間オフセット /* The end time offset of the sentence */
                                "SilenceDuration": 0, // 現在と前の文の間の無音持続時間 /* The silence duration between the current and the previous sentences */
                                "BeginTime": 340, // 文の開始時間オフセット /* The start time offset of the sentence */
                                "Text": "Weather in Beijing", // 文の認識結果 /* The recognition result of the sentence */
                                "ChannelId": 0, // 文が属するオーディオトラックの ID /* The ID of the audio track to which the sentence belongs */
                                "SpeechRate": 177, // 文の平均発話速度 /* The average speech rate of the sentence */
                                "EmotionValue": 5.0 // 感情値 /* The emotion value */
                        }]
                }
        }

        enable_callback パラメーターを true に設定し、callback_url パラメーターを指定し、version パラメーターを 4.0 に設定したとします。次のレスポンスは、コールバックメソッドで取得した認識結果を示しています。

        {
                "Result": { // 認識結果オブジェクト /* The recognition result object */
                        "Sentences": [{ // 文の認識結果 /* The recognition results of sentences */
                                "EndTime": 2365, // 文の終了時間オフセット /* The end time offset of the sentence */
                                "SilenceDuration": 0, // 現在と前の文の間の無音持続時間 /* The silence duration between the current and the previous sentences */
                                "BeginTime": 340, // 文の開始時間オフセット /* The start time offset of the sentence */
                                "Text": "Weather in Beijing", // 文の認識結果 /* The recognition result of the sentence */
                                "ChannelId": 0, // 文が属するオーディオトラックの ID /* The ID of the audio track to which the sentence belongs */
                                "SpeechRate": 177, // 文の平均発話速度 /* The average speech rate of the sentence */
                                "EmotionValue": 5.0 // 感情値 /* The emotion value */
                        }]
                },
                "TaskId": "36d01b244ad811e9952db7bb7ed2****", // 認識タスクの ID /* The ID of the recognition task */
                "StatusCode": 21050000, // ステータスコード /* The status code */
                "StatusText": "SUCCESS", // ステータスメッセージ /* The status message */
                "RequestTime": 1553062810452, // 録音ファイル認識リクエストが送信された時刻を示すタイムスタンプ /* A timestamp that indicates when the recording file recognition request is sent */
                "SolveTime": 1553062810831, // 録音ファイル認識タスクが完了した時刻を示すタイムスタンプ /* A timestamp that indicates when the recording file recognition task is completed */
                "BizDuration": 2956 // 認識された録音ファイルの合計持続時間 /* The total duration of the recording file that is recognized */
        }
        説明
        • RequestTime パラメーターの値は、録音ファイル認識リクエストが送信された時刻を示すタイムスタンプ (ミリ秒単位) です。たとえば、値 1553062810452 は、2019 年 3 月 20 日 14:20:10 (UTC+8) を示します。

        • SolveTime パラメーターの値は、録音ファイル認識タスクが完了した時刻を示すタイムスタンプ (ミリ秒単位) です。

      • 次のレスポンスは、タスクがキューに入っていることを示しています。

        {
                "TaskId": "c7274235b7e611e88f34c33c2a60****", // 認識タスクの ID /* The ID of the recognition task */
                "RequestId": "981AD922-0655-46B0-8C6A-5C836822****", // リクエストの ID。このパラメーターはデバッグにのみ使用されます。 /* The ID of the request. This parameter is used for debugging. */
                "StatusText": "QUEUEING", // ステータスメッセージ /* The status message */
                "StatusCode": 21050002 // ステータスコード /* The status code */
        }

      • 次のレスポンスは、タスクが実行中であることを示しています。

        {
                "TaskId": "c7274235b7e611e88f34c33c2a60****", // 認識タスクの ID /* The ID of the recognition task */
                "RequestId": "8E908ED2-867F-457E-82BF-4756194A****", // リクエストの ID。このパラメーターはデバッグにのみ使用されます。 /* The ID of the request. This parameter is used for debugging. */
                "StatusText": "RUNNING", // ステータスメッセージ /* The status message */
                "BizDuration": 0, // 認識された録音ファイルの合計持続時間 /* The total duration of the recording file that is recognized */
                "StatusCode": 21050001 // ステータスコード /* The status code */
        }

      • 次のサンプルエラーレスポンスは、録音ファイルのダウンロードに失敗したことを示しています。

        {
                "TaskId": "4cf25b7eb7e711e88f34c33c2a60****", // 認識タスクの ID /* The ID of the recognition task */
                "RequestId": "098BF27C-4CBA-45FF-BD11-3F532F26****", // リクエストの ID。このパラメーターはデバッグにのみ使用されます。 /* The ID of the request. This parameter is used for debugging. */
                "StatusText": "FILE_DOWNLOAD_FAILED", // ステータスメッセージ /* The status message */
                "BizDuration": 0, // 認識された録音ファイルの合計持続時間 /* The total duration of the recording file that is recognized */
                "SolveTime": 1536906469146, // 録音ファイル認識タスクが完了したことを示すタイムスタンプ /* The timestamp that indicates when the recording file recognition task is completed */
                "StatusCode": 41050002 // ステータスコード /* The status code */
        }
        説明

        詳細については、このトピックの「サービスステータスコード」セクションのエラーコードと解決策を参照してください。

      HTTP ステータスコード 200 は、リクエストが成功したことを示します。詳細については、「[HTTP ステータスコード]」をご参照ください。

      パラメーター

      タイプ

      必須

      説明

      TaskId

      String

      はい

      認識タスクの ID です。

      StatusCode

      Int

      はい

      ステータスコードです。

      StatusText

      String

      はい

      ステータスメッセージです。

      RequestId

      String

      はい

      リクエストの ID です。このパラメーターはデバッグに使用されます。

      Result

      Object

      はい

      認識結果オブジェクトです。

      Sentences

      List< SentenceResult >

      はい

      文の認識結果です。このパラメーターは、StatusText パラメーターの値が SUCCESS の場合にのみ返されます。

      Words

      List< WordResult >

      いいえ

      単語の認識結果です。このパラメーターは、enable_words パラメーターが true に設定され、version パラメーターが 4.0 に設定されている場合にのみ返されます。

      BizDuration

      Long

      はい

      認識された録音ファイルの合計持続時間です。単位: ミリ秒。

      SolveTime

      Long

      はい

      録音ファイル認識タスクが完了したことを示すタイムスタンプです。単位: ミリ秒。

      次の表は、各文の認識結果のパラメーターについて説明しています。

      パラメーター

      タイプ

      必須

      説明

      ChannelId

      Int

      はい

      文が属するオーディオトラックの ID です。

      BeginTime

      Int

      はい

      文の開始時間オフセットです。単位: ミリ秒。

      EndTime

      Int

      はい

      文の終了時間オフセットです。単位: ミリ秒。

      Text

      String

      はい

      文の認識結果です。

      EmotionValue

      Int

      はい

      感情値です。値は、音量のデシベル値を 10 で割った値です。有効な値: [1,10]。値が大きいほど、感情が強くなります。

      SilenceDuration

      Int

      はい

      現在と前の文の間の無音持続時間です。単位: 秒。

      SpeechRate

      Int

      はい

      文の平均発話速度です。単位: 分あたりの単語数。

      • 単語の認識結果

        enable_words パラメーターが true に設定され、version パラメーターが 4.0 に設定されている場合、サーバーはレスポンスで単語の認識結果を返します。ポーリングメソッドで取得した単語の認識結果は、コールバックメソッドで取得した単語の認識結果と同じです。次のレスポンスは、ポーリングメソッドで取得した認識結果を示しています。

        {
                "StatusCode": 21050000, // ステータスコード /* The status code */
                "Result": { // 認識結果オブジェクト /* The recognition result object */
                        "Sentences": [{ // 文の認識結果 /* The recognition results of sentences */
                                "SilenceDuration": 0, // 現在と前の文の間の無音持続時間 /* The silence duration between the current and the previous sentences */
                                "EmotionValue": 5.0, // 感情値 /* The emotion value */
                                "ChannelId": 0, // 文が属するオーディオトラックの ID /* The ID of the audio track to which the sentence belongs */
                                "Text": "Weather in Beijing", // 文の認識結果 /* The recognition result of the sentence */
                                "BeginTime": 340, // 文の開始時間オフセット /* The start time offset of the sentence */
                                "EndTime": 2365, // 文の終了時間オフセット /* The end time offset of the sentence */
                                "SpeechRate": 177 // 文の平均発話速度 /* The average speech rate of the sentence */
                        }],
                        "Words": [{ // 単語の認識結果 /* The recognition results of words */
                                "ChannelId": 0, // 単語が属するオーディオトラックの ID /* The ID of the audio track to which the word belongs */
                                "Word": "Weather", // 単語の認識結果 /* The recognition result of the word */
                                "BeginTime": 640, // 単語の開始時間 /* The start time of the word */
                                "EndTime": 940 // 単語の終了時間 /* The end time of the word */
                        }, {
                                "ChannelId": 0,
                                "Word": "in",
                                "BeginTime": 940,
                                "EndTime": 1120
                        }, {
                                "ChannelId": 0,
                                "Word": "Beijing",
                                "BeginTime": 1120,
                                "EndTime": 2020
                        }]
                },
                "SolveTime": 1553236968873, // 録音ファイル認識タスクが完了したことを示すタイムスタンプ /* The timestamp that indicates when the recording file recognition task is completed */
                "StatusText": "SUCCESS", // ステータスメッセージ /* The status message */
                "RequestId": "027B126B-4AC8-4C98-9FEC-A031158F****", // リクエストの ID。このパラメーターはデバッグに使用されます。 /* The ID of the request. This parameter is used for debugging. */
                "TaskId": "b505e78c4c6d11e9a213e11db149****", // 認識タスクの ID /* The ID of the recognition task */
                "BizDuration": 2956 // 認識された録音ファイルの合計持続時間 /* The total duration of the recording file that is recognized */
        }
        

        次の表は、各単語の認識結果のパラメーターについて説明しています。

        パラメーター

        タイプ

        必須

        説明

        BeginTime

        Int

        はい

        単語の開始時間です。単位: ミリ秒。

        EndTime

        Int

        はい

        単語の終了時間です。単位: ミリ秒。

        ChannelId

        Int

        はい

        単語が属するオーディオトラックの ID です。

        Word

        String

        はい

        単語の認識結果です。

  • サービスステータスコード

  • 次の表は、通常のステータスコードについて説明しています。

  • ステータスコード

    ステータスメッセージ

    説明

    解決策

    21050000

    SUCCESS

    POST メソッドを使用して録音ファイル認識リクエストを送信するか、GET メソッドを使用して録音ファイル認識結果を照会した後、リクエストが成功しました。

    解決策は必要ありません。

    21050001

    RUNNING

    録音ファイル認識タスクが実行中です。

    後で GET メソッドを使用して、認識結果のクエリリクエストを送信します。

    21050002

    QUEUEING

    録音ファイル認識タスクがキューに入っています。

    後で GET メソッドを使用して、認識結果のクエリリクエストを送信します。

    21050003

    SUCCESS_WITH_NO_VALID_FRAGMENT

    認識結果のクエリリクエストは成功しましたが、サーバーは音声データを検出しませんでした。

    録音ファイルに音声データが含まれているかどうか、または音声データの持続時間が短すぎるかどうかを確認します。

  • 次の表は、エラーコードについて説明しています。

  • 説明

    4 で始まるステータスコードはクライアントエラーを示し、5 で始まるステータスコードはサーバーエラーを示します。

    ステータスコード

    ステータスメッセージ

    説明

    解決策

    41050001

    USER_BIZDURATION_QUOTA_EXCEED

    認識する録音ファイルの合計持続時間が、1 日のクォータを超えています。

    大量の音声データを認識する必要がある場合は、nls_support@service.aliyun.com にメールを送信してください。

    41050002

    FILE_DOWNLOAD_FAILED

    録音ファイルのダウンロードに失敗しました。

    録音ファイルの URL が正しいかどうか、または録音ファイルにインターネット経由でアクセスしてダウンロードできるかどうかを確認します。

    41050003

    FILE_CHECK_FAILED

    録音ファイルの形式が無効です。

    録音ファイルが WAV または MP3 形式のシングルトラックまたはデュアルトラックファイルであるかどうかを確認します。

    41050004

    FILE_TOO_LARGE

    録音ファイルが大きすぎます。

    録音ファイルのサイズが 512 MB より大きいかどうかを確認します。

    41050005

    FILE_NORMALIZE_FAILED

    録音ファイルの正規化に失敗しました。

    録音ファイルが破損しているか、再生できないかを確認します。

    41050006

    FILE_PARSE_FAILED

    録音ファイルの解析に失敗しました。

    録音ファイルが破損しているか、再生できないかを確認します。

    41050007

    MKV_PARSE_FAILED

    MKV 解析に失敗しました。

    録音ファイルが破損しているか、再生できないかを確認します。

    41050008

    UNSUPPORTED_SAMPLE_RATE

    オーディオサンプリングレートがサポートされていません。

    録音ファイルのオーディオサンプリングレートが、[インテリジェント音声対話コンソール] のプロジェクトの appkey にバインドされている自動音声認識 (ASR) モデルのサンプリングレートと同じであるかどうかを確認します。

    41050009

    UNSUPPORTED_ASR_GROUP

    ASR グループがサポートされていません。

    appkey が AccessKey ペアと同じ Alibaba Cloud アカウントに属しているかどうかを確認します。

    41050010

    FILE_TRANS_TASK_EXPIRED

    録音ファイル認識タスクが期限切れになりました。

    タスク ID が存在するか期限切れかを確認します。

    41050011

    REQUEST_INVALID_FILE_URL_VALUE

    指定された file_link パラメーターが無効です。

    file_link パラメーターが正しい形式で指定されているかどうかを確認します。

    41050012

    REQUEST_INVALID_CALLBACK_VALUE

    指定された callback_url パラメーターが無効です。

    callback_url パラメーターが正しい形式で指定されているかどうかを確認します。

    41050013

    REQUEST_PARAMETER_INVALID

    リクエストパラメーターが無効です。

    リクエストボディが有効な JSON 文字列であるかどうかを確認します。

    41050014

    REQUEST_EMPTY_APPKEY_VALUE

    appkey パラメーターが指定されていません。

    appkey パラメーターが指定されているかどうかを確認します。

    41050015

    REQUEST_APPKEY_UNREGISTERED

    指定された appkey パラメーターが無効です。

    appkey パラメーターで示される appkey が有効かどうか、または appkey が指定された AccessKey ID と同じ Alibaba Cloud アカウントに属しているかどうかを確認します。

    41050021

    RAM_CHECK_FAILED

    RAM ユーザー認証に失敗しました。

    RAM ユーザーが[インテリジェント音声対話 API] を呼び出す権限を持っているかどうかを確認します。

    41050023

    CONTENT_LENGTH_CHECK_FAILED

    指定された content-length フィールドが無効です。

    録音ファイルをダウンロードするときに、HTTP レスポンスヘッダーの content-length フィールドに示されている長さが録音ファイルの実際の長さと一致しているかどうかを確認します。

    41050024

    FILE_404_NOT_FOUND

    ダウンロードする録音ファイルが存在しません。

    ダウンロードする録音ファイルが存在するかどうかを確認します。

    41050025

    FILE_403_FORBIDDEN

    録音ファイルをダウンロードする権限がありません。

    録音ファイルをダウンロードする権限があるかどうかを確認します。

    41050026

    FILE_SERVER_ERROR

    ファイルサーバーエラーが発生しました。

    録音ファイルが保存されているサーバーが正しく動作しているかどうかを確認します。

    51050000

    INTERNAL_ERROR

    内部エラーが発生しました。

    エラーコードがたまに返される場合は、無視してください。エラーコードが複数回返される場合は、チケットを送信してください。

    51050001

    VAD_FAILED

    音声アクティビティ検出 (VAD) に失敗しました。

    エラーコードがたまに返される場合は、無視してください。エラーコードが複数回返される場合は、チケットを送信してください。

    51050002

    RECOGNIZE_FAILED

    ASR に失敗しました。

    エラーコードがたまに返される場合は、無視してください。エラーコードが複数回返される場合は、チケットを送信してください。

    51050003

    RECOGNIZE_INTERRUPT

    ASR が中断されました。

    エラーコードがたまに返される場合は、無視してください。エラーコードが複数回返される場合は、チケットを送信してください。

    51050004

    OFFER_INTERRUPT

    認識タスクがキューに書き込まれるのを妨げられました。

    エラーコードがたまに返される場合は、無視してください。エラーコードが複数回返される場合は、チケットを送信してください。

    51050005

    FILE_TRANS_TIMEOUT

    タイムアウトのため、認識タスクに失敗しました。

    エラーコードがたまに返される場合は、無視してください。エラーコードが複数回返される場合は、チケットを送信してください。

    51050006

    FRAGMENT_FAILED

    マルチチャネルオーディオデータをモノラルオーディオデータに変換できませんでした。

    エラーコードがたまに返される場合は、無視してください。エラーコードが複数回返される場合は、チケットを送信してください。

    以前のバージョン

バージョンを 4.0 に設定せずに録音ファイル認識サービスをアクティブにした場合、そのバージョンはデフォルトで 2.0 になります。バージョン 2.0 では、コールバックメソッドで取得した認識結果は、ポーリングメソッドで取得した認識結果と異なります。違いは JSON 文字列のスタイルとフィールドにあります。 enable_callback パラメーターを true に設定し、callback_url パラメーターを指定したとします。次のレスポンスは、コールバックメソッドで取得した認識結果を示しています。

{
        "result": [{ // 認識結果オブジェクト /* The recognition result object */
                "begin_time": 340, // 文の開始時間オフセット /* The start time offset of the sentence */
                "channel_id": 0, // 文が属するオーディオトラックの ID /* The ID of the audio track to which the sentence belongs */
                "emotion_value": 5.0, // 感情値 /* The emotion value */
                "end_time": 2365, // 文の終了時間オフセット /* The end time offset of the sentence */
                "silence_duration": 0, // 現在と前の文の間の無音持続時間 /* The silence duration between the current and the previous sentences */
                "speech_rate": 177, // 文の平均発話速度 /* The average speech rate of the sentence */
                "text": "Weather in Beijing" // 文の認識結果 /* The recognition result of the sentence */
        }],
        "task_id": "3f5d4c0c399511e98dc025f34473****", // 認識タスクの ID /* The ID of the recognition task */
        "status_code": 21050000, // ステータスコード /* The status code */
        "status_text": "SUCCESS", // ステータスメッセージ /* The status message */
        "request_time": 1551164878830, // 録音ファイル認識リクエストが送信された時刻を示すタイムスタンプ /* A timestamp that indicates when the recording file recognition request is sent */
        "solve_time": 1551164879230, // 録音ファイル認識タスクが完了した時刻を示すタイムスタンプ /* A timestamp that indicates when the recording file recognition task is completed */
        "biz_duration": 2956 // 認識された録音ファイルの合計持続時間 /* The total duration of the recording file that is recognized */
}