すべてのプロダクト
Search
ドキュメントセンター

Intelligent Speech Interaction:概念

最終更新日:Jan 15, 2025

このトピックでは、このサービスを理解するのに役立つ、Intelligent Speech Interaction に関連する用語と概念を紹介します。

オーディオサンプルレート

オーディオサンプルレートとは、録音デバイスが 1 秒間に音声信号からキャプチャする平均サンプル数です。高いオーディオサンプルレートでサンプリングされたサウンドは、よりリアルで自然な方法で再現できます。

Intelligent Speech Interaction は、8 kHz または 16 kHz のオーディオサンプルレートをサポートしています。電話ワークロードは 8 kHz を使用し、その他のワークロードは 16 kHz を使用します。

音声データのオーディオサンプルレートが 16 kHz より高い場合は、Intelligent Speech Interaction が音声データを処理できるように、オーディオサンプルレートを 16 kHz に変換する必要があります。音声データのオーディオサンプルレートが 8 kHz の場合は、オーディオサンプルレートを 16 kHz に変換しないでください。この場合は、8 kHz モデルを使用するようにプロジェクトを設定します。

オーディオビット深度

オーディオビット深度とは、各サンプルのデータのビット数です。これは音の変動を測定し、サウンドカードの解像度に直接対応します。オーディオビット深度が高いほど、解像度と音質が高くなります。

ほとんどの場合、Intelligent Speech Interaction は 16 ビットを使用してオーディオデータをキャプチャします。各サンプルは、2 つの 8 ビットバイトのセットとして保存されます。音声信号は、サンプルあたり 2 バイトで、1 秒あたり 16,000 サンプルのレートで記録およびデジタル化されます。

各サンプルは、サンプリングされた信号の振幅を記録します。サンプルの精度は、オーディオビット深度によって異なります。

  • 8 ビットバイトは 256 の可能な値を表します。これは、振幅値を 256 の個別のサンプル値に分割できることを意味します。

  • 2 つの 8 ビットバイト (16 ビット) は 65,536 の可能な値を表します。これは、振幅値を 65,536 の個別のサンプル値に分割できることを意味します。

    このオーディオビット深度は CD に適用されます。

オーディオコーディング形式

オーディオコーディング形式とは、オーディオデータを保存および送信するためのコンテンツ表現形式です。オーディオコーディング形式はオーディオファイル形式とは異なることに注意してください。たとえば、WAV ファイルのヘッダーでオーディオコーディング形式を定義して、パルス符号変調 (PCM) 形式または適応マルチレート (AMR) 形式でオーディオデータをエンコードできます。

重要

Intelligent Speech Interaction サービスを呼び出す前に、サービスが音声データのオーディオコーディング形式をサポートしていることを確認してください。

サウンドチャンネル

サウンドチャンネルは、サウンドが録音されるときに異なる空間位置で収集された音声信号を分離します。サウンドチャンネルの数は、録音プロセス中の音源の数と同じです。一般的なオーディオデータはモノラルまたはバイノーラル (ステレオ) です。

説明

録音ファイル認識サービスを除き、Intelligent Speech Interaction の他のインタラクションサービスはモノラルのみの音声データをサポートしています。音声データがバイノーラルまたはマルチチャンネルの場合は、データをモノラル音声データに変換してください。

逆テキスト正規化

逆テキスト正規化 (ITN) は、音声を判読可能なテキストに変換します。ITN は、標準化された形式を使用して、数値、金額、日付、住所などのオブジェクトを表示します。次の表にいくつかの例を示します。

元の音声

ITN 有効後の認識結果

Twenty percent

20%

May the eleventh

5 月 11 日

Please dial one one zero.

110 にダイヤルしてください。

Appkey

appkey は、Intelligent Speech Interaction コンソールで作成されたプロジェクトを一意に識別できます。プロジェクトの Intelligent Speech Interaction サービスを呼び出すときは、プロジェクトの appkey を指定する必要があります。その後、サービスは appkey に基づいてプロジェクトに関する構成情報を取得します。

Intelligent Speech Interaction は、カスタマーサービスホットラインや携帯電話入力など、複数のビジネスシナリオで音声インタラクションサービスを提供できます。サービス機能はシナリオによって異なります。最適な結果を得るには、プロジェクトの構成がビジネスシナリオの要件を満たしていることを確認してください。

AccessKey ペア

AccessKey ペアは、アプリケーションが Alibaba Cloud API オペレーションを呼び出すための ID 資格情報です。[セキュリティ管理] ページで AccessKey ペアを作成および表示できます。

AccessKey ペアは、AccessKey ID と AccessKey シークレットで構成されます。AccessKey ID は、ユーザーとしての身元を識別するために使用されます。AccessKey シークレットは、アクセスリクエストの署名文字列を暗号化するために使用されます。これにより、データの改ざんを防ぐことができます。AccessKey ID と AccessKey シークレットを一緒に使用する必要があります。AccessKey シークレットはログオンパスワードに似ています。AccessKey シークレットは機密にしてください。

アクセストークン

アクセストークンは、Intelligent Speech Interaction サービスを呼び出すための資格情報です。アクセストークンには有効期限があります。AccessKey ID と AccessKey シークレットを使用してアクセストークンを取得できます。

説明

携帯電話などのデバイスで Intelligent Speech Interaction サービスを呼び出す場合は、サーバーからアクセストークンを取得してデバイスに送信できます。これにより、AccessKey ペアが公開されるのを防ぎます。

中間結果

Intelligent Speech Interaction サービスを呼び出すときに、中間結果を返すかどうかを指定できます。

  • 関連パラメータが false に設定されている場合、サーバーは認識タスクが完了した後にのみ最終結果を返します。

  • 関連パラメータが true に設定されている場合、サーバーは認識タスクが完了した後に最終結果を返し、話している間にも中間結果を返します。

音声データの認識タスクの最終結果が「こんにちは Alibaba Group へようこそ」であるとします。中間結果を有効にすると、話している間にサーバーは次の結果を返す場合があります。

Hello
Hello welcome
Hello welcome to
Hello welcome to Alibaba
Hello welcome to Alibaba Group
説明

  • サーバーは、現在の中間結果を返すときに、以前の中間結果を修正する場合があります。

  • 現在の中間結果が、以前の中間結果よりも常に 1 語多いとは限りません。増分単語の数は固定されていません。

task_id

タスク ID は Alibaba Cloud SDK によって生成され、各呼び出しリクエストに発行されます。各タスクには一意のタスク ID があります。エラーが発生した場合は、タスク ID を使用してトラブルシューティングを行うことができます。