すべてのプロダクト
Search
ドキュメントセンター

Intelligent Speech Interaction:サービスの使用

最終更新日:Mar 19, 2025

このトピックでは、Intelligent Speech Interaction サービスの使用に関するよくある質問への回答を提供します。

appkey とは何ですか?

appkey は、プロジェクトで指定されたビジネスシナリオを識別するために使用されます。 Intelligent Speech Interaction サービスは、カスタマーサービスや司法シナリオなど、複数のビジネスシナリオで使用できます。 各シナリオでは、異なるサービス機能が必要です。 プロジェクトで最適な認識結果を得るには、appkey に関連付けられたプロジェクトで適切なシナリオを設定する必要があります。

音声認識のストリームモードと非ストリームモードの違いは何ですか?

非ストリームモードは、コモンモードとも呼ばれます。 コモンモードでは、話者が完全な文を話し終えたと判断するまで、サーバーは最終的な認識結果を返しません。 ストリームモードでは、サーバーは、文の終わりに最終的な認識結果を返す前に、話者が話している間に複数の中間結果を返します。

Intelligent Speech Interaction サービスでは、どのような音声コーディング形式がサポートされていますか?

Intelligent Speech Interaction サービスごとに、サポートされる音声コーディング形式が異なります。 詳細については、各 Intelligent Speech Interaction サービスの API リファレンスをご参照ください。 Audacity などの音声編集ソフトウェアを使用して、音声ファイルのコーディング形式を表示できます。

Intelligent Speech Interaction サービスでは、どのような音声サンプルレートがサポートされていますか?

Intelligent Speech Interaction サービスは、16 kHz および 8 kHz の音声サンプルレートのみをサポートしています。 音声データが 48 kHz などの異なるサンプルレートでサンプリングされている場合は、Intelligent Speech Interaction サービスを呼び出す前に、音声データを 16 kHz でリサンプリングすることをお勧めします。 音声ファイルと同じ音声サンプルレートを定義するプロジェクトの appkey を選択する必要があります。

音声ファイルのサンプルレートを表示するにはどうすればよいですか?

Audacity などの音声編集ソフトウェア、またはオープンソースのコマンドラインツール FFmpeg を使用して、音声ファイルの音声サンプルレートを表示できます。

Intelligent Speech Interaction をオフラインで使用できますか?

いいえ、Intelligent Speech Interaction サービスをオフラインで使用することはできません。 ローカルのオフライン音声認識はサポートされていません。 音声認識のために音声データをサーバーに送信する必要があります。

Intelligent Speech Interaction のエンドポイントはどれですか?

Intelligent Speech Interaction のエンドポイントは wss://nls-gateway.ap-southeast-1.aliyuncs.com/ws/v1 です。

Intelligent Speech Interaction サービスは、認識結果で禁止用語をブロックしますか?

いいえ、Intelligent Speech Interaction サービスはこの機能を提供していません。 認識結果は、取得後にビジネスニーズに合わせて処理できます。

Intelligent Speech Interaction サービスは英語の音声認識をサポートしていますか?

はい、Intelligent Speech Interaction サービスは英語の音声認識をサポートしています。 Intelligent Speech Interaction コンソールでプロジェクトを構成するときに、英語の言語認識モデルを選択します。 このモデルには、16 kHz の音声サンプルレートが必要です。

イギリス英語、アメリカ英語、中国語訛りの英語など、さまざまな英語のアクセントが認識されます。

Intelligent Speech Interaction サービスは方言認識をサポートしていますか?

はい、Intelligent Speech Interaction サービスは方言認識をサポートしています。 コンソールで方言モデルを設定します。 詳細については、「プロジェクトの管理」をご参照ください。

Intelligent Speech Interaction サービスは文の区切りを自動的に検出できますか?

はい、リアルタイム音声認識サービスは、リクエスト内の文の間に区切りを追加できます。 ただし、短文認識サービスは、各リクエストで1つの文のみを処理でき、文の区切りを追加することはできません。

各ユーザーに対する Intelligent Speech Interaction 試用版の制限は何ですか?

  • 短文認識サービスまたはリアルタイム音声認識サービスは、音声認識の同時呼び出しリクエストを最大 2 つサポートします。

  • 録音ファイル認識サービスは、1 暦日あたり最大 2 時間の録音ファイルを認識できます。

Intelligent Speech Interaction サービスのリクエストにおける音声の長さの制限は何ですか?

  • 短文認識サービスは、60 秒未満のリアルタイム音声に対応しています。

  • リアルタイム音声認識サービスは、リクエストの音声の長さを制限しません。

別のアクセストークンを取得した場合、既存のアクセストークンは無効になりますか?

いいえ、既存のアクセストークンは、新しく取得したアクセストークンの影響を受けません。 アクセストークンの有効性は、アクセストークンの有効期間を示すタイムスタンプによって異なります。 この有効期間は、他のアクセストークンの影響を受けません。

Intelligent Speech Interaction サービスにアクセスするための IP ホワイトリストを構成できますか?

いいえ、Intelligent Speech Interaction にアクセスするための IP ホワイトリストを構成することはできません。 音声認識サーバーの IP アドレスの範囲が広いため、Intelligent Speech Interaction は IP ホワイトリスト機能をサポートしていません。

リアルタイム音声認識サービスの認識の遅延とタイムアウトの問題を解決するにはどうすればよいですか?

これらの問題のトラブルシューティングを行うには、次の手順を実行します。

  1. Alibaba Cloud が提供するデモを実行し、デモの実行ステータスとサービスの実行ステータスを比較します。 比較結果を記録し、ログ情報を提供します。

  2. トラブルシューティングを容易にするために、リクエストのタスク ID を記録します。

  3. クライアントで Linux 用の tcpdump や Windows 用の Wireshark などのパケットキャプチャツールを使用して、ネットワークの状態を確認します。