すべてのプロダクト
Search
ドキュメントセンター

Intelligent Speech Interaction:インテリジェント音声対話とは

最終更新日:Jan 13, 2025

インテリジェント音声対話は、音声認識、音声合成、自然言語理解などの最先端技術に基づいて開発されています。インテリジェント音声対話を企業のアプリケーションに統合することで、アプリケーションがユーザーの音声を聞き取り、理解し、話すことを可能にします。これにより、ユーザーは没入型の人間とコンピューターのインタラクション体験を楽しむことができます。インテリジェント音声対話は、インテリジェント Q&A、インテリジェント品質検査、裁判のリアルタイム記録、スピーチのリアルタイム字幕作成、音声録音の書き起こしなど、さまざまなシナリオに適しています。インテリジェント音声対話は、金融、司法、eコマースなど、多くの分野に適用されています。

説明

インテリジェント音声対話 V2.0 がリリースされました。新しいバージョンでは、使いやすい SDK と、セルフラーニングプラットフォームなどの機能を使用して音声認識のパフォーマンスを向上させることができる機能豊富なコンソールが提供されます。インテリジェント音声対話をぜひご利用ください。

ビデオチュートリアル

短文認識

短文認識は、1 分以内の短い音声を認識します。このサービスは、音声検索、音声コマンド制御、音声ショートメッセージなどの短い音声対話シナリオに適用されます。また、さまざまなモバイルアプリ、スマートホーム家電、スマート音声アシスタントにも統合できます。詳細については、短文認識の概要をご参照ください。

リアルタイム音声認識

リアルタイム音声認識は、さまざまな長さのオーディオストリームをリアルタイムで認識し、発話と同時にテキストを出力する効果を実現します。インテリジェントな文分割の組み込み機能により、各文の開始時間と終了時間が認識されます。リアルタイム音声認識は、ライブビデオで字幕を作成する必要がある場合、会議や裁判を記録する場合、スマート音声アシスタントをリアルタイムで使用する必要がある場合などに適用されます。詳細については、リアルタイム音声認識のAPI リファレンスをご参照ください。

録音ファイル認識

録音ファイル認識は、アップロードした録音ファイルを認識します。このサービスは、コールセンターのオーディオ品質をチェックする必要がある場合、データベースに裁判を記録する場合、議事録を要約する場合、医療記録をファイルする場合などに適用されます。詳細については、録音ファイル認識のAPI リファレンスをご参照ください。

説明

無料トライアル版をご利用の場合、録音ファイルをアップロードしてから 24 時間以内に、システムは認識を完了し、音声データから変換されたテキストを返します。有料版をご利用の場合、録音ファイルをアップロードしてから 3 時間以内に、システムは認識を完了し、音声データから変換されたテキストを返します。ただし、30 分で 500 時間を超える録音ファイルなど、大量の音声データをアップロードした場合、システムが認識を完了するまでにさらに時間がかかります。一度に大量の音声データをテキストに変換する必要がある場合は、Alibaba Cloud のプリセールススタッフにお問い合わせください。

音声合成

音声合成は、ディープラーニング技術に基づいて開発されており、テキストを自然で流暢な音声に変換します。このサービスは複数の話者を提供し、生成された音声の速度、イントネーション、音量を調整できます。音声合成は、インテリジェントカスタマーサービス、音声対話、オーディオブックの読み上げ、アクセシブルな放送などのシナリオに適用されます。詳細については、音声合成の概要をご参照ください。

CosyVoice 基礎モデル 音声合成

CosyVoice 基礎モデル 音声合成は、事前学習済みの大規模言語モデル(LLM)に基づいてテキスト理解と音声生成を統合した新しい音声合成技術です。テキストコンテンツを正確に解析および解釈し、テキストを自然な音声に変換できます。

音声合成話者カスタマイズ(エンタープライズ版)

ディープラーニング技術に基づいて、音声合成話者カスタマイズサービスを使用すると、少量のトレーニングデータを使用して、高速で高性能なテキスト読み上げ(TTS)話者をカスタマイズできます。カスタム話者は、インテリジェント音声対話コンソールまたはスマートデバイスの両方で音声合成に使用できます。

話者をカスタマイズする必要がある場合、またはカスタマイズプロセスについて詳しく理解する必要がある場合は、nls_support@service.aliyun.com にメールを送信してください。

セルフラーニングプラットフォーム

セルフラーニングプラットフォームを使用すると、ホットワードトレーニングカスタム言語モデルを使用して音声認識のパフォーマンスを向上させることができます。ホットワードとして用語を追加したり、ビジネス固有のコーパスをアップロードして言語モデルをトレーニングしたりできます。司法や金融などの分野では、言語モデルをカスタマイズおよび最適化して、業界固有のシナリオにおける音声認識の精度を向上させることができます。

参考資料

  • スタートガイド:インテリジェント音声対話の使用方法について説明します。

  • 料金:インテリジェント音声対話の課金について説明します。

  • 開発者ガイド:インテリジェント音声対話に関連する用語について説明し、アクセストークンの取得方法など、インテリジェント音声対話の使用方法について詳しく説明します。

  • コンソールユーザーガイド:インテリジェント音声対話コンソールで提供される機能について説明します。

  • 音声サービスのドキュメント:短文認識、リアルタイム音声認識、録音ファイル認識、音声合成など、特定の音声サービスの使用方法について説明します。

  • セルフラーニングプラットフォーム:セルフラーニングプラットフォームで提供されるホットワードトレーニング機能とカスタム言語モデル機能を使用して音声認識のパフォーマンスを向上させる方法について説明します。

  • ベストプラクティス:インテリジェント音声対話を使用するためのベストプラクティスを提供します。

  • FAQ:インテリジェント音声対話に関するよくある質問への回答を提供します。