概要 - Intelligent Speech Interaction (ISI)

Alibaba Cloud Intelligent Speech Interaction へようこそ。

Intelligent Speech Interaction は、以下のサービスと機能を提供します。

リアルタイム音声認識: 長時間続く音声データストリームを認識します。このサービスは、会議のスピーチやライブストリーミングなどの途切れない音声認識シナリオに適用されます。

短文認識: 1 分以内の短い音声を認識します。このサービスは、チャットの会話や音声コマンド制御などの短い音声認識シナリオに適用されます。
録音ファイル認識: アップロードした録音ファイルを認識します。このサービスは、リアルタイム認識が不要なシナリオに適用されます。
音声合成: テキストを自然な音声に変換します。このサービスは、さまざまな言語、方言、音声のさまざまな話者を提供します。ビジネス要件に基づいて、合成音声の話者を指定できます。このサービスは、インテリジェントカスタマーサービスやアウトバウンド音声通話などの仮想会話シナリオに適用されます。
長文音声合成: 最大 100,000 文字の長文を自然な音声に変換します。このサービスは、さまざまな言語、方言、音声のさまざまな話者を提供します。ビジネス要件に基づいて、合成音声の話者を指定できます。さらに、合成音声をキャッシュして再利用することもできます。このサービスは、文献やニュースをシステムに読み上げてもらう必要があるシナリオに適用されます。

セルフラーニングプラットフォーム: ホットワードトレーニングとカスタム言語モデルを提供して、前述の認識サービスの認識効果を向上させるのに役立ちます。

クイックスタートドキュメントでは、Intelligent Speech Interaction の有効化、プロジェクトの作成、SDK を実行して Intelligent Speech Interaction サービスを呼び出すためのガイドラインを提供します。このドキュメントのトピックは、次の順序で読むことをお勧めします。