リアルタイム対話型 AI は、AI とユーザー間の効率的な音声およびビデオインタラクションを可能にします。このドキュメントでは、その機能と利点について説明します。
製品紹介
リアルタイム対話型 AI は、企業が AI とユーザー間のインタラクションのための音声およびビデオ通話アプリケーションを迅速に構築するのに役立つソリューションです。視覚的な構成インターフェイスを使用すると、わずか 10 分でカスタム AI エージェントを作成できます。エージェントは、ApsaraVideo 通信ネットワークを介してエンドユーザーとリアルタイムで対話できます。このソリューションは、オンラインカスタマーサービス、AI アシスタント、AI コンパニオン、マッチメイキングアシスタント、バーチャル教師など、さまざまなシナリオに適しています。これにより、リアルタイム対話型 AI 機能を迅速に構築できます。
機能
リアルタイム対話型 AI では、AI エージェントは非常にリアルなクラウドベースのエンティティです。ユーザーとの 音声およびビデオ通話 および チャットメッセージ 用に設計されています。さまざまなインタラクションのニーズを満たすために、エージェントのワークフローを構成して、次の機能を有効にすることができます。
音声およびビデオ通話
音声通話 ユーザーはスマートアシスタントと話します。
| デジタルヒューマン通話 ユーザーはビデオを介してデジタルヒューマンと対話し、ユーザーエクスペリエンスのリアリズムを高めます。
| 視覚理解通話 エージェントは、ビデオインタラクション中に音声とビデオの両方に基づいてフィードバックを提供します。
| ビデオ通話 デジタルヒューマンは、視覚理解を使用してユーザーとの双方向ビデオ通話を行います。 |
例については、「音声およびビデオ通話のクイックスタート」をご参照ください。 音声通話ワークフローを作成するには、次の 3 つのノードを構成するだけです。
| |||
チャットメッセージ
チャットダイアログボックスで音声またはテキストを介してエージェントと直接通信できます。
|
|
例として、「チャットメッセージのクイックスタート」を取り上げます。 チャットメッセージセッションを作成するには、次のフローを構成するだけです。
| |
最新リリース
ロスレス音声エンドポイント検出AI は人間よりも話すタイミングをよく知っています。 AI は会話のコンテキストに基づいてユーザーが話し終えたかどうかをインテリジェントに判断します。これにより、一時停止による中断を防ぎます。この機能は、Alibaba Cloud のセマンティック文分割技術に基づいており、低遅延で最大 95% の精度で自然な対話を実現します。 | AI Acoustics V2.5騒がしい環境での全二重会話。 AI Acoustics V2.5 は、V2.0 と比較して遠距離の人の声の干渉を大幅に削減します。オフィス、カフェテリア、ショッピングモール、路上など、さまざまな環境でスムーズな全二重会話をサポートします。 | AI 電話通話のサポート電話回線と RTC で一貫した通話体験。 AI 音声エージェントは電話通話をサポートするようになり、RTC と電話回線の両方のビジネスニーズに対応します。単一のエージェントで複数の回線をサポートできます。これにより、企業は単一のシステムを維持して、複数の回線で AI 通話を有効にすることができます。 |
用語
SessionId | SessionId は開発者によって定義されます。チャットレコードの一意の識別子として使用します。例:
|
チャットメッセージ | ユーザーは、チャットダイアログボックスで音声またはテキストを介してエージェントと対話できます。これにより、双方が迅速にアイデアを共有したり、質問したり、情報を得たりすることができます。 |
音声通話 | ユーザーは、音声でスマートアシスタントと対話し、タイムリーな情報とサポートを得ることができます。 |
3D デジタルヒューマン通話 | この機能は、3D 技術を使用して仮想キャラクターをシミュレートし、対話を行います。3D デジタルヒューマンは、音声対話だけでなく、豊かな身体の動きや表情でユーザーエクスペリエンスのリアリズムとエンゲージメントを高めることができます。 |
視覚的理解の呼び出し | これは、ビデオとオーディオを組み合わせた新しいタイプのインタラクションです。カメラからのビデオフィードをリアルタイムで分析し、ユーザーの音声コマンドと組み合わせることができます。マルチモーダルインタラクションを通じて正確なフィードバックを提供します。これにより、従来の音声やテキスト通信の限界を打ち破り、通話中により直感的で効率的、かつパーソナライズされたスマートインタラクション体験をユーザーに提供します。 |
ビデオ通話 | この機能は、デジタルヒューマン と 視覚理解 の利点を組み合わせたものです。ユーザーがデジタルヒューマンとビデオ通話を行うと、デジタルヒューマンとユーザーの両方のビデオフィードが表示されます。デジタルヒューマンは、ユーザーのビデオフィードを理解してフィードバックを提供し、インタラクションとリアリズムの感覚を高めます。 |
インタラクティブメッセージ | インタラクティブメッセージは、ユーザー間のメッセージコミュニケーションを強化し、インタラクティブな体験を向上させるために使用されるサービスです。 |
ApsaraVideo Real-time Communication (ARTC) | ユーザーが AI エージェントとリアルタイムの音声またはビデオ通話を行う場合、Web Real-Time Communication (WebRTC) 技術が必要です。Alibaba Cloud リアルタイム音声・映像 (ARTC) は、3,200 を超えるグローバルノードと長年の音声・映像技術の経験に依存しています。高可用性 (HA)、高品質、超低遅延の音声・映像通信サービスをユーザーに提供します。詳細については、「リアルタイム音声・映像の概要」をご参照ください。 |
リアルタイムワークフロー | リアルタイムワークフローは、AI エージェントの主要なコンポーネントです。プラグインやドラッグアンドドロップ操作を使用して、音声テキスト変換、大規模言語モデル、音声合成、自社開発のベクトルデータベースなど、さまざまな AI コンポーネントを柔軟にオーケストレーションできます。AI エージェントは、事前定義されたワークフローに従って動作します。 |
AI エージェント | AI エージェントは、リアルタイム対話型 AI ソリューションで定義された、非常にリアルなクラウドベースのユーザーです。AI エージェントは、システムによって事前構成することも、ユーザーが作成することもできます。音声とビデオを介してエンドユーザーと直接対話できます。 |
メリット
グローバルな高可用性と低遅延: Alibaba Cloud のリアルタイム音声・映像 (ARTC) ネットワーク上に構築され、3,200 を超えるグローバルノードとサービス品質 (QoS) の最適化により、ユーザーは世界中のどこからでも AI エージェントとスムーズな音声およびビデオ通話を行うことができます。
接続とデバッグが簡単: 音声テキスト変換、大規模言語モデル、音声合成、自社開発のベクトルデータベースなどの AI コンポーネントをプラグインとしてワークフローに統合できます。これにより、ビジネスを迅速に立ち上げ、技術ソリューション全体を簡単にデバッグできます。
人間らしさの追求: Alibaba Cloud は、インテリジェントなノイズリダクション、インテリジェントな割り込み、インテリジェントな文分割などの機能を継続的に反復および最適化し、エージェントの対話的な動作をより人間らしくします。
統合が容易: Alibaba Cloud は、リアルタイム対話型 AI システムを構築するための 4 つの統合メソッドを提供します。これにより、さまざまなシナリオや要件に応じたアプリケーション構築のニーズに対応します。
仕組みに関する説明

ユーザーは、クライアント SDK を介して、クラウドベースの AI エージェントとのリアルタイム音声またはビデオ通話を開始します。
ユーザーの音声およびビデオ入力を受信した後、AI エージェントはワークフローを開始し、応答を生成します。
AI エージェントは、応答の音声およびビデオストリームを ARTC ネットワークにプッシュします。ユーザーはこのストリームをサブスクライブして再生し、AI エージェントとの会話を完了できます。
機能
機能 | 説明 |
リアルタイムワークフロー | ノーコードインターフェイスを使用して、AI エージェントのワークフローを柔軟にオーケストレーションできます。
|
カスタムエージェントアバター | 作成したエージェントの画像をアップロードできます。この画像は、音声通話シナリオでエージェントのアバターとして表示されます。 |
エージェントの感情認識 | エージェントはユーザーの現在の感情を認識し、感情的な色彩で応答できます。 |
ウェルカムメッセージ | コンソールでウェルカムメッセージの内容を構成できます。ユーザーが AI エージェントとの会話を開始すると、エージェントはウェルカムメッセージを再生します。 |
プロアクティブ再生 | ビジネスサーバーは OpenAPI を使用して、エージェントに音声およびビデオコンテンツをユーザーに積極的に送信させることができます。 |
リアルタイム字幕 | ユーザーとエージェントの会話は、エンドユーザーのインターフェイスにリアルタイムで表示できます。 |
インテリジェントノイズリダクション | AI エージェントは、会話中にユーザー側のノイズを自動的にフィルタリングします。ユーザー側で複数の人が話している場合、エージェントは最も大きな声を優先します。 |
インテリジェントな割り込み | AI エージェントと話しているとき、エージェントはユーザーの割り込みの意図を効果的に認識できます。 |
インテリジェントな文分割 | エージェントは、長い文や複雑な文を自動的に認識して分割し、テキストの読みやすさとユーザーエクスペリエンスを向上させることができます。 |
文ごとの音声コールバック | コンソールでコールバックを構成して、リアルタイムの音声データを Object Storage Service (OSS) に保存できます。 |
トランシーバーモード | ユーザーは、起動時または通話中に通話モードをトランシーバーモードに設定できます。その後、ボタンを押すことでエージェントと対話できます。 |
ASR ホットワード | ビジネス関連のホットワードを定義して、AI エージェントの音声認識の精度を向上させることができます。 |
ボイスプリントノイズリダクション | 複数人での会話において、エージェントは主話者のボイスプリント特徴を識別します。これにより、他のノイズからの干渉を低減しながら、話者の声をより正確に捉えて保持することができます。 |
ライブエージェントによる引き継ぎ | ユーザーとエージェントの対話中に、対応できない状況や重要な決定が必要な場合、ライブエージェントが引き継いで決定を下すことができます。 |
グレースフルシャットダウン | ビジネスサーバーがエージェントを停止する必要がある場合、エージェントは現在の発話を終えてから停止することが許可されます。これにより、会話が突然中断されるのを防ぎます。 |
データアーカイブ | ユーザーと AI エージェントの会話はテキストに変換されて保存されます。企業は API 操作を呼び出してこのデータを使用できます。企業はまた、ユーザーと AI エージェント間の通話からの音声およびビデオデータを Object Storage Service (OSS) または ApsaraVideo VOD に保存することもできます。 |
Billing
リアルタイム対話型 AI は現在、期間限定の無料パブリックプレビュー中です。
FAQ
お問い合わせ
製品に関するお問い合わせやサポートについては、グループ ID 106730016696 を検索して、当社の DingTalk グループにご参加ください。







