すべてのプロダクト
Search
ドキュメントセンター

Intelligent Media Services:概要

最終更新日:Jun 26, 2025

リアルタイム対話型 AI は、AI エージェントとユーザー間の効率的な音声およびビデオインタラクションを実現します。

はじめに

リアルタイム対話型 AI は、企業が人間と AI のインタラクションのためのアプリケーションを構築できるようにするソリューションです。 10 分以内にコンソールで人間のようなエージェントを作成できます。 エージェントは、グローバルリアルタイム転送ネットワーク (GRTN) を介してエンドユーザーと通信し、オンラインカスタマーサービス、AI アシスタント、AI コンパニオン、マッチメイキングアシスタント、仮想教師など、さまざまなシナリオに適しています。

機能

AI エージェントは、エンドユーザーと対話する仮想ユーザーです。 さまざまなビジネスシナリオに対応するために、エージェントに 5 つのタイプのワークフローを設定できます。

音声およびビデオ通話

音声通話

ユーザーは音声でインテリジェントアシスタントと通信します。

555d2e763e3c49c23ac59cb7060d2a44

アバター通話

ユーザーはアバターとビデオ通話を行うことができ、よりリアルなインタラクションを提供します。

lQDPJwMuwU90JFXNC6zNBaCwNbn8uKeIjbgHiTmd5-WQAA_1440_2988

ビジョン通話

エージェントは、音声とカメラフィードに基づいてフィードバックを提供します。

lQDPJwpRBT4ppFXNC6zNBaCwzODP1_m-L7MHiTmc7Nh_AA_1440_2988

ビデオ通話

アバターは双方向ビデオ通話を通じてエンドユーザーと通信します。

image

音声通話 を例にとります。

音声通話ワークフローを作成するには、次の 3 つのノードを設定するだけで済みます。

image

メッセージング

ユーザーは音声またはテキストメッセージを介してエージェントと通信します。

lQDPKHl9TD29I1XNC6zNBaCwklTx59f8apsHiTmbKaTPAA_1440_2988

image

メッセージ会話 の場合は、次のノードを設定します。

image

これらの機能を試すための デモ を提供しています。

用語

SessionId

SessionId は開発者によって定義されます。 チャットレコードの一意の識別子として設定することをお勧めします。 使用例:

  • ユーザー関連:ユーザーがモバイルまたは PC で AI エージェントとチャットする場合、SessionId は異なる時間帯の会話をリンクできます。

  • セッション関連:ユーザーが複数のセッションを開始する場合、SessionId を使用してそれらを区別できます。

メッセージング

エージェントが音声またはテキストメッセージを介してユーザーと対話するワークフロー。

音声通話

ユーザーが音声でエージェントと対話して、タイムリーなフィードバックとサービスサポートを得るワークフロー。

アバター通話

ユーザーが豊かな体の動きと表情を持つ仮想キャラクターを持つエージェントと対話するワークフロー。 これにより、会話の信憑性とユーザーエンゲージメントが向上します。

ビジョン通話

MLLM ベースのエージェントがユーザーの音声入力とカメラフィードに基づいてフィードバックを提供するワークフロー。 これにより、ユーザーは、従来の音声またはテキストコミュニケーションの制限を超えて、より直感的で効率的、かつパーソナライズされたインタラクションエクスペリエンスを得ることができます。

ビデオ通話

アバタービジョン通話 の利点を組み合わせて、ユーザーがエージェントと双方向ビデオ通話を行うことができるワークフロー。 アバターはカメラフィードを理解してフィードバックを提供できるため、インタラクションと信憑性が向上します。

インタラクティブメッセージ (IM)

ライブルームでのメッセージコミュニケーションを強化し、インタラクティブエクスペリエンスを向上させる ApsaraVideo Live の付加価値サービス。

ApsaraVideo Real-time Communication (ARTC)

高度なマルチメディア技術と世界中の 3,200 を超える拠点に基づいて、安定した高品質で低レイテンシのインタラクティブストリーミングサービスを提供する ApsaraVideo Live の付加価値サービス。 Web Real-Time Communication (WebRTC) 技術は、リアルタイムの人間と AI のコミュニケーションに使用されます。

詳細については、「ARTC の概要」をご参照ください。

リアルタイムワークフロー

ワークフローは一連のノードで構成され、各ノードは音声テキスト変換 (STT)、テキスト音声変換 (TTS)、LLM、セルフマネージドベクターデータベースなどのタスク専用です。 プラグイン方式とドラッグアンドドロップ方式でノードを柔軟に調整できます。 AI エージェントは構造化されたワークフローに従ってエンドユーザーと対話します。

AI エージェント

AI エージェントは、エンドユーザーと対話する人間のような仮想ユーザーです。 作成することも、デフォルトのエージェントを使用することもできます。

メリット

  • 世界中で高可用性と低レイテンシ

    世界中で 3,200 以上の POP をカバーし、サービス品質 (QoS) が最適化された Alibaba Cloud のグローバルリアルタイム転送ネットワーク (GRTN) により、ユーザーはどこからでもエージェントと対話できます。

  • 簡単なアクセスとデバッグ

    STT サービス、LLM、音声合成サービス、自社開発のベクターデータベースなどの AI コンポーネントをプラグインとしてワークフローに統合して、ビジネスソリューションを迅速に開発およびデバッグできます。

  • 人間らしさ

    Alibaba Cloud は、スマートノイズリダクション、インテリジェントな割り込み、インテリジェントな文分割などの機能を継続的に反復および最適化して、AI エージェントの動作をより人間らしくしています。

  • 簡単な統合

    Alibaba Cloud は、さまざまなシナリオでのアプリケーション構築要件を満たすために、4 つの統合方法を提供しています。

仕組みに関する説明

次の図は、リアルタイム対話型 AI の仕組みを示しています。

image

  1. ユーザーは、クライアント SDK を使用して、クラウドホスト型 AI エージェントにリアルタイムの音声またはビデオ通話リクエストを開始します。

  2. エージェントがユーザーからのリクエストを受信すると、ワークフローが開始され、AI 応答が生成されます。

  3. エージェントは、応答を含む音声またはビデオストリームを ARTC ネットワークに取り込みます。 ユーザーは再生のためにストリームをサブスクライブします。 ユーザーとエージェント間の会話が確立されます。

機能

機能

説明

リアルタイムワークフロー

コンソールでワークフローを調整できます。 ワークフローには、次のノードが含まれる場合があります。

  • 音声テキスト変換:Alibaba Cloud Qwen モデルが統合されています。

  • テキスト音声変換

    • Alibaba Cloud Qwen モデルが統合されています。

    • 標準プロトコルに基づいて、自社開発の音声合成モジュールを統合できます。

    • MiniMax のモデルをサードパーティプラグインとして統合できます。

  • LLM

    • Alibaba Cloud Qwen モデルが統合されています。

    • Alibaba Cloud Model Studio の AI モデルを統合できます。

    • OpenAI 標準に基づいて、自社開発の LLM を統合できます。

  • アバター

    • Faceunity または Alibaba Cloud Model Studio のアバターを統合できます。

  • ビデオフレーム抽出

    • モデルの理解のためにカメラフィードからフレームを抽出します。

  • マルチモーダル LLM (MLLM)

    • Alibaba Cloud Qwen モデルが統合されています。

    • OpenAI 標準に基づいて、自社開発の MLLM を統合できます。

カスタムエージェントプロファイル

AI エージェントの画像をアップロードします。 画像は音声通話中に表示されます。

感情認識

ユーザーの感情を認識し、共感的な応答を生成します。

ウェルカムメッセージ

IMS コンソールでウェルカムメッセージを設定します。 ユーザーが会話を開始すると、エージェントは最初にウェルカムメッセージをブロードキャストします。

プロアクティブメッセージ

エージェントが OpenAPI を使用してユーザーに音声およびビデオコンテンツを積極的にプッシュできるように、ビジネサーバーを設定します。

ライブ字幕

会話の内容はユーザーインターフェースにリアルタイムで表示できます。

インテリジェントノイズリダクション

会話中にユーザー側のノイズを自動的にフィルタリングします。 複数のユーザーが同時に話している場合、音量が最も大きい音声が優先的に収集されます。

インテリジェントな割り込み

ユーザーの会話の割り込み意図を認識します。

インテリジェントな文分割

長文や複雑な文を自動的に識別して分割し、テキストの読みやすさとユーザーエクスペリエンスを向上させます。

音声文コールバック

コンソールでこのコールバックを設定して、音声データを Object Storage Service (OSS) に保存できます。

プッシュツートークモード

ユーザーは、通話の開始時または通話中に通話モードをプッシュツートークモードに設定し、ボタンを押すことでエージェントと対話できます。

ASR ホットワード

ビジネス関連のホットワードを定義して、インテリジェントエージェントの音声認識精度を向上させることができます。

ボイスプリントベースのノイズ抑制

複数話者シナリオでは、エージェントはメイン話者のボイスプリント特性を識別して、音声を正確にキャプチャし、バックグラウンドノイズによる干渉を最小限に抑えることができます。

人間の引き継ぎ

エージェントが能力を超える状況に遭遇した場合、または重要な意思決定が必要な場合、人間のエージェントがユーザーとの会話を引き継ぐことができます。

グレースフルシャットダウン

ビジネサーバーがエージェントを停止すると、エージェントは現在の文を完了できます。 これにより、会話の突然の割り込みを防ぎます。

データアーカイブ

エージェントとユーザー間の会話はテキストに変換されて保存されます。 API 操作を呼び出してデータを使用できます。 また、通話の音声およびビデオデータを OSS または ApsaraVideo VOD に保存することもできます。

Billing

リアルタイム対話型 AI はパブリックプレビュー中で、料金は発生しません。

FAQ

お問い合わせ

詳細情報とテクニカルサポートについては、DingTalk グループ (ID: 106730016696) に参加してお問い合わせください。