すべてのプロダクト
Search
ドキュメントセンター

Intelligent Media Services:概要

最終更新日:Dec 26, 2025

リアルタイム対話型 AI は、AI エージェントとユーザー間の効率的な音声・映像インタラクションを可能にします。

はじめに

リアルタイム対話型 AI は、企業が人間と AI のインタラクションのためのアプリケーションを構築できるようにするソリューションです。コンソールで 10 分以内に人間のようなエージェントを作成できます。エージェントは、グローバルリアルタイム伝送ネットワーク (GRTN) を通じてエンドユーザーと通信し、オンラインカスタマーサービス、AI アシスタント、AI コンパニオン、マッチングアシスタント、バーチャル教師など、さまざまなシナリオに適しています。

機能

AI エージェントは、エンドユーザーと対話する仮想ユーザーです。さまざまなビジネスシナリオに対応するために、複数のタイプのワークフローが利用可能です。

音声/ビデオ通話

音声通話

ユーザーは音声を通じてインテリジェントアシスタントと通信します。

555d2e763e3c49c23ac59cb7060d2a44

アバター通話

ユーザーはアバターとビデオ通話ができ、よりリアルなインタラクションを提供します。

lQDPJwMuwU90JFXNC6zNBaCwNbn8uKeIjbgHiTmd5-WQAA_1440_2988

ビジョン通話

エージェントは音声とカメラの映像に基づいてフィードバックを提供します。

lQDPJwpRBT4ppFXNC6zNBaCwzODP1_m-L7MHiTmc7Nh_AA_1440_2988

ビデオ通話

アバターは双方向のビデオ通話を通じてエンドユーザーと通信します。

image

音声通話を例に取ります。

音声通話ワークフローを作成するには、以下の 3 つのノードを設定するだけです。

image

メッセージング

ユーザーは音声またはテキストメッセージを通じてエージェントと通信します。

lQDPKHl9TD29I1XNC6zNBaCwklTx59f8apsHiTmbKaTPAA_1440_2988

image

インタラクティブメッセージングについては、以下のノードを設定します。

image

新機能

セマンティックエンドポインティング

AI が応答する最適なタイミングを判断します。

AI は会話の文脈に基づいてユーザーが話し終えたかどうかをインテリジェントに判断し、自然な間での割り込みを防ぎます。Alibaba Cloud のセマンティックエンドポインティング技術により、低遅延で最大 95% の精度で自然なインタラクションを実現します。

AI 音響 V2.5

ノイズの多い環境での全二重会話。

AI 音響 V2.5 が利用可能です。V2.0 と比較して、遠距離の人の声からの干渉を低減し、オフィス、カフェテリア、ショッピングモール、路上など、さまざまなシナリオでスムーズな全二重会話を可能にします。

用語

SessionId

SessionId は開発者によって定義されます。チャットレコードの一意の識別子として設定することを推奨します。使用例:

  • ユーザー関連付け:ユーザーがモバイルまたは PC で AI エージェントとチャットする場合、SessionId は異なる時間の会話をリンクできます。

  • セッション関連付け:ユーザーが複数のセッションを開始する場合、SessionId を使用してそれらを分離できます。

メッセージング

エージェントが音声またはテキストメッセージを通じてユーザーと対話するワークフローです。

音声通話

ユーザーが音声を通じてエージェントと対話し、タイムリーなフィードバックとサービスサポートを得るワークフローです。

アバター通話

ユーザーが、豊かな身体の動きと表情を持つ仮想キャラクターを持つエージェントと対話するワークフローです。これにより、会話の信憑性とユーザーエンゲージメントが向上します。

ビジョン通話

MLLM ベースのエージェントが、ユーザーの音声入力とカメラフィードに基づいてフィードバックを提供するワークフローです。これにより、ユーザーはより直感的で効率的、かつパーソナライズされたインタラクション体験を得ることができ、従来の音声またはテキスト通信の限界を打ち破ります。

ビデオ通話

アバター通話ビジョン通話の利点を組み合わせ、ユーザーがエージェントと双方向のビデオ通話を行えるようにするワークフローです。アバターはカメラフィードを理解し、フィードバックを提供することで、インタラクションと信憑性を高めます。

インタラクティブメッセージ (IM)

ApsaraVideo Live の付加価値サービスで、ライブルームでのメッセージ通信を強化し、インタラクティブな体験を向上させます。

ApsaraVideo Real-time Communication (ARTC)

ApsaraVideo Live の付加価値サービスで、高度なマルチメディア技術と世界中の 3,200 以上の POP (point of presence) に基づいて、安定した高品質、低遅延のインタラクティブストリーミングサービスを提供します。Web Real-Time Communication (WebRTC) 技術が、リアルタイムの人間と AI の通信に使用されます。

詳細については、「ARTC の概要」をご参照ください。

リアルタイムワークフロー

ワークフローは一連のノードで構成され、各ノードは音声テキスト変換 (STT)、音声合成 (TTS)、大規模言語モデル (LLM)、自己管理型ベクトルデータベースなどのタスク専用です。プラグインやドラッグアンドドロップ方式でノードを柔軟に編成できます。AI エージェントは、構造化されたワークフローに従ってエンドユーザーと対話します。

AI エージェント

AI エージェントは、エンドユーザーと対話する人間のような仮想ユーザーです。1 つ作成するか、デフォルトのエージェントを使用できます。

メリット

  • 世界中での高可用性と低遅延

    Alibaba Cloud のグローバルリアルタイム伝送ネットワーク (GRTN) に依存し、世界中の 3,200 以上の POP をカバーし、サービス品質 (QoS) の最適化により、ユーザーは世界中のどこからでもエージェントと対話できます。

  • 簡単なアクセスとデバッグ

    STT サービス、LLM、音声合成サービス、自己開発のベクトルデータベースなどの AI コンポーネントをプラグインとしてワークフローに統合し、ビジネスソリューションを迅速に開発およびデバッグできます。

  • 非常に人間らしい

    Alibaba Cloud は、スマートノイズリダクション、インテリジェント割り込み、インテリジェントな文分割などの機能を継続的に反復および最適化し、AI エージェントをより人間らしく振る舞わせます。

  • 簡単な統合

    Alibaba Cloud は、さまざまなシナリオ下でのアプリケーション構築要件を満たすために、4 つの統合方法を提供します。

仕組み

次の図は、リアルタイム対話型 AI の仕組みを示しています。

image

  1. ユーザーは、クライアント SDK を使用して、クラウドでホストされている AI エージェントにリアルタイムの音声またはビデオ通話リクエストを開始します。

  2. エージェントがユーザーからリクエストを受信すると、ワークフローが開始され、AI の応答が生成されます。

  3. エージェントは、応答を含む音声またはビデオストリームを ARTC ネットワークに取り込みます。ユーザーは再生のためにストリームをサブスクライブします。ユーザーとエージェント間の会話が確立されます。

機能

機能

説明

リアルタイムワークフロー

コンソールでワークフローを編成できます。ワークフローには次のノードが含まれる場合があります。

  • 音声テキスト変換:Alibaba Cloud Qwen モデルが統合されています。

  • 音声合成

    • Alibaba Cloud Qwen モデルが統合されています。

    • 自己開発の音声合成モジュールを標準プロトコルに基づいて統合できます。

    • MiniMax のモデルをサードパーティのプラグインとして統合できます。

  • LLM

    • Alibaba Cloud Qwen モデルが統合されています。

    • Alibaba Cloud Model Studio の AI モデルを統合できます。

    • 自己開発の LLM を OpenAI 仕様に基づいて統合できます。

  • アバター

    • Faceunity または Alibaba Cloud Model Studio のアバターを統合できます。

  • ビデオフレーム抽出

    • モデルが理解できるように、カメラフィードからフレームを抽出します。

  • マルチモーダル LLM (MLLM)

    • Alibaba Cloud Qwen モデルが統合されています。

    • 自己開発の MLLM を OpenAI 仕様に基づいて統合できます。

カスタムエージェントプロファイル

AI エージェントの画像をアップロードします。画像は音声通話中に表示されます。

感情認識

ユーザーの感情を認識し、共感的な応答を生成します。

ウェルカムメッセージ

IMS コンソールでウェルカムメッセージを設定します。ユーザーが会話を開始すると、エージェントは最初にウェルカムメッセージをブロードキャストします。

プロアクティブメッセージ

ビジネスサーバーを設定して、エージェントが OpenAPI を使用してユーザーに音声およびビデオコンテンツをプロアクティブにプッシュできるようにします。

ライブ字幕

会話内容はユーザーインターフェースにリアルタイムで表示できます。

インテリジェントノイズリダクション

会話中にユーザー側のノイズを自動的にフィルタリングします。複数のユーザーが同時に話している場合、最も音量の大きい音声が優先的に収集されます。

インテリジェント割り込み

ユーザーの会話割り込みの意図を認識します。

インテリジェントな文分割

長い文や複雑な文を自動的に識別して分割し、テキストの読みやすさとユーザーエクスペリエンスを向上させます。

音声文コールバック

このコールバックをコンソールで設定して、音声データを Object Storage Service (OSS) に保存できます。

プッシュツートークモード

ユーザーは、通話の開始時または通話中に通話モードをプッシュツートークモードに設定し、ボタンを押してエージェントと対話できます。

ASR ホットワード

ビジネス関連のホットワードを定義して、インテリジェントエージェントの音声認識精度を向上させることができます。

ボイスプリントベースのノイズ抑制

複数の話者がいるシナリオで、エージェントは主話者のボイスプリント特性を識別して、その発話を正確にキャプチャし、バックグラウンドノイズからの干渉を最小限に抑えることができます。

オペレーター介入

エージェントが能力を超える状況に遭遇した場合や、重要な意思決定が必要な場合に、人間のエージェントがユーザーとの会話を引き継ぐことができます。

グレースフルシャットダウン

ビジネスサーバーがエージェントを停止すると、エージェントは現在の文を完了できます。これにより、会話の突然の中断を防ぎます。

データアーカイブ

エージェントとユーザー間の会話は、保存のためにテキストに変換されます。API 操作を呼び出してデータを消費できます。さらに、通話の音声およびビデオデータを OSS または ApsaraVideo VOD に保存できます。

課金

リアルタイム対話型 AI はパブリックプレビュー中であり、料金は発生しません。

よくある質問

お問い合わせ

詳細情報や技術サポートについては、DingTalk グループ (ID: 106730016696) に参加してお問い合わせください。