すべてのプロダクト
Search
ドキュメントセンター

Intelligent Media Services:UI との統合ソリューション

最終更新日:Jun 25, 2025

このトピックでは、UI コンポーネントを提供する AI リアルタイムインタラクションソリューションについて説明します。

概要

このソリューションは AICallKit SDK に基づいており、音声およびビデオ アプリケーション用の UI コンポーネントを提供します。ビジネス要件に基づいて AUI Kits の機能モジュールを柔軟に再利用して、リアルタイムのインタラクティブな AI をアプリに迅速に導入できます。このソリューションは、AI リアルタイムインタラクションシナリオを効率的かつ迅速に構築したい企業や開発者を対象としています。AUI Kits の機能モジュールは、開発時間とコストを大幅に削減し、アプリの品質と安定性を確保します。AI リアルタイムインタラクション用の AUI Kits を統合する方法の詳細については、以下のトピックをご参照ください。

サーバー側の開発の詳細については、「サーバー側の統合」および「API の説明」をご参照ください。

機能

機能

説明

リアルタイムワークフロー

GUI でインテリジェントエージェントのワークフローを柔軟に調整します。

  • 音声テキスト変換

    • Alibaba Cloud Qwen が統合され、音声テキスト変換機能が実装されています。

    • iFLYTEK の音声テキスト変換機能をサードパーティ製プラグインとして統合できます。

  • テキスト音声合成

    • Alibaba Cloud Qwen が統合され、音声合成機能が実装されています。

    • 標準プロトコルに基づいて、AI リアルタイムインタラクションを独自開発の音声合成モジュールに接続できます。

    • MiniMax の音声機能をサードパーティ製プラグインとして統合できます。

  • テキスト生成用 LLM

    • Alibaba Cloud Qwen が統合され、LLM 機能が提供されています。

    • Alibaba Cloud Model Studio の AI モデルを選択できます。

    • OpenAPI または Alibaba Cloud の仕様に基づいて、AI リアルタイムインタラクションを独自開発の LLM に接続できます。

  • アバター

    • Faceunity のアバター機能をサードパーティ製プラグインとして統合できます。

  • ビデオフレーム抽出

  • マルチモーダル LLM

    • Alibaba Cloud Qwen がプリセットされています。

    • OpenAPI 仕様に基づいて、AI リアルタイムインタラクションを独自開発の LLM に接続できます。

カスタムプロファイル

作成した AI エージェントの画像をアップロードします。画像は音声通話中に表示されます。

感情認識

ユーザーの感情を認識し、共感的な応答を生成します。

ウェルカムメッセージ

Intelligent Media Services (IMS) コンソールでウェルカムメッセージを設定します。ユーザーが会話を開始すると、エージェントはウェルカムメッセージをブロードキャストします。

プロアクティブブロードキャスト

OpenAPI を使用してエージェントがユーザーに音声およびビデオコンテンツをプロアクティブにプッシュできるように、ビジネスサーバーを設定します。

ライブ字幕

ユーザーとエージェントの間の会話の内容をユーザーインターフェースにリアルタイムで表示できます。

インテリジェントノイズリダクション

会話中にユーザー側のノイズを自動的に除去します。複数のユーザーが同時に話している場合、音量が最も大きい音声が優先的に収集されます。

インテリジェントな割り込み

ユーザーの会話の割り込み意図を認識します。

インテリジェントな文分割

長文や複雑な文を自動的に識別して分割し、テキストの可読性とユーザーエクスペリエンスを向上させます。

インターホンモード

ユーザーは、通話の開始時または通話中に通話モードをインターホンモードに設定し、ボタンを押すことでインテリジェントエージェントと対話できます。

ASR ホットワード

ビジネス関連のホットワードを定義して、インテリジェントエージェントの音声認識精度を向上させることができます。

ボイスプリントベースのノイズ抑制

複数話者シナリオでは、インテリジェントエージェントが主要話者のボイスプリント特性を識別して音声を正確に捉え、バックグラウンドノイズによる干渉を最小限に抑えることができます。

人間の介入

インテリジェントエージェントが能力を超える状況に遭遇した場合、または重要な意思決定が必要な場合、人間のエージェントがユーザーとの会話を引き継ぐことができます。

グレースフルシャットダウン

ビジネスサーバーがインテリジェントエージェントを停止すると、ビジネスサーバーはインテリジェントエージェントが現在の文を完了できるようにします。これにより、会話が突然中断されるのを防ぎます。

データアーカイブ

インテリジェントエージェントとユーザーの間の会話はテキストに変換されて保存されます。API 操作を呼び出してデータを使用できます。さらに、インテリジェントエージェントとユーザーの間の通話の音声およびビデオデータを Object Storage Service (OSS) または ApsaraVideo VOD に保存できます。