このトピックでは、AICallKit SDK を使用して音声通話とビデオ通話に AI エージェントを統合する方法について説明します。
概要
AICallKit SDK は、AI エージェントとリアルタイムの音声およびビデオ機能を統合するためのローコード ソリューションを提供します。 企業は、アプリケーションで AI エージェントと通信する機能を迅速に構築できます。
メリット
迅速な統合と開発: AICallKit SDK は、事前に構築されたインターフェイスを提供するため、開発者は最小限のコーディングで AI リアルタイム インタラクションを実装できます。
クロスプラットフォーム サポート: iOS、Android、Web など、複数の主要なオペレーティング システムとプラットフォームと互換性のある AICallKit SDK を使用すると、開発者は統一された API を使用して、プラットフォーム間で一貫した機能とユーザー エクスペリエンスを実現できます。
豊富な機能: 基本的な通話機能に加えて、AICallKit SDK は、エージェント ステータス の表示、リアルタイム 字幕、インテリジェントな割り込みなど、さまざまな機能を提供します。これらの機能は、UI なし統合ソリューションを使用する場合に必要に応じて構成できます。
統合ソリューション
Alibaba Cloud は、AICallKit SDK を使用した 2 つの統合ソリューションを提供しています。
UI あり統合ソリューション: このローコード ソリューションには、音声およびビデオ アプリケーション用の UI コンポーネントが含まれています。 簡単な構成でデモを実行し、UI コンポーネントをプロジェクトに統合できます。
UI なし統合ソリューション: AICallKit SDK は、AI リアルタイム インタラクション機能をカプセル化して、AI エージェントとリアルタイムコミュニケーション (RTC) に関連する開発ワークロードを削減します。 このソリューションは、ユーザー インターフェイスをカスタマイズし、基盤となる実装を管理したくない場合に最適です。
AICallKit SDK の機能
機能 | 説明 | iOS & Android | Web |
音声通話 | ユーザーは AI エージェントと会話し、即時のフィードバックとサービスを得ることができます。 | ✔️ | ✔️ |
アバター通話 | ユーザーはアバターとビデオ通話を行い、よりリアルなインタラクションを実現できます。 | ✔️ | ✔️ |
Vision 呼び出し | ユーザーとのビデオ通話では、エージェントは音声とカメラ フィードに基づいてフィードバックを提供します。 | ✔️ | ✔️ |
エージェント ステータス | リスニング、思考、発話など、エージェントのステータスを表示できます。 | ✔️ | ✔️ |
リアルタイム字幕 | エージェントとユーザー間の会話はリアルタイムで書き起こされ、クライアントに表示されます。 | ✔️ | ✔️ |
手動中断 | エージェントに命令を送信して、発話を停止させることができます。 | ✔️ | ✔️ |
インテリジェントな中断 | AI エージェントは、ユーザーが会話を中断しようとする意図をインテリジェントに検出します。 | ✔️ | ✔️ |
音声 | エージェントの音声を構成できます。 サポートされている音声については、「インテリジェント音声サンプル」をご参照ください。 | ✔️ | ✔️ |
インターコム モード | ユーザーは、通話の開始時または通話中に通話モードをインターコム モードに設定し、ボタンを押して話すことができます。 | ✔️ | ✔️ |
ボイスプリント認識 | 複数話者シナリオでは、エージェントがメイン話者のボイスプリント特性を識別して音声を正確にキャプチャし、バックグラウンド ノイズによる干渉を最小限に抑えることができます。 | ✔️ | ❌ |
カスタム メッセージ | RTC カスタム メッセージ チャンネルを介してカスタム メッセージを送信できます。 | ✔️ | ✔️ |
ローカル デバイス管理 | ユーザーは、通話中にスピーカーをオフにし、マイクをミュートにすることができます。 | ✔️ | ✔️ |
コールバック | コールバックを通じて、メイン話者の音量やネットワーク ステータスなどの情報を取得できます。 | ✔️ | ✔️ |