全部產品
Search
文件中心

Intelligent Media Services:音視訊通話智能體整合

更新時間:Jul 11, 2025

本文將為您介紹如何基於AICallKit SDK整合音視訊通話智能體。

整合概述

音視訊通話智能體整合採用低代碼方式,旨在實現智能體與即時音視頻能力的深度融合,從而支援企業迅速構建智能化互動情境。該方案通過整合AICallKit SDK,助力您快速搭建智能體通話功能。

整合優勢

  • 快速整合與開發效率提升:AICallKit SDK提供了高度封裝的介面,開發人員只需調用少量代碼即可實現AI即時互動功能。

  • 跨平台支援:AICallKit SDK支援多個主流作業系統和平台,包括 iOS、Android、Web。開發人員可以使用統一的 API 進行開發,確保應用在不同平台上具有一致的功能和使用者體驗。

  • 豐富的功能擴充:除了基本的通話功能外,AICallKit SDK 還提供了豐富的擴充功能,如智能體狀態、即時字幕、打斷智能體講話等。開發人員在通過不含UI整合時,可以根據實際需求靈活配置這些功能,滿足不同應用情境下的個人化需求。

整合指南

阿里雲基於AICallKit SDK為您提供了兩種整合方案:一種是包含UI介面整合方案,另一種是不含UI介面整合方案。

  • 含UI整合:該方案基於AICallKit SDK,提供了包含音視頻應用UI組件的低代碼整合方案。您只需要通過簡單的配置就能運行Demo,並且可以將整個UI組件整合到您的專案中,從而快速實現AI即時互動能力。

  • 不含UI整合:AICallKit SDK高度封裝了AI即時互動的能力,這將顯著降低與智能體、RTC相關功能的開發工作量。如果您希望自訂UI,快速實現AI即時互動能力,並且不需要考慮AI即時互動底層實現,可以考慮此方案。

AICallKit SDK能力概覽

功能項

功能描述

iOS & Android

Web

語音通話

使用者通過語音與智能體交流對話,擷取即時的資訊反饋和服務。

✔️

✔️

數字人通話

通過視頻方式與數字人對話,為使用者提供更加真實的互動體驗。

✔️

✔️

視覺理解通話

通過視頻方式與智能體互動,智能體將結合使用者的語音和網路攝影機畫面來提供反饋。

✔️

✔️

智能體狀態

為您提供AI智能體狀態的即時資訊,智能體狀態包括:聆聽中、思考中 、講話中。

✔️

✔️

即時字幕

AI智能體和使用者的對話資訊將會被即時轉換成文字,並由用戶端進行展示。

✔️

✔️

打斷功能

您可以向正在說話的智能體發送一個打斷指令,智能體收到指令後,停止當前問題的回答。

✔️

✔️

智能打斷

AI智能體智能識別使用者的對話打斷意圖。

✔️

✔️

音色設定

您可以對智能體輸出的音色進行配置,目前支援的音色詳情列表,請參見智能語音效果樣本

✔️

✔️

對講機模式

使用者可以在啟動或者通話中設定通話模式為對講機模式,通過按下按鈕與智能體進行互動。

✔️

✔️

聲紋識別

在多人交談的情境中,智能體通過識別主講人的聲紋特徵,更加精確地捕捉和保留主講人的語音,同時降低對無關噪音的幹擾。

✔️

自訂訊息

您可以在RTC自訂訊息通道中發送您的定製資訊。

✔️

✔️

本地裝置管理

包括在通話過程中關閉擴音器、靜音麥克風等功能。

✔️

✔️

智能體回調

您可以通過智能體回調介面來擷取主講人音量、網路等狀態。

✔️

✔️