全部產品

Intelligent Media Services：音視訊通話智能體整合

更新時間：Jul 11, 2025

本文將為您介紹如何基於AICallKit SDK整合音視訊通話智能體。

整合概述

音視訊通話智能體整合採用低代碼方式，旨在實現智能體與即時音視頻能力的深度融合，從而支援企業迅速構建智能化互動情境。該方案通過整合AICallKit SDK，助力您快速搭建智能體通話功能。

整合優勢

快速整合與開發效率提升：AICallKit SDK提供了高度封裝的介面，開發人員只需調用少量代碼即可實現AI即時互動功能。
跨平台支援：AICallKit SDK支援多個主流作業系統和平台，包括 iOS、Android、Web。開發人員可以使用統一的 API 進行開發，確保應用在不同平台上具有一致的功能和使用者體驗。
豐富的功能擴充：除了基本的通話功能外，AICallKit SDK 還提供了豐富的擴充功能，如智能體狀態、即時字幕、打斷智能體講話等。開發人員在通過不含UI整合時，可以根據實際需求靈活配置這些功能，滿足不同應用情境下的個人化需求。

整合指南

阿里雲基於AICallKit SDK為您提供了兩種整合方案：一種是包含UI介面整合方案，另一種是不含UI介面整合方案。

含UI整合：該方案基於AICallKit SDK，提供了包含音視頻應用UI組件的低代碼整合方案。您只需要通過簡單的配置就能運行Demo，並且可以將整個UI組件整合到您的專案中，從而快速實現AI即時互動能力。
不含UI整合：AICallKit SDK高度封裝了AI即時互動的能力，這將顯著降低與智能體、RTC相關功能的開發工作量。如果您希望自訂UI，快速實現AI即時互動能力，並且不需要考慮AI即時互動底層實現，可以考慮此方案。

AICallKit SDK能力概覽

功能項	功能描述	iOS & Android	Web
語音通話	使用者通過語音與智能體交流對話，擷取即時的資訊反饋和服務。	✔️	✔️
數字人通話	通過視頻方式與數字人對話，為使用者提供更加真實的互動體驗。	✔️	✔️
視覺理解通話	通過視頻方式與智能體互動，智能體將結合使用者的語音和網路攝影機畫面來提供反饋。	✔️	✔️
智能體狀態	為您提供AI智能體狀態的即時資訊，智能體狀態包括：聆聽中、思考中、講話中。	✔️	✔️
即時字幕	AI智能體和使用者的對話資訊將會被即時轉換成文字，並由用戶端進行展示。	✔️	✔️
打斷功能	您可以向正在說話的智能體發送一個打斷指令，智能體收到指令後，停止當前問題的回答。	✔️	✔️
智能打斷	AI智能體智能識別使用者的對話打斷意圖。	✔️	✔️
音色設定	您可以對智能體輸出的音色進行配置，目前支援的音色詳情列表，請參見智能語音效果樣本。	✔️	✔️
對講機模式	使用者可以在啟動或者通話中設定通話模式為對講機模式，通過按下按鈕與智能體進行互動。	✔️	✔️
聲紋識別	在多人交談的情境中，智能體通過識別主講人的聲紋特徵，更加精確地捕捉和保留主講人的語音，同時降低對無關噪音的幹擾。	✔️	❌
自訂訊息	您可以在RTC自訂訊息通道中發送您的定製資訊。	✔️	✔️
本地裝置管理	包括在通話過程中關閉擴音器、靜音麥克風等功能。	✔️	✔️
智能體回調	您可以通過智能體回調介面來擷取主講人音量、網路等狀態。	✔️	✔️