全部產品
Search
文件中心

Intelligent Media Services:開發指南

更新時間:Mar 25, 2025

本文提供關於AI即時互動技術的多種整合方案。通過閱讀,您將深入瞭解每種方案的優勢及其適用情境。

背景概述

隨著AIGC的興起,大型語言模型(LLM)的作用日益凸顯。這些LLM作為AI智能體,尤其是那些能夠結合內部知識庫的模型,能夠滿足廣泛的行業需求,如智能客服、個人助手等智能互動情境。此外,基於即時文本通訊的AI智能體越來越難以滿足高效溝通的需求,因此出現了基於即時音視頻通訊(RTC)的AI智能體,它們提供了更為豐富和直觀的互動體驗。

整合方案

針對音視訊通話訊息對話情境。阿里雲基於AICallKit SDK,分別提供了含UI和不含UI的兩種實現方案:

  • 含UI整合:在含UI整合方案中,阿里雲提供了包含音視頻應用UI組件。您只需要通過簡單的配置就能運行Demo,並且可以將整個UI組件整合到您的專案中,從而快速實現AI即時互動能力。

  • 不含UI整合:在不含UI整合方案中,您可以自訂UI介面,並且基於AICallKit SDK您不需要考慮AI即時互動底層實現,快速實現AI即時互動能力。

說明

基於AICallKit SDK進行整合時,您仍可以繼續使用ARTC SDK的相關介面。AICallKit SDK是基於RTC SDK進行部分封裝的可靠情境化介面,既確保了便捷性,又保留了靈活性。

服務端功能

  • 智能體進階配置:AI智能體支援設定問候語、音色、智能打斷功能。

  • 智能體通話記錄:阿里雲內建的語音辨識技術,可以自動轉錄通話內容,從而便於您對通話記錄進行審核、模型訓練等操作。

  • 智能體回調:智能體回調允許您的應用在特定事件發生時自動觸發預設的操作或響應。

  • 語音辨識熱詞:如果您的業務中存在某些詞彙識別效果不佳的情況,可以考慮使用熱詞功能,以提升識別效果。

  • 數字人整合:整合數字人後,可將工作流程中的語音輸入轉化為數字人,從而提供更加豐富且生動的互動體驗。