全部產品
Search
文件中心

Intelligent Media Services:含UI整合方案

更新時間:May 07, 2025

本文將介紹包含UI組件的AI即時互動解決方案。

方案介紹

本方案基於AICallKit SDK,提供了相應的音視頻應用UI組件。您可以根據業務需求,靈活複用AUI Kits低代碼應用方案中的功能模組,以快速搭建AI即時互動應用。該方案專為希望高效快速構建AI即時互動情境的企業和開發人員設計。通過複用這些功能模組,使用者能夠顯著減少開發時間和成本,同時確保應用的品質與穩定性。各個端的整合,請參見以下內容:

服務端開發,請參見服務端整合API說明

功能說明

功能

說明

即時通話(ARTC)

阿里雲即時音視頻方案,依託該方案使用者可以與AI智能體進行全球範圍的高可靠、低延時通話。

即時工作流程

您可以使用白屏化的方式,靈活地編排智能體AI的工作流程。

  • 語音轉文字:

    • 預置阿里雲通義產品能力。

    • 支援將訊飛的語音轉文字能力作為第三方外掛程式進行整合。

  • 語音合成(文字轉語音):

    • 預置阿里雲通義的產品能力。

    • 採用標準協議與您自主研發的語音合成模組進行對接。

    • 支援將MiniMax的語音能力作為第三方外掛程式進行整合。

  • 文生文大語言模型:

    • 預置阿里雲通義的產品能力。

    • 選擇阿里雲百鍊平台上模型中心、應用中心的AI模型。

    • 按照OpenAI規範或阿里規範來接入自研的大語言模型。

  • 數字人

    • 支援將相芯數字人能力作為第三方外掛程式進行整合。

  • 視頻抽幀

  • 多模態語言大模型

    • 預置阿里雲通義產品能力。

    • 按照OpenAI規範來接入自研的多模態大語言模型。

自訂智能體形象

您可以為所建立的智能體上傳一張圖片,以便在語音通話情境中展示該智能體的形象。

智能體情緒識別

智能體能夠識別使用者當前的情緒,並做出帶有情感色彩的回應。

歡迎詞

您可以在控制台中配置歡迎詞內容,當使用者與AI智能體開始對話時,智能體將播報該歡迎詞內容。

主動播報

商務服務器可以通過OpenAPI的形式,讓智能體主動向使用者輸出音視頻內容。

即時字幕

使用者與智能體之間的對話內容可在終端使用者介面上即時呈現。

智能降噪

AI智能體將自動過濾對話過程中使用者側產生的嘈雜音。當使用者側有多個人同時說話時,將優先採集音量最大的人聲。

智能打斷

在與AI智能體對話時,AI智能體能夠有效識別使用者在對話中的打斷意圖。

智能斷句

智能體能夠自動識別並分割長句或複雜句,以提升文本的可讀性和使用者體驗。

對講機模式

使用者可以在啟動或者通話中設定通話模式為對講機模式,通過按下按鈕與智能體進行互動。

ASR熱詞

您可以定義業務相關的熱詞,以此提升AI智能體在語音辨識中的準確率。

聲紋降噪

在多人交談的情境中,智能體通過識別主講人的聲紋特徵,更加精確地捕捉和保留主講人的語音,同時降低對無關噪音的幹擾。

真人接管

在使用者與智能體進行互動時,如遇無法處理的情況或需做出關鍵決策時,可以選擇由真人進行接管以做出決策。

優雅下線

當商務服務器需要停止智能體時,允許智能體完成目前的交談的表達後再進行停止操作,以避免對話被生硬地打斷。

資料歸檔

將使用者與AI智能體的對話轉化為文本資訊並進行儲存,企業可通過API介面調用以消費這部分資料。同時,企業可以將使用者與AI智能體通話的音視頻資料存放區至Object Storage Service服務(OSS)或ApsaraVideo for VOD(VOD)平台。