全部產品
Search
文件中心

Intelligent Media Services:AI即時互動概覽

更新時間:Nov 21, 2025

AI即時互動能夠實現AI與使用者之間的高效音視頻互動,本文檔介紹其應用能力和產品優勢。

產品簡介

AI即時互動是一種旨在協助企業快速構建AI與使用者之間的音視訊通話應用的解決方案。使用者只需通過可視化配置介面操作,即可在10分鐘內構建一個專屬的AI智能體,並通過視頻雲通訊網路與終端使用者進行即時互動。該方案適用於網路客服、AI助理、AI伴侶、撮合助手、虛擬老師等多種應用情境,使使用者能夠在短時間內快速構建AI即時互動能力。

應用能力

在AI即時互動功能中,AI智能體被定義為雲端高擬真使用者,用於實現與使用者的音視訊通話訊息對話。為了滿足不同的互動需求,您可以為智能體配置相應的工作流程,並且實現以下能力:

音視訊通話

語音通話

使用者通過語音與智能助手交流對話。

555d2e763e3c49c23ac59cb7060d2a44

數字人通話

通過視頻與數字人互動,提升使用者體驗真實性。

lQDPJwMuwU90JFXNC6zNBaCwNbn8uKeIjbgHiTmd5-WQAA_1440_2988

視覺理解通話

通過視頻互動,智能體結合語音和畫面提供反饋。

lQDPJwpRBT4ppFXNC6zNBaCwzODP1_m-L7MHiTmc7Nh_AA_1440_2988

視訊通話

數字人結合視覺理解,與使用者雙向視訊通話。image

音視訊通話快速入門為例:

您只需要配置以下3個節點,就能完成語音通話工作流程的建立。

image

訊息對話

通過語音或文本以聊天對話方塊的形式直接與智能體進行交流。

lQDPKHl9TD29I1XNC6zNBaCwklTx59f8apsHiTmbKaTPAA_1440_2988

image

訊息對話快速入門為例:

您只需要配置以下流程,就能完成訊息對話的建立。

image

基本概念

SessionId

SessionId由開發人員自行定義,建議開發人員將其設為聊天記錄的唯一標識。用法樣本:

  • 使用者關聯:使用者在手機端或PC端與AI進行對話時,可通過sessionId在不同時間進行關聯。

  • 會話關聯:使用者發起了多次會話,可以用sessionId來隔離。

訊息對話

使用者可以通過語音或文本以聊天對話方塊的形式與智能體進行互動,使雙方能夠快速分享想法、提出問題或擷取資訊。

語音通話

使用者可以與智能助手進行語音互動,從而獲得及時的資訊反饋和服務支援。

3D數字人通話

利用3D技術類比虛擬人物形象進行互動,3D數字人不僅能夠實現語音互動,還能夠通過豐富的肢體動作和面部表情,增強使用者體驗的真實感與參與度。

視覺理解通話

融合視頻與音訊新型互動方式,它能夠即時解析相機擷取的畫面,結合使用者語音指令,通過多模態互動提供精準反饋,讓使用者在通話過程中獲得更加直觀、高效且個人化的智能互動體驗,打破傳統語音或文字交流的局限 。

視訊通話

結合數字人視覺理解的優勢,讓使用者在與數字人視訊通話時,同時顯示數字人和使用者的視頻畫面,數字人能理解使用者視頻的畫面,並作出反饋,增強互動感、真實感。

互動訊息

直播互動訊息是用於加強使用者之間訊息溝通、提升互動體驗的服務。

即時音視頻 ARTC

使用者與AI智能體進行即時音視訊通話時,需要藉助WebRTC技術來提供保障。阿里雲即時音視頻ARTC依託全球3200+節點及多年的音視頻技術積累,為使用者提供高可用、高品質、超低延時的音視頻通訊服務。更多詳情請參見即時音視頻簡介

即時工作流程

即時工作流程是AI智能體的重要組成部分。它可以通過外掛程式式和拖拽式的方式靈活地編排各個AI組件,例如語音轉文字、大模型、語音合成和自研向量資料庫等。AI智能體將按照預先定義的工作流程進行運作。

AI智能體

AI智能體是AI即時互動方案中定義的雲端高擬真使用者,AI智能體可以是由系統預置或者使用者自行建立的,並且能夠直接與終端使用者進行音視頻互動。

產品優勢

  • 全球高可用、低延遲:依託阿里雲的即時音視頻網路體系,全球3200+節點覆蓋和QoS最佳化,使得使用者可以在全球的任何位置與AI智能體流暢的完成音視訊通話。

  • 易接入、易調試:您可以將AI組件(如語音轉文字、大模型、語音合成、自研向量資料庫等)以外掛程式的形式整合到工作流程中,從而迅速開展業務,並在此過程中便捷地對整體技術方案進行調試。

  • 高度擬人化:阿里雲通過持續迭代和最佳化智能降噪、智能打斷、智能斷句等功能,使智能體在互動行為上更接近於人類。

  • 易整合:阿里雲為您提供四種整合方式來協助您搭建AI即時互動系統,以滿足不同情境和需求下的應用構建。

實現原理

image

  1. 使用者通過終端SDK發起與雲端AI智能體的即時音視訊通話;

  2. AI智能體接收到使用者的音視頻輸入後,開始運轉工作流程,並輸出AI的響應結果;

  3. AI智能體將響應結果的音視頻流推送到ARTC網路,使用者可以訂閱該音視頻流進行播放,從而完成使用者與AI智能體的對話。

功能說明

功能

說明

即時工作流程

您可以使用白屏化的方式,靈活地編排智能體AI的工作流程。

  • 語音轉文字:

    • 預置阿里雲通義產品能力。

  • 語音合成(文字轉語音):

    • 預置阿里雲通義的產品能力。

    • 採用標準協議與您自主研發的語音合成模組進行對接。

    • 支援將MiniMax的語音能力作為第三方外掛程式進行整合。

  • 文生文大語言模型:

    • 預置阿里雲通義的產品能力。

    • 選擇阿里雲百鍊平台上模型中心、應用中心的AI模型。

    • 按照OpenAI規範來接入自研的大語言模型。

  • 數字人

    • 支援將相芯數字人能力作為第三方外掛程式進行整合。

  • 視頻抽幀

  • 多模態語言大模型

    • 預置阿里雲通義產品能力。

    • 按照OpenAI規範來接入自研的多模態大語言模型。

自訂智能體形象

您可以為所建立的智能體上傳一張圖片,以便在語音通話情境中展示該智能體的形象。

智能體情緒識別

智能體能夠識別使用者當前的情緒,並做出帶有情感色彩的回應。

歡迎詞

您可以在控制台中配置歡迎詞內容,當使用者與AI智能體開始對話時,智能體將播報該歡迎詞內容。

主動播報

商務服務器可以通過OpenAPI的形式,讓智能體主動向使用者輸出音視頻內容。

即時字幕

使用者與智能體之間的對話內容可在終端使用者介面上即時呈現。

智能降噪

AI智能體將自動過濾對話過程中使用者側產生的嘈雜音。當使用者側有多個人同時說話時,將優先採集音量最大的人聲。

智能打斷

在與AI智能體對話時,AI智能體能夠有效識別使用者在對話中的打斷意圖。

智能斷句

智能體能夠自動識別並分割長句或複雜句,以提升文本的可讀性和使用者體驗。

音頻逐句回調

您可以在控制台進行回調配置將即時音頻資料存放區到OSS中。

對講機模式

使用者可以在啟動或者通話中設定通話模式為對講機模式,通過按下按鈕與智能體進行互動。

ASR熱詞

您可以定義業務相關的熱詞,以此提升AI智能體在語音辨識中的準確率。

聲紋降噪

在多人交談的情境中,智能體通過識別主講人的聲紋特徵,更加精確地捕捉和保留主講人的語音,同時降低對無關噪音的幹擾。

真人接管

在使用者與智能體進行互動時,如遇無法處理的情況或需做出關鍵決策時,可以選擇由真人進行接管以做出決策。

優雅下線

當商務服務器需要停止智能體時,允許智能體完成目前的交談的表達後再進行停止操作,以避免對話被生硬地打斷。

資料歸檔

將使用者與AI智能體的對話轉化為文本資訊並進行儲存,企業可通過API介面調用以消費這部分資料。同時,企業可以將使用者與AI智能體通話的音視頻資料存放區至Object Storage Service服務(OSS)或ApsaraVideo for VOD(VOD)平台。

計費說明

AI即時互動當前處於限時免費公測階段。

常見問題

聯絡我們

更多產品諮詢問題或使用支援,歡迎通過DingTalk搜尋群號106730016696,加入群聊聯絡我們。