全部產品
Search
文件中心

Intelligent Media Services:音視訊通話快速入門

更新時間:Nov 21, 2025

本文將為您介紹如何快速建立音視頻智能體。

服務開通

為了使用阿里雲AI即時互動服務,您需要滿足以下條件:

  • 請先確保已開通 AI 即時互動功能。若尚未開通,請前往開通服務,已開通使用者可直接使用。

    說明

    若出現“您當前購買數量超過還可購買的數量餘量,請重新選擇數量!”,表明服務已經開通。

第一步 建立音視頻工作流程

  1. 登入智能媒體服務控制台,單擊建立工作流程範本

  2. 按需選擇語音通話數字人通話視覺理解通話視訊通話,並配置工作流程節點。image

    STT 語音轉文字

    該節點負責將語音輸入轉換成可讀的文字格式,支援多語種識別。

    image

    • 系統預置:系統預置模型支援您選擇語言模型、設定靜默時間以及配置自訂熱詞。

      • 語言模型:您可以根據您的業務情境,選擇不同的語言模型。

      • 靜默時間:當使用者沒有聲音輸入時,智能體的等待時間。

      • 自訂熱詞:通過配置熱詞可以提高業務領域詞彙識別效果。詳情請參見語音辨識熱詞

      • 自訂敏感詞:配置敏感詞後,語音辨識如果檢測到敏感詞,用戶端字幕將直接進行脫敏處理,並使用“*”進行替換。詳情請參見自訂敏感詞

    • 三方外掛程式:當前支援選擇訊飛語音辨識。擷取對應參數請前往訊飛即時聽寫

    LLM 大語言模型

    基於STT轉換得到的文字輸入,LLM可以使用大型預訓練語言模型來理解和產生自然語言文本。

    image

    目前AI即時互動支援您接入通義千問(系統預置)、阿里百鍊平台、阿里通義星塵以及自研接入(OpenAI規範)。

    阿里百鍊平台

    阿里雲的大模型服務平台阿里百鍊是一站式的大模型開發及應用構建平台。選擇對接阿里百鍊平台提供的語言模型和服務時,您可以選擇對接阿里百鍊模型中心應用中心

    阿里通義星塵

    阿里通義星塵產品提供定製深度個人化智能體的能力,能夠快速創造一個擁有自己獨特的人設、風格的智能體,結合數字人語音即時互動能力,可以在指定的不同的情境中進行豐富的互動。

    • ModelId:目前阿里通義星塵有xingchen-litexingchen-basexingchen-plusxingchen-plus-v2xingchen-max五種模型供您選擇。

    • API-KEY:請前往星塵控制台建立API KEY並擷取。

    自研接入(OpenAI規範)

    AI即時互動也支援接入您自研的大模型,您可以按照OpenAI規範接入您的大模型。

    OpenAI規範:如果您選擇按照OpenAI規範接入,您需要填入以下參數

    名稱

    描述

    樣本值

    ModelId

    OpenAI標準model欄位,表示模型名稱

    abc

    API-KEY

    OpenAI標準api_key欄位,表示API鑒權資訊

    AUJH-pfnTNMPBm6iWXcJAcWsrscb5KYaLitQhHBLKrI

    目標模型HTTPS地址

    OpenAI標準base_url欄位,表示目標服務要求地址

    http://www.abc.com

    更多自研LLM接入詳情,請參見LLM標準介面

    TTS 文字轉語音

    該節點負責將處理後的文本轉換回語音格式,以便使用者聽到系統的響應。

    image

    • 您可以選擇適合您應用情境的文字轉語音模型,包括:系統置模板自研模板以及三方外掛程式

      • 系統預置模板:選擇預置模板時,您需要配置語音音色,各類型智能語音效果樣本請參見智能語音效果樣本

      • 自研模板:您可以通過規範協議將您的自研大模型加入到工作流程當中。詳情請參見TTS標準介面

      • 三方外掛程式:當前僅支援選擇MiniMax語音模型,該目前有多個版本供您選擇,推薦您使用最新版本。具體詳情,請參見MiniMax語音模型

    • 在TTS節點,您也可以對LLM輸入的內容進行過濾。

      image

    • 文本歸一化:將文本中的數字、符號等轉換為統一標準格式,提升合成語音的品質。如"120°轉為“么二零。

    數字人

    該節點負責產生與處理後的文本和音頻相對應的動作、表情和口型同步的數字人視頻流。

    image

    當前支援在數字人節點中對接數字人外掛程式對接阿里靈境數字人

    • 對接數字人外掛程式

      • 相芯:您需要諮詢相芯科技客服,開通相芯科技3D數字人服務,擷取AppIdAppKey以及AvatarId

    • 對接阿里靈境數字人:對接阿里靈境數字人,您需要通過提交工單進行開通使用。

    視頻抽幀

    該節點負責從視頻中抽取單幀或多幀的圖片。

    image

    視頻內容理解

    該節點負責識別視頻內容中,是否存在特定行為。

    image

    MLLM多模態大模型

    基於前置節點對資料的處理,MLLM可以對輸入的圖片與文字進行理解,產生自然語言文本。您也可以通過選擇不同類型的模型來控制模型的輸入。

    image

    目前AI即時互動支援您接入通義千問(系統預置)、阿里百鍊平台、阿里通義星塵以及自研大模型。

    阿里百鍊平台

    阿里雲的大模型服務平台阿里百鍊是一站式的大模型開發及應用構建平台。選擇對接阿里百鍊平台提供的語言模型和服務時,您可以選擇對接阿里百鍊模型中心應用中心

    通義星塵

    通義星塵產品提供定製深度個人化智能體的能力,能夠快速創造一個擁有自己獨特的人設、風格的智能體,結合數字人語音即時互動能力,可以在指定的不同的情境中進行豐富的互動。

    • ModelId:目前通義星塵有xingchen-litexingchen-basexingchen-plusxingchen-plus-v2xingchen-max五種模型供您選擇。

    • API-KEY:請前往星塵控制台建立API KEY並擷取。

    自研模型

    AI即時互動也支援接入您自研的大模型,您可以按照OpenAI規範接入您的大模型。

    OpenAI規範:如果您選擇按照OpenAI規範接入,您需要填入以下參數

    名稱

    類型

    必填

    描述

    樣本值

    ModelId

    String

    OpenAI標準model欄位,表示模型名稱

    abc

    API-KEY

    String

    OpenAI標準api_key欄位,表示API鑒權資訊

    AUJH-pfnTNMPBm6iWXcJAcWsrscb5KYaLitQhHBLKrI

    目標模型HTTPS地址

    String

    OpenAI標準base_url欄位,表示目標服務要求地址

    http://www.abc.com

    單次調用圖片數上限

    Integer

    由於部分多模態大模型單次請求可接收圖片幀數量有上限,您可以設定此參數來適配不同的大模型。在請求您的MLLM服務時,會自動按照該值對視頻進行抽幀採樣。

    15

    更多自研接入,請參考MLLM標準介面

  3. 單擊儲存,完成音視頻工作流程建立。

第二步 建立音視頻智能體

  1. 登入智能媒體服務控制台,單擊建立智能體

  2. 配置基礎資訊,綁定音視頻類型即時工作流程。

    1. 綁定具體的音視頻工作流程,AI智能體將遵循工作流程運行。

      image

    2. 在配置智能體時,選擇當前帳號下已建立的即時音視頻ARTC應用,若登入帳號下還未建立即時音視頻ARTC應用,您也可以通過選擇系統自動建立。即時音視頻更多內容,請參見即時音視頻簡介

      image

      說明

      AI即時互動依賴於ARTC應用,ARTC應用作為通訊橋樑,確保對話功能的正常運作。

    3. 當您綁定的工作流程類型為語音通話時,可以在進階功能配置中上傳自訂形象,以便在語音通話情境中展示該形象。

      image

  3. 單擊提交,完成音視頻智能體建立。

第三步 體驗智能體

訊息對話智能體建立完成後,您可以通過掃描體驗二維碼來進行智能體的體驗。

  1. 控制台產生Demo體驗二維碼。

    image

  2. 請使用DingTalk、微信或瀏覽器掃描二維碼,或將體驗地址複製到瀏覽器中,以體驗H5版本的Demo。

    image

整合音視頻智能體

您需要提前準備好以下參數,方便您進行整合。如何將音視頻智能體整合到您的專案中,請參見音視訊通話智能體整合

  • Region ID:智能媒體服務控制台上工作流程、智能體所在地區。

    image

    地區名稱

    Region Id

    華東1(杭州)

    cn-hangzhou

    華東2(上海)

    cn-shanghai

    華北2(北京)

    cn-beijing

    華南1(深圳)

    cn-shenzhen

    新加坡

    ap-southeast-1

  • ARTC應用的AppIdAppKey

    image

    image

  • AccessKey IDAccessKey Secret:擷取詳情,請參見建立AccessKey