本文將為您介紹如何快速建立音視頻智能體。
服務開通
為了使用阿里雲AI即時互動服務,您需要滿足以下條件:
請先確保已開通 AI 即時互動功能。若尚未開通,請前往開通服務,已開通使用者可直接使用。
說明若出現“您當前購買數量超過還可購買的數量餘量,請重新選擇數量!”,表明服務已經開通。
第一步 建立音視頻工作流程
登入智能媒體服務控制台,單擊建立工作流程範本。
按需選擇語音通話、數字人通話、視覺理解通話或視訊通話,並配置工作流程節點。

STT 語音轉文字
該節點負責將語音輸入轉換成可讀的文字格式,支援多語種識別。

LLM 大語言模型
基於STT轉換得到的文字輸入,LLM可以使用大型預訓練語言模型來理解和產生自然語言文本。

目前AI即時互動支援您接入通義千問(系統預置)、阿里百鍊平台、阿里通義星塵以及自研接入(OpenAI規範)。
阿里百鍊平台
阿里雲的大模型服務平台阿里百鍊是一站式的大模型開發及應用構建平台。選擇對接阿里百鍊平台提供的語言模型和服務時,您可以選擇對接阿里百鍊模型中心或應用中心。
模型中心:進入阿里百鍊模型列表選擇適合您的模型,複製模型Code擷取作為ModelId。

應用中心:需要先在阿里百鍊應用管理頁面建立應用,完成後,擷取AppId。

進入百鍊API-KEY管理頁面,建立並複製API-Key。

阿里通義星塵
阿里通義星塵產品提供定製深度個人化智能體的能力,能夠快速創造一個擁有自己獨特的人設、風格的智能體,結合數字人語音即時互動能力,可以在指定的不同的情境中進行豐富的互動。
ModelId:目前阿里通義星塵有
xingchen-lite、xingchen-base、xingchen-plus、xingchen-plus-v2、xingchen-max五種模型供您選擇。API-KEY:請前往星塵控制台建立API KEY並擷取。
自研接入(OpenAI規範)
AI即時互動也支援接入您自研的大模型,您可以按照OpenAI規範接入您的大模型。
OpenAI規範:如果您選擇按照OpenAI規範接入,您需要填入以下參數:
名稱
描述
樣本值
ModelId
OpenAI標準model欄位,表示模型名稱
abc
API-KEY
OpenAI標準api_key欄位,表示API鑒權資訊
AUJH-pfnTNMPBm6iWXcJAcWsrscb5KYaLitQhHBLKrI
目標模型HTTPS地址
OpenAI標準base_url欄位,表示目標服務要求地址
http://www.abc.com
更多自研LLM接入詳情,請參見LLM標準介面。
TTS 文字轉語音
該節點負責將處理後的文本轉換回語音格式,以便使用者聽到系統的響應。

您可以選擇適合您應用情境的文字轉語音模型,包括:系統置模板、自研模板以及三方外掛程式。
系統預置模板:選擇預置模板時,您需要配置語音音色,各類型智能語音效果樣本請參見智能語音效果樣本。
自研模板:您可以通過規範協議將您的自研大模型加入到工作流程當中。詳情請參見TTS標準介面。
三方外掛程式:當前僅支援選擇MiniMax語音模型,該目前有多個版本供您選擇,推薦您使用最新版本。具體詳情,請參見MiniMax語音模型。
在TTS節點,您也可以對LLM輸入的內容進行過濾。

文本歸一化:將文本中的數字、符號等轉換為統一標準格式,提升合成語音的品質。如"120°轉為“么二零。
數字人
該節點負責產生與處理後的文本和音頻相對應的動作、表情和口型同步的數字人視頻流。

當前支援在數字人節點中對接數字人外掛程式、對接阿里靈境數字人:
視頻抽幀
該節點負責從視頻中抽取單幀或多幀的圖片。

視頻內容理解
該節點負責識別視頻內容中,是否存在特定行為。

MLLM多模態大模型
基於前置節點對資料的處理,MLLM可以對輸入的圖片與文字進行理解,產生自然語言文本。您也可以通過選擇不同類型的模型來控制模型的輸入。

目前AI即時互動支援您接入通義千問(系統預置)、阿里百鍊平台、阿里通義星塵以及自研大模型。
阿里百鍊平台 阿里雲的大模型服務平台阿里百鍊是一站式的大模型開發及應用構建平台。選擇對接阿里百鍊平台提供的語言模型和服務時,您可以選擇對接阿里百鍊模型中心或應用中心。
模型中心:進入阿里百鍊模型列表選擇適合您的模型,複製模型Code擷取作為ModelId。

應用中心:需要先在阿里百鍊應用管理頁面建立應用,完成後,擷取AppId。

進入百鍊API-KEY管理頁面,建立並複製API-Key。

通義星塵
通義星塵產品提供定製深度個人化智能體的能力,能夠快速創造一個擁有自己獨特的人設、風格的智能體,結合數字人語音即時互動能力,可以在指定的不同的情境中進行豐富的互動。
ModelId:目前通義星塵有
xingchen-lite、xingchen-base、xingchen-plus、xingchen-plus-v2、xingchen-max五種模型供您選擇。API-KEY:請前往星塵控制台建立API KEY並擷取。
自研模型
AI即時互動也支援接入您自研的大模型,您可以按照OpenAI規範接入您的大模型。
OpenAI規範:如果您選擇按照OpenAI規範接入,您需要填入以下參數:
名稱
類型
必填
描述
樣本值
ModelId
String
是
OpenAI標準model欄位,表示模型名稱
abc
API-KEY
String
是
OpenAI標準api_key欄位,表示API鑒權資訊
AUJH-pfnTNMPBm6iWXcJAcWsrscb5KYaLitQhHBLKrI
目標模型HTTPS地址
String
是
OpenAI標準base_url欄位,表示目標服務要求地址
http://www.abc.com
單次調用圖片數上限
Integer
是
由於部分多模態大模型單次請求可接收圖片幀數量有上限,您可以設定此參數來適配不同的大模型。在請求您的MLLM服務時,會自動按照該值對視頻進行抽幀採樣。
15
更多自研接入,請參考MLLM標準介面。
單擊儲存,完成音視頻工作流程建立。
第二步 建立音視頻智能體
第三步 體驗智能體
訊息對話智能體建立完成後,您可以通過掃描體驗二維碼來進行智能體的體驗。
在控制台產生Demo體驗二維碼。

請使用DingTalk、微信或瀏覽器掃描二維碼,或將體驗地址複製到瀏覽器中,以體驗H5版本的Demo。

整合音視頻智能體
您需要提前準備好以下參數,方便您進行整合。如何將音視頻智能體整合到您的專案中,請參見音視訊通話智能體整合。
Region ID:智能媒體服務控制台上工作流程、智能體所在地區。

地區名稱
Region Id
華東1(杭州)
cn-hangzhou
華東2(上海)
cn-shanghai
華北2(北京)
cn-beijing
華南1(深圳)
cn-shenzhen
新加坡
ap-southeast-1
ARTC應用的AppId和AppKey


AccessKey ID和AccessKey Secret:擷取詳情,請參見建立AccessKey。


