構建低延遲AI伴生應用 - 智能媒體服務

本文將為您提供一套全面的AI情感陪伴實踐方案，協助您有效開展AI情感陪伴業務。

背景介紹

AI情感陪伴產品近年來創新活躍且類型多樣，涵蓋角色扮演、情感陪聊、心理療愈等。當前AI語聊多基於IM情境的離線文字或語音交談，GPT-4o的發布推動多模態大模型應用至即時語音或視頻互動，帶來更真實互動的虛擬娛樂體驗。阿里雲結合第三方大模型與TTS等技術，實現邊消費邊創作、劇情多變的即時互動情感陪伴，讓使用者獲得個人化陪伴並激發創作靈感。

方案選型

陪伴形式

在情感陪伴情境，阿里雲提供了兩種通話形式，您僅需在建立智能體時指定特定的通話類型並整合即可。您可以通過阿里雲Demo體驗先體驗效果。如果您需要接入AI即時互動，請參見音視訊通話快速入門。

通話類型	純語音通話	數字人通話
效果樣本
陪伴形式	使用者：語音 AI陪伴：語音	使用者：語音 AI陪伴：視頻
費用	低	中

終端SDK

SDK整合詳情，請參見開發指南。

SDK	說明
Web SDK	推薦使用案頭端瀏覽器：如Chrome等；移動端H5：如支付寶的H5、DingTalk的H5、微信小程式H5等 APP內建webview 說明不推薦使用手機原生瀏覽器，部分裝置存在對WebRTC不相容的情況暫不支援微信小程式原生組件使用，建議使用微信小程式H5
Android/iOS SDK	推薦使用：搭載安卓或者iOS作業系統的應用
其他	如果您想在Window或者Mac的案頭端進行開發，請通過DingTalk搜尋群號106730016696，加入群聊聯絡我們。

方案基礎功能

個性通話

阿里雲開放了豐富的介面能力，允許您為每一個使用者提供一場量身定製的通話，將會使得通話的體驗大幅提升，我們也建議您這麼做。您可以通過設定傳入啟動通話參數實現這該功能。

設定項	說明	通話過程是否可修改
大模型提示詞	通常您可以將使用者的個人資訊作為提示詞的一部分，在啟動通話的時候進行入參，AI即可實現更真實的情感陪伴。	是
ASR語種	設定語種，如中文、英文...	是
TTS音色	設定AI的音色。	是
數字人形象	當您的智能體是VideoAgent時，且您有多個數字人形象，即可在通話時指定具體的形象。	否
歡迎語	針對不同的候選人設定歡迎語，例如：“你好小雲，很高興能再次遇見你...”	否

使用者資訊透傳模型

在通話過程中，如果當前有多個使用者同時線上時，對於同一個大模型而言需要能精準的區分當前的輸入來自於哪個使用者。 AI即時互動提供了資訊透傳大模型的能力，以便您能將一些自訂資訊諸如UserID等透傳到模型側。詳細內容，請參見業務參數透傳阿里雲百鍊大模型。

使用者未講話識別及處理

您可以通過回調監聽的方式通過監聽intent_recognized參數來獲得每一次使用者的講話時間。詳細內容，請參見智能體回調。以便您在識別到使用者長期未講話時，能夠做出對應的業務處理，常見處理方式：

結束對話：請參見StopAIAgentInstance - 停止智能體執行個體。
播報提醒：當使用者X秒未講話時，AI主動播報一段內容提示使用者。請參見如何進行語音播報。
大模型輸出下一道題：由於使用者並沒有講話，故而若想讓AI繼續輸出，您可以通過文本形式直接驅動模型輸出。請參見如何傳入文本作為大語言模型輸入。

對話內容文本轉錄 & 音視頻錄製

您可以對整個陪伴過程中產生的音頻資料或者文本資料進行留存。具體操作方式，請參見如何?資料歸檔。

方案進階功能

逐句口語評測

在情感陪伴情境中，若您希望對使用者講的每一句話的音頻進行發音評測，AI即時互動為您提供了使用者說話逐句音頻檔案錄製的能力，使用者講的每一句話的音頻將會被即時錄製並儲存到您指定的OSS中。您可以針對音頻檔案進行發音評測。

說明

AI即時互動僅提供了檔案逐句錄製的能力，暫不提供音訊評測能力。如何設定音頻逐句回調，請參見智能體回調。