全部產品
Search
文件中心

Intelligent Media Services:口語陪練

更新時間:Jun 18, 2025

本文將為您提供一套全面的AI口語陪練實踐方案,協助您有效開展 AI 口語陪練業務,滿足學習者提升口語能力的需求。

背景介紹

AI 口語陪練解決了日常口語學習中夥伴難尋、時空受限的問題,能夠隨時響應練習需求。它能基於學習者的歷史資料,精準分析問題並定製個人化練習內容,同時提供即時反饋和錯誤修正建議,彌補傳統練習中難以全面糾正錯誤的不足。此外,AI 還能類比多種情境與話題,拓寬語言應用範圍,並通過輕鬆無壓力的學習環境提升學習者的自信心,協助學員克服心理障礙,有效提高口語能力。

方案選型

陪練形式

在AI口語陪練情境,阿里雲提供了兩種通話形式,您僅需在建立智能體時指定特定的通話類型並整合即可。您可以通過阿里雲Demo體驗先體驗效果。如果您需要接入AI即時互動,請參見音視訊通話快速入門

通話類型

純語音通話

數字人通話

效果樣本

555d2e763e3c49c23ac59cb7060d2a44

lQDPJxjZw5Ame9nNC6zNBaCw89zk0Od4uB8HWJitduNrAA_1440_2988

陪練形式

  • 學員:語音

  • AI陪練:語音

  • 學員:語音

  • AI陪練:視頻

費用

終端SDK

SDK整合詳情,請參見開發指南

SDK

說明

Web SDK

推薦使用

  • 案頭端瀏覽器:如Chrome等;

  • 移動端H5:如支付寶的H5、DingTalk的H5、微信小程式H5等

  • APP內建webview

說明
  • 不推薦使用手機原生瀏覽器,部分裝置存在對WebRTC不相容的情況

  • 暫不支援微信小程式原生組件使用,建議使用微信小程式H5

Android/iOS SDK

推薦使用:搭載安卓或者iOS作業系統的應用

其他

如果您想在Window或者Mac的案頭端進行開發,請通過DingTalk搜尋群號106730016696,加入群聊聯絡我們。

方案基礎功能

個性通話和情境切換

阿里雲開放了豐富的介面能力,允許您為每一個使用者提供一場量身定製的通話服務,將會使得通話的體驗大幅提升,我們也建議您這麼做。您可以通過設定傳入啟動通話參數實現這一目標。AI即時互動允許在使用者不退出通話的情況下切換對話應用情境,例如從“問路情境對話練習”切換到“購物情境對話練習,您需要按照實際應用情境重新定義大模型提示詞。

設定項

說明

通話過程是否可修改

大模型提示詞

通常您可以將學員的個人資訊作為提示詞的一部分,在啟動通話的時候進行入參,AI即可實現更有針對性的練習。

ASR語種

設定語種,如中文、英文...

TTS音色

設定AI的音色。

數字人形象

當您的智能體是VideoAgent時,且您有多個數字人形象,即可在通話時指定具體的形象。

歡迎語

針對不同的候選人設定歡迎語,例如:“你好小雲,今天將要類比的是購物情境...”

為使用者發送自訂資訊

在通話的過程中,若您希望即時為用戶端下發諸如卡片、題目等資訊,AI即時互動為您提供了專屬的資訊下發通道,用戶端在接受到您的自訂資訊後,可以自行做資源下載和互動渲染等任意業務行為。

阿里雲為您提供了兩套解決方案:

  • 方案一:您可以通過您的APPServer將自訂資訊下發到用戶端。詳細內容,請參見如何主動向用戶端發送自訂訊息

  • 方案二:您也可以在大模型的響應中攜帶自訂資訊,該資訊會隨著字幕即時到達用戶端。

    說明

    您可以將指令藏在模型的回複內容中,並通過特殊符合例如{}、[]等進行標記。(操作方式:控制台-->工作流程-->TTS節點-->過濾播報)被標記的內容將不會被語音播報,您僅需解析該內容即可做自訂業務處理。

使用者資訊透傳模型

在通話過程中,如果當前有多個使用者同時線上時,對於同一個大模型而言需要能精準的區分當前的輸入來自於哪個使用者。 AI即時互動提供了資訊透傳大模型的能力,以便您能將一些自訂資訊諸如UserID等透傳到模型側。 詳細內容,請參見業務參數透傳阿里雲百鍊大模型

使用者未講話識別及處理

您可以通過回調監聽的方式通過監聽intent_recognized參數來獲得每一次使用者的講話時間。詳細內容,請參見智能體回調。 以便您在識別到使用者長期未講話時,能夠做出對應的業務處理,常見處理方式:

對話內容文本轉錄 & 音視頻錄製

您可以對整個陪練過程中產生的音頻資料或者文本資料進行留存。具體操作方式,請參見如何?資料歸檔

方案進階功能

逐句口語評測

在口語陪練情境中,若您希望對使用者講的每一句話的音頻進行發音評測,AI即時互動為您提供了使用者說話逐句音頻檔案錄製的能力,使用者講的每一句話的音頻將會被即時錄製並儲存到您指定的OSS中。您可以針對音頻檔案進行發音評測。

說明

AI即時互動僅提供了檔案逐句錄製的能力,暫不提供音訊評測能力。如何設定音頻逐句回調,請參見智能體回調