全部產品
Search
文件中心

Intelligent Speech Interaction:什麼是Intelligent Speech Interaction

更新時間:Mar 17, 2026

Intelligent Speech Interaction(Intelligent Speech Interaction)是基於語音辨識、語音合成、自然語言理解等技術,為企業在多種實際應用情境下,賦予產品“能聽、會說、懂你”式的智能人機互動功能。適用於智能問答、智能質檢、法庭庭審即時記錄、即時演講字幕、訪談錄音轉寫等情境,在金融、司法、電商等多個領域均有應用。

說明

全新的智能語言互動2.0版本現發行。您可以使用自學習平台等工具改善語音辨識效果,而且我們為您提供了功能更豐富的管理主控台和更易用的SDK,歡迎開通體驗。

更多產品諮詢問題,可搜DingTalk群號44949861入群諮詢專家。

從0到1入門視頻

一句話識別

對時間長度較短(一分鐘以內)的語音進行識別,適用於較短的語音互動情境,如語音搜尋、語音指令、語音短訊息等,可整合在各類App、智能家電、智能助手等產品中。更多資訊,請參見一句話識別介面說明

即時語音辨識

對不限時間長度的音頻流做即時識別,達到“邊說邊出文字”的效果,內建智能斷句,可提供每句話開始結束時間。可用於視頻即時直播字幕、即時會議記錄、即時法庭庭審記錄、智能語音助手等情境。更多資訊,請參見即時語音辨識介面說明

錄音檔案識別

對使用者上傳的錄音檔案進行識別,可用於話務中心語音質檢、庭審資料庫錄入、會議記錄總結、醫院病曆錄入等情境。更多資訊,請參見錄音檔案識別介面說明

說明

針對免費使用者,系統可在24小時內完成識別並返回識別文本;針對付費客戶,系統可在3小時之內完成識別並返回識別文本,一次性上傳大規模資料(半小時內上傳超過500小時時間長度的錄音)的除外。有大規模資料轉寫需求的客戶,可與售前專家另行溝通。

語音合成

通過先進的深度學習技術,將文本轉換成自然流暢的語音。目前有多種音色可供選擇,並提供調節語速、語調、音量等功能。適用於智能客服、語音互動、文學有聲閱讀和無障礙播報等情境。更多資訊,請參見語音合成介面說明

語音合成CosyVoice大模型

語音合成CosyVoice大模型服務是依託大規模預訓練語言模型,深度融合文本理解和語音產生的一項新型語音合成技術,能夠精準解析並詮釋各類常值內容,將其轉化為宛如真人般的自然語音。

語音合成聲音定製(企業版)

為您提供深度定製的TTS(Text to Speech)聲音功能:使用先進的深度學習技術,用更少的資料量,更快速高效地定製高表現力的TTS聲音。將自然流暢的聲音輸出到服務或裝置上。

如果您想體驗定製的聲音、瞭解定製流程,請聯絡:nls_support@service.aliyun.com

自學習平台

您可以使用自學習平台提升識別效果。它提供了訓練熱詞自學習語言模型兩種方式。語音辨識服務中,通過添加熱詞和使用熱詞模型來改善識別結果。在司法、金融等領域,利用語言模型定製進行最佳化,提高該業務情境下的識別準確率。

學習路線

  • 快速入門:快速體驗Intelligent Speech Interaction服務。

  • 產品定價:瞭解Intelligent Speech Interaction服務的計費情況。

  • 開發指南:掌握相關術語、擷取Access Token等內容。

  • 管控台指南:詳細瞭解管控台提供的各項功能。

  • 介面參考選擇需要的服務:一句話識別、即時語音辨識、錄音檔案識別、語音合成等。

  • 自學習平台:通過自學習平台的熱詞、語言模型定製提升識別效果。

  • 最佳實務:瞭解Intelligent Speech Interaction服務的最佳實現方式。

  • 常見問題:查詢常見問題的解決方案。