能聽會說懂你的智能人機互動功能-Intelligent Speech Interaction-阿里雲

Intelligent Speech Interaction（Intelligent Speech Interaction）是基於語音辨識、語音合成、自然語言理解等技術，為企業在多種實際應用情境下，賦予產品“能聽、會說、懂你”式的智能人機互動功能。適用於智能問答、智能質檢、法庭庭審即時記錄、即時演講字幕、訪談錄音轉寫等情境，在金融、司法、電商等多個領域均有應用。

說明

全新的智能語言互動2.0版本現發行。您可以使用自學習平台等工具改善語音辨識效果，而且我們為您提供了功能更豐富的管理主控台和更易用的SDK，歡迎開通體驗。

更多產品諮詢問題，可搜DingTalk群號44949861入群諮詢專家。

從0到1入門視頻

一句話識別

對時間長度較短（一分鐘以內）的語音進行識別，適用於較短的語音互動情境，如語音搜尋、語音指令、語音短訊息等，可整合在各類App、智能家電、智能助手等產品中。更多資訊，請參見一句話識別介面說明。

即時語音辨識

對不限時間長度的音頻流做即時識別，達到“邊說邊出文字”的效果，內建智能斷句，可提供每句話開始結束時間。可用於視頻即時直播字幕、即時會議記錄、即時法庭庭審記錄、智能語音助手等情境。更多資訊，請參見即時語音辨識介面說明。

錄音檔案識別

對使用者上傳的錄音檔案進行識別，可用於話務中心語音質檢、庭審資料庫錄入、會議記錄總結、醫院病曆錄入等情境。更多資訊，請參見錄音檔案識別介面說明。

說明

針對免費使用者，系統可在24小時內完成識別並返回識別文本；針對付費客戶，系統可在3小時之內完成識別並返回識別文本，一次性上傳大規模資料（半小時內上傳超過500小時時間長度的錄音）的除外。有大規模資料轉寫需求的客戶，可與售前專家另行溝通。

語音合成

通過先進的深度學習技術，將文本轉換成自然流暢的語音。目前有多種音色可供選擇，並提供調節語速、語調、音量等功能。適用於智能客服、語音互動、文學有聲閱讀和無障礙播報等情境。更多資訊，請參見語音合成介面說明。

語音合成CosyVoice大模型

語音合成CosyVoice大模型服務是依託大規模預訓練語言模型，深度融合文本理解和語音產生的一項新型語音合成技術，能夠精準解析並詮釋各類常值內容，將其轉化為宛如真人般的自然語音。

語音合成聲音定製（企業版）

為您提供深度定製的TTS（Text to Speech）聲音功能：使用先進的深度學習技術，用更少的資料量，更快速高效地定製高表現力的TTS聲音。將自然流暢的聲音輸出到服務或裝置上。

如果您想體驗定製的聲音、瞭解定製流程，請聯絡：nls_support@service.aliyun.com。

自學習平台

您可以使用自學習平台提升識別效果。它提供了訓練熱詞和自學習語言模型兩種方式。語音辨識服務中，通過添加熱詞和使用熱詞模型來改善識別結果。在司法、金融等領域，利用語言模型定製進行最佳化，提高該業務情境下的識別準確率。

學習路線

快速入門：快速體驗Intelligent Speech Interaction服務。
產品定價：瞭解Intelligent Speech Interaction服務的計費情況。
開發指南：掌握相關術語、擷取Access Token等內容。
管控台指南：詳細瞭解管控台提供的各項功能。
介面參考選擇需要的服務：一句話識別、即時語音辨識、錄音檔案識別、語音合成等。
自學習平台：通過自學習平台的熱詞、語言模型定製提升識別效果。
最佳實務：瞭解Intelligent Speech Interaction服務的最佳實現方式。
常見問題：查詢常見問題的解決方案。