全部產品
Search
文件中心

ApsaraVideo Live:即時音視頻簡介

更新時間:Oct 14, 2025

傳統直播以單向內容傳播為主,觀眾參與度和商業轉化率較低。阿里雲即時音視頻(ApsaraVideo Real-time Communication)通過語音交談、視頻連麥、遊戲互動等功能,讓觀眾從觀看者變為參與者,增強使用者串連。本文將為您介紹即時音視頻的產品架構、應用情境及功能特性。

產品架構

阿里雲即時音視頻ARTC憑藉其先進的技術架構和最佳化演算法,為開發人員和企業提供了高效、穩定且便於使用的SDK和API介面,支援包括但不限於iOS、Android、Web及Windows等平台的無縫整合。此外,您還可以通過與阿里雲其他產品的聯動,進一步擴充更多業務情境。

應用情境

社交語聊

支援最多50人同時上麥,端到端延時150-400ms,提供變聲、混響、美聲等多種聲音玩法。如果您需要保障語音內容合規,我們還提供了內容審核服務及第三方對接能力,協助您快速上線完整方案。更多詳情,請參見語聊房K歌房即時音視訊通話

語聊房

image

K歌房

image.png

即時音視頻

雙人通話.png

直播連麥

適用於主播與觀眾連麥、主播PK互動以及多人連麥等玩法。支援端到端延時150-400ms,並實現觀眾上下麥平滑切換。此外,該功能可與阿里雲標準直播和超低延時直播無縫聯動,支援10萬+觀眾並發觀看。更多詳情,請參見直播連麥

主播&觀眾連麥

image

主播和主播PK

image

AI即時互動

協助企業快速構建AI音視訊通話應用。使用者通過簡單的白屏化操作,即可在10分鐘內搭建專屬AI智能體,並通過視頻雲網路與終端使用者即時互動。更多詳情,請參見AI即時互動概覽

語音通話

lQDPJxfI6jx3dVXNC6zNBaCwBmqQRhnIAYIHiTmemZYXAA_1440_2988

數字人通話

lQDPJwMuwU90JFXNC6zNBaCwNbn8uKeIjbgHiTmd5-WQAA_1440_2988

視覺理解通話

lQDPJwpRBT4ppFXNC6zNBaCwzODP1_m-L7MHiTmc7Nh_AA_1440_2988

功能特性

功能

功能說明

常見應用情境

計費說明

視訊通話

兩人或群組視訊通話,支援最低480P、720P、1080P高清畫質。

1對1視頻、群組視訊會議、視頻客服、即時音視訊通話等。

音視訊通話費用

語音通話

兩人或多人語音通話。

1對1語音通話、多人語音通話、語音交談、即時音視訊通話等。

視頻互動

支援480P、720P、1080P等解析度的群組視訊互動,端到端延時300ms內。

超低延時直播、主播跨房間PK等。

語音互動

支援48KHz高音質語音互動。

語聊房K歌房直播連麥等。

雲端錄製

支援將音視頻流錄製至OSS或VOD。

存檔、合規審查等。

錄製費用

雲端轉碼

確保音視頻內容能夠流暢、高品質地在各種環境中傳輸與播放。

錄製格式轉換。

轉碼費用

混流轉推

支援將多路流按照一定規則進行混流,並支援轉推至阿里雲直播或第三方。

多畫面直播、大型多方會議、多教師協同授課等。

轉推費用

語音審核

支援無縫對接阿里雲語音審核,或手動對接第三方審核。

業務安全檢查,內容合規等。

智能審核費用

視頻審核

支援無縫對接阿里雲視頻審核,或手動對接第三方審核。

業務安全檢查,內容合規等。

視頻美顏

提供多種版本的美顏特效。

視訊通話、互動直播、線上課堂等。

美顏特效費用

混響

支援走廊、教堂、錄音棚、地下室、音樂廳等多種混響效果。

語音通話、視訊通話、語聊房、K 歌房等。

免費

變聲

支援電音、老人、大叔、蘿莉等多種變聲效果。

K 歌房、語聊房等。

智能降噪

在高保真還原人聲前提下,智能消除周邊噪音、抑制突發噪音、消除多裝置嘯叫。

語音通話、多人會議等。

低延時耳返

在音頻採集、處理與播放過程中,將使用者即時發出的聲音經過極短的延遲後,通過耳機(或其他音訊輸出裝置)反饋給使用者。

互動直播、K 歌房、錄音房等。

音頻3A

即AEC(回聲消除)、ANS(自動雜訊抑制)、AGC(自動增益控制)。

含語音情境。

螢幕分享

將電腦案頭、視窗或指定地區共用給其他使用者,並支援與網路攝影機畫面同時顯示。

線上課堂、遠程協助等。

空間音效

通過特定音頻技術,類比聲音在三維空間中的傳播效果,為使用者營造出具有空間感、方位感和沉浸感的音頻體驗。

K歌房、語聊房等。

自訂音視頻輸入

支援使用者輸入外部音視頻流資料。

自訂美顏、自訂音效等。

核心優勢

  • 全球範圍內高品質服務:RTC、直播、點播節點在全球實現 3200 + 節點覆蓋,設有 9 大媒體中心,分別位於北京、深圳、上海、青島、新加坡、德國、日本、印尼、沙特,同時擁有 3 大混流 / 轉推中心,地處上海、新加坡以及沙特(利雅得),保證您在全球範圍內服務的高可用。

  • 安全合規:全球通話合規資質完整與隱私保護標準認證完整。

  • 多樣化產品融合:聯動ECS、OSS、安全、直播、點播、數字人、AI等產品形成一站式解決方案。

  • 易於整合:

    • 情境化API整合:將底層原子API介面從業務情境視角進行封裝,簡化開發難度。詳細內容,請參見開發參考

    • 多情境實踐提供:涵蓋1V1通話、直播連麥、語聊房、KTV等情境。詳細內容,請參見情境方案

使用限制

  • 頻道內使用者容量

    • 互動模式:預設最大人數麥上(主播角色)17人,麥下(觀眾角色)1000人。

      說明

      互動直播情境使用旁路轉推到ApsaraVideo for Live可實現不限觀眾人數。

    • 通訊模式:預設最大人數50人。

  • 每個使用者只可同時發布1路主流(音視頻/純音頻/純視頻)和1路螢幕畫面分享流。

相關概念

本部分介紹使用阿里雲即時音視頻的相關概念 。

概念

說明

SDKAppID

阿里雲即時音視頻通過不同的應用(通過SDKAppID表示)管理客戶業務。通常您需要為不同的業務建立獨立SDKAppID,並通過SDKAppID實現業務和配置隔離。

ChannelID

頻道(通過ChannelID表示)是阿里雲即時音視頻定義的音視頻空間,同一個頻道內的使用者可以彼此進行音視頻互動。阿里雲也針對部分特定情境提供了跨頻道使用者間的音視頻互動能力。

UserID

UserID是使用者在即時音視頻中的唯一使用者標識,在同一個應用裡UserID具有全域唯一性。

Token

Token是阿里雲設計的一種安全保護簽名,目的是為了阻止惡意攻擊者盜用您的雲端服務使用權。您需要在相應SDK的登入函數中提供SdkAppIDUserID房間IDTimeStampToken資訊。

流是指將音頻和視頻資料經過壓縮編碼後,通過網路連續傳輸並可即時播放的資料流。

發布

發布指使用者將本地的音視頻資料上傳到阿里雲服務端的操作,對應推流

訂閱

訂閱指使用者將阿里雲服務端的音視頻拉取到本地的操作,對應拉流

Role

在即時音視頻裡有主播角色觀眾角色主播角色既發行就緒音視頻流,也可以訂閱音視頻流。觀眾角色僅支援訂閱音視頻流。使用者可以在通話過程中切換角色。

混流轉推

通過混流轉推您可以將指定的多路音視頻流進行混流布局、音視頻編碼參數設定等,並將處理完的流轉推至阿里雲ApsaraVideo for Live或第三方直播平台。

當您將流轉推至阿里雲ApsaraVideo for Live後,您可以基於ApsaraVideo for Live產品開展轉碼、錄製、直播觀看等業務。

SEI

SEI(Supplemental Enhancement Information,補充增強資訊)是視頻編碼通訊協定(如 H.264/AVC 和 H.265/HEVC)中的一部分,用於傳輸與視頻內容相關的附加資訊。