全部產品
Search
文件中心

DataHub:產品概述

更新時間:Nov 20, 2025

阿里雲流資料處理平台資料匯流排DataHub是流式資料(Streaming Data)的處理平台,提供流式資料的發布 (Publish)、訂閱(Subscribe)和分發功能,支援構建基於流式資料的分析和應用。

產品概述

資料匯流排(DataHub)是阿里雲提供的一款流式資料(Streaming Data)處理平台,核心功能包括流式資料的發布(Publish)、訂閱(Subscribe)與分發,支援構建基於流式資料的分析和應用。

主要能力

  • 資料擷取:DataHub服務對各種行動裝置、應用軟體、網站服務及感應器等多種來源產生的大量流式資料,進行持續採集、儲存和處理。

  • 即時處理:寫入DataHub的流式資料(如Web訪問日誌、應用事件等)可通過Realtime Compute引擎(如StreamCompute)或自訂應用程式處理,以產生即時圖表、警示資訊、統計資料等即時的資料處理結果。

整體架構

  • DataHub基於阿里雲自研的飛天分布式平台,具有高可用、低延遲、高可擴充、高吞吐的特點。

  • 通過統一的REST API對外提供能力,上層應用可通過多語言SDK與之互動。

  • 同時DataHub也與MaxCompute、StreamCompute等雲產品或計算引擎無縫串連,支援使用SQL進行流資料分析。

  • DataHub服務也提供分發流式資料到各種雲產品的功能,目前支援分發到MaxCompute(原ODPS),OSS等。

image

產品優勢

  • 高吞吐:最高支援單Shard每日1.6億層級的寫入量。

  • 實用性:即時收集不同來來源資料並即時處理,快速響應業務。

  • 易用性

    • 提供包括C++、Java、Python、Go等語言的SDK包。

    • 提供Restful API規範,支援自訂實現提供者。

    • 提供包括Fluentd、Logstash、Flume等常用的用戶端外掛程式。

    • 支援強Schema的結構化資料(建立Tuple類型的Topic)和無類型的非結構化資料(建立Blob類型的Topic)

  • 高可用

    • 服務可用性不低於99.9%。

    • 資料持久性不低於99.999%。

    • 規模自動擴充,不影響對外服務。

    • 資料自動多重冗餘備份。

  • 動態伸縮

    每個主題(Topic)的資料流吞吐能力可以動態擴充和減少,最高可達到每主題256000 Records/s的輸送量。

  • 高安全性

    • 提供企業級多層次安全防護,多使用者資源隔離機制。

    • 提供多種鑒權和授權機制及白名單、主子帳號功能。

使用情境

資料匯流排DataHub作為流式資料處理服務,可以結合阿里雲眾多雲產品,構建一站式的資料處理服務。

Realtime ComputeStreamCompute

Realtime ComputeFlink是阿里雲提供的Realtime Compute引擎,提供使用類SQL的語言來進行流式計算。資料匯流排DataHub和StreamCompute無縫結合,可以作為StreamCompute的資料來源和輸出源,具體可參考Realtime Compute(Realtime Compute)

image

流處理應用

支援使用者自訂應用訂閱資料匯流排DataHub中的資料,並即時加工,輸出處理結果。應用計算產生的結果可以進一步輸出到資料匯流排DataHub中,並使用另外一個應用來處理上一個應用產生的流式資料,從而構建出資料處理流程的DAG。

流式資料歸檔

流式資料可以歸檔到MaxCompute(原ODPS)中。通過建立資料匯流排DataHub Connector,指定相關配置,即可建立將資料匯流排DataHub中流式資料定期歸檔的同步任務。