流式資料擷取處理分發-資料匯流排 DataHub-阿里雲

阿里雲流資料處理平台資料匯流排DataHub是流式資料（Streaming Data）的處理平台，提供流式資料的發布 (Publish)、訂閱（Subscribe）和分發功能，支援構建基於流式資料的分析和應用。

產品概述

資料匯流排（DataHub）是阿里雲提供的一款流式資料（Streaming Data）處理平台，核心功能包括流式資料的發布（Publish）、訂閱（Subscribe）與分發，支援構建基於流式資料的分析和應用。

主要能力

資料擷取：DataHub服務對各種行動裝置、應用軟體、網站服務及感應器等多種來源產生的大量流式資料，進行持續採集、儲存和處理。
即時處理：寫入DataHub的流式資料（如Web訪問日誌、應用事件等）可通過Realtime Compute引擎（如StreamCompute）或自訂應用程式處理，以產生即時圖表、警示資訊、統計資料等即時的資料處理結果。

整體架構

DataHub基於阿里雲自研的飛天分布式平台，具有高可用、低延遲、高可擴充、高吞吐的特點。
通過統一的REST API對外提供能力，上層應用可通過多語言SDK與之互動。
同時DataHub也與MaxCompute、StreamCompute等雲產品或計算引擎無縫串連，支援使用SQL進行流資料分析。
DataHub服務也提供分發流式資料到各種雲產品的功能，目前支援分發到MaxCompute（原ODPS），OSS等。

產品優勢

高吞吐：最高支援單Shard每日1.6億層級的寫入量。
實用性：即時收集不同來來源資料並即時處理，快速響應業務。
易用性
- 提供包括C++、Java、Python、Go等語言的SDK包。
- 提供Restful API規範，支援自訂實現提供者。
- 提供包括Fluentd、Logstash、Flume等常用的用戶端外掛程式。
- 支援強Schema的結構化資料（建立Tuple類型的Topic）和無類型的非結構化資料（建立Blob類型的Topic）。
高可用
- 服務可用性不低於99.9%。
- 資料持久性不低於99.999%。
- 規模自動擴充，不影響對外服務。
- 資料自動多重冗餘備份。
動態伸縮
每個主題（Topic）的資料流吞吐能力可以動態擴充和減少，最高可達到每主題256000 Records/s的輸送量。
高安全性
- 提供企業級多層次安全防護，多使用者資源隔離機制。
- 提供多種鑒權和授權機制及白名單、主子帳號功能。

使用情境

資料匯流排DataHub作為流式資料處理服務，可以結合阿里雲眾多雲產品，構建一站式的資料處理服務。

Realtime ComputeStreamCompute

Realtime ComputeFlink是阿里雲提供的Realtime Compute引擎，提供使用類SQL的語言來進行流式計算。資料匯流排DataHub和StreamCompute無縫結合，可以作為StreamCompute的資料來源和輸出源，具體可參考Realtime Compute（Realtime Compute）。

流處理應用

支援使用者自訂應用訂閱資料匯流排DataHub中的資料，並即時加工，輸出處理結果。應用計算產生的結果可以進一步輸出到資料匯流排DataHub中，並使用另外一個應用來處理上一個應用產生的流式資料，從而構建出資料處理流程的DAG。

流式資料歸檔

流式資料可以歸檔到MaxCompute（原ODPS）中。通過建立資料匯流排DataHub Connector，指定相關配置，即可建立將資料匯流排DataHub中流式資料定期歸檔的同步任務。