全部產品
Search
文件中心

DataHub:快速入門

更新時間:May 29, 2025

步驟一:開通DataHub服務

  1. 登入DataHub服務控制台

  2. 根據頁面提示開通服務。

步驟二:建立Project和Topic

  1. 登入DataHub服務控制台

  2. 單機建立專案按鈕 後填寫相關資訊進行建立。1-1

參數

描述

Project

專案(Project)是DataHub資料的基主要組織單元,下麵包含多個Topic。值得注意的是,DataHub的專案空間與MaxCompute的專案空間是相互獨立的。使用者在MaxCompute中建立的專案不能複用於DataHub,需要獨立建立。

描述

Project的描述資訊

3 . 點擊Project詳情頁面中的建立Topic按鈕,進行Topic的建立。建立topic

參數

描述

建立方式

專案(Project)是DataHub資料的基主要組織單元,下麵包含多個Topic。值得注意的是,DataHub的專案空間與MaxCompute的專案空間是相互獨立的。使用者在MaxCompute中建立的專案不能複用於DataHub,需要獨立建立。

名稱

Topic的描述資訊

類型

Topic類型,TUPLE代表結構化資料,BLOB代表非結構化資料。

Schema詳情

選擇TUPLE類型會出現Schema詳情,根據自己需求建立欄位,允許為NULL代表如果上遊沒有該欄位值自動置為NULL,不允許為NULL則會嚴格檢驗,欄位類型不符寫入報錯。

Shard數量

Shard表示對一個Topic進行資料轉送的並發通道,每個Shard會有對應的ID。每個Shard會有多種狀態 : Opening - 啟動中,Active - 啟動完成可服務。每個Shard啟用以後會佔用一定的服務端資源,建議按需申請Shard數量。

生命週期

Topic中寫入資料在系統中可以儲存的最長時間,以天為單位,最小值為1,最大值為7,修改生命週期需要使用 JAVA SDK updateTopic方法

描述

Topic的描述資訊

步驟三:寫入資料

DataHub支援多種寫入方式,針對日誌可以選擇Flume等多種外掛程式,針對資料庫可以選擇DTS、canal,也可以通過SDK寫入,在這裡使用console工具上傳檔案的方式寫入資料。

  1. 下載並解壓console工具包,配置ak和endpoint 資訊console使用指南

  2. 使用uf命令上傳檔案。

    uf -f /temp/test.csv -p test_topic -t test_topic -m "," -n 1000
  3. Web頁面查看資料是否寫入成功,根據最新資料寫入時間和資料總量查看資料寫入情況。1

  4. 資料抽樣,檢查資料品質。

    1. 選擇抽樣shard以及抽樣起始時間。

    2. 點擊抽樣,即可查看資料。

2

步驟四:同步資料

以同步MaxCompute為例。

  1. 依次進入專案列表/Project詳情/Topic詳情頁面。

  2. 點擊右上方的 + 同步按鈕進行同步任務建立。5-1

  3. 選擇MaxCompute類型作業,如下圖所示:

    1)TUPLE類型同步5-2

部分配置說明:

下面羅列了部分管控台建立同步任務的配置說明,更多更靈活的操作請參考SDK使用。

  1. 匯入欄位

    DataHub可以根據使用者佈建將部分column內容同步到MaxCompute表中。

  2. 分區模式

    分區模式決定了將資料寫入到MaxCompute哪個分區中,目前DataHub支援以下分區方式:

分區模式

分區依據

支援Topic類型

說明

USER_DEFINE

Record中的分區列(和MaxCompute的分區欄位同名)的value值

TUPLE

(1). DataHub schema中必須包含MaxCompute分區欄位 (2). 該列值必須為非空UTF8字串

SYSTEM_TIME

Record寫入DataHub的時間

TUPLE / BLOB

(1). 分區配置中設定MaxCompute分區的時間轉換Format格式 (2). 設定時區資訊

EVENT_TIME

Record中的event_time(TIMESTAMP)列的value值

TUPLE

(1). 分區配置中設定MaxCompute分區的時間轉換Format格式 (2). 設定時區資訊

META_TIME

Record的屬性欄位__dh_meta_time__的value值

TUPLE / BLOB

(1). 分區配置中設定MaxCompute分區的時間轉換Format格式 (2). 設定時區資訊

其中SYSTEM_TIMEEVENT_TIMEMETA_TIME均是根據時間Timestamp和時區配置來進行MaxCompute分區的轉換過程,單位預設為微秒。

  1. 分區配置決定了根據時間戳記轉換MaxCompute分區時的相關配置。目前管控台預設固定的MaxCompute分區格式,分區配置對應為:

分區

時間Format

說明

ds

%Y%m%d

day

hh

%H

hour

mm

%M

minute

  1. 分區間隔決定了根據時間戳記轉換MaxCompute分區時所採用的時間間隔。時間範圍是15分鐘 ~ 1440分鐘(1天),跳變間隔15分鐘

  2. 時區資訊(TimeZone)時區資訊決定了根據時間戳記轉換MaxCompute分區時所採用的轉換時區。

  3. 分隔字元BLOB資料同步時,可以指定16進位分隔字元來決定是否對BLOB資料分割後再同步MaxCompute,比如 0A表示\n(分行符號)

  4. Base64編碼DataHub BLOB預設儲存位元據,而MaxCompute對應的同步列為STRING類型,因此管控台建立同步任務時,預設採用base64編碼後進行同步,更多定製化需求請參考SDK實現。

步驟六:查看同步任務

可以點擊對應connector的詳情頁面查看同步任務的運行狀態和點位等資訊, 包含同步點位、同步狀態以及重啟和停止等操作,如下圖所示:5-4

詳情請參看同步MaxCompute