全部產品
Search
文件中心

DataHub:建立同步RDS/MySQL/ADS3.0

更新時間:Jul 13, 2024

同步資料到RDS

準備工作

1.準備RDS執行個體和表結構使用RDS管控台建立RDS執行個體,可選擇傳統網路和VPC網路,同樣,建立DataHub同步任務時,請選擇正確的網路類型。DataHub同步時,會根據DataHub Field的資料類型同步到對應的RDS資料類型中,對應的類型映射關係如下所示:

DataHub

RDS

TINYINT

TINYINT

SMALLINT

SMALLINT

INTEGER

INT

BIGINT

BIGINT

STRING

VARCHAR

BOOLEAN

BOOLEAN / TINYINT

FLOAT

FLOAT

DOUBLE

DOUBLE

TIMESTAMP

TIMESTAMP / BIGINT

DECIMAL

DECIMAL

DataHub 中的 TINYINT , SMALLINT , INTEGER , FLOAT 類型從 java sdk 2.16.1-public 開始支援。2.RDS白名單和內網地址使用者使用DataHub同步功能時,需要在RDS管控台中配置IP白名單以便DataHub服務訪問使用者RDS服務,DataHub服務對應的IP白名單地址域參考IP白名單同樣,在建立DataHub同步任務時,使用者需要填寫RDS內網地址以確保網路連通性。3.同步說明1)目前DataHub僅支援將TUPLE資料同步到RDS服務中2)DataHub中的TIMESTAMP預設按照微秒(Microsecond)時間轉換成RDS TIMESTAMP類型,請使用者注意控制資料精度3)為了避免並發讀寫同一個主鍵資料出現加鎖競爭,請使用者確保同一主鍵的資料寫入到DataHub同一Shard中4)使用VPC網路時,請確保DataHub Topic和RDS執行個體在同一個Region

建立同步任務

  1. 依次進入專案列表/Project詳情/Topic詳情頁面

  2. 點擊右上方的 + 同步按鈕進行同步任務建立10-1

下面羅列了部分管控台建立同步任務的配置說明,更多更靈活的操作請參考SDK使用。

  1. HostRDS服務地址,請務必填寫內網地址以確保服務聯通性

  2. 匯入欄位DataHub可以根據使用者佈建將部分column內容同步到RDS表中

  3. 寫入模式包括IGNORE和OVERWRITE兩種模式

    • IGNORE: 忽略重複資料,即INSERT IGNORE INTO寫入

    • OVERWRITE: 更新重複資料,即REPLACE INTO寫入

  4. VpcId和執行個體ID當使用者的RDS處於VPC網路時,需要填寫對應的VpcId資訊和RDS執行個體資訊

    同步樣本

  5. 建立RDS執行個體和表結構在RDS管控台中建立RDS執行個體和資料表,如下圖所示:10-2

  6. 建立DataHub Topic在DataHub中建立Topic,樣本中為TUPLE類型topic,schema如下圖所示:10-3

  7. 建立同步任務這裡寫入模式選擇IGNORE,匯入所有欄位10-4

  8. 向DataHub中寫入TUPLE資料,資料內容如下圖所示,共4條資料10-5

  9. 確認同步資料這裡採用MySQL用戶端串連RDS服務查看資料,資料結果如下圖所示:10-6

同步資料到MySQL

準備工作

1.準備MySQL執行個體和表結構使用MySQL管控台建立MySQL執行個體

DataHub同步時,會根據DataHub Field的資料類型同步到對應的MySQL資料類型中,對應的類型映射關係如下所示:

DataHub

MySQL

TINYINT

TINYINT

SMALLINT

SMALLINT

INTEGER

INT

BIGINT

BIGINT

STRING

VARCHAR

BOOLEAN

BOOLEAN / TINYINT

FLOAT

FLOAT

DOUBLE

DOUBLE

TIMESTAMP

TIMESTAMP / BIGINT

DECIMAL

DECIMAL

DataHub 中的 TINYINT , SMALLINT , INTEGER , FLOAT 類型從 java sdk 2.16.1-public 開始支援。

2.同步說明1)目前DataHub僅支援將TUPLE資料同步到MySQL服務中2)DataHub中的TIMESTAMP預設按照微秒(Microsecond)時間轉換成MySQL TIMESTAMP類型,請使用者注意控制資料精度3)為了避免並發讀寫同一個主鍵資料出現加鎖競爭,請使用者確保同一主鍵的資料寫入到DataHub同一Shard中

建立同步任務

  1. 依次進入專案列表/Project詳情/Topic詳情頁面

  2. 點擊右上方的 + 同步按鈕進行同步任務建立

10-7

下面羅列了部分管控台建立同步任務的配置說明,更多更靈活的操作請參考SDK使用。

  1. HostMySQL服務地址,請務必填寫內網地址以確保服務聯通性

  2. 匯入欄位DataHub可以根據使用者佈建將部分column內容同步到MySQL表中

  3. 寫入模式包括IGNORE和OVERWRITE兩種模式

    • IGNORE: 忽略重複資料,即INSERT IGNORE INTO寫入

    • OVERWRITE: 更新重複資料,即REPLACE INTO寫入

同步樣本

  1. 建立MySQL執行個體和表結構在MySQL管控台中建立MySQL執行個體和資料表

  2. 建立DataHub Topic在DataHub中建立Topic,樣本中為TUPLE類型topic,schema如下圖所示:

10-8

  1. 建立同步任務這裡寫入模式選擇IGNORE,匯入所有欄位

10-9

  1. 向DataHub中寫入TUPLE資料,資料內容如下圖所示,共4條資料

10-10

  1. 確認同步資料這裡採用MySQL用戶端串連MySQL服務查看資料,資料結果如下圖所示:

10-11

同步資料到ADS3.0

準備工作

1.準備ADS執行個體和表結構使用ADS管控台建立ADS執行個體,可選擇傳統網路和VPC網路,同樣,建立DataHub同步任務時,請選擇正確的網路類型。DataHub同步時,會根據DataHub Field的資料類型同步到對應的ADS資料類型中,對應的類型映射關係如下所示:

DataHub

ADS

TINYINT

TINYINT

SMALLINT

SMALLINT

INTEGER

INT

BIGINT

BIGINT

STRING

VARCHAR

BOOLEAN

BOOLEAN / TINYINT

FLOAT

FLOAT

DOUBLE

DOUBLE

TIMESTAMP

TIMESTAMP / BIGINT

DECIMAL

DECIMAL

DataHub 中的 TINYINT , SMALLINT , INTEGER , FLOAT 類型從 java sdk 2.16.1-public 開始支援。2.ADS白名單和內網地址使用者使用DataHub同步功能時,需要在RDS管控台中配置IP白名單以便DataHub服務訪問使用者ADS服務,DataHub服務對應的IP白名單地址域參考 IP白名單地址同樣,在建立DataHub同步任務時,使用者需要填寫ADS內網地址以確保網路連通性。3.同步說明1)目前DataHub僅支援將TUPLE資料同步到ADS服務中2)DataHub中的TIMESTAMP預設按照微秒(Microsecond)時間轉換成ADS TIMESTAMP類型,請使用者注意控制資料精度3)為了避免並發讀寫同一個主鍵資料出現加鎖競爭,請使用者確保同一主鍵的資料寫入到DataHub同一Shard中4)使用VPC網路時,請確保DataHub Topic和ADS執行個體在同一個Region

建立同步任務

  1. 依次進入專案列表/Project詳情/Topic詳情頁面

  2. 點擊右上方的 + 同步按鈕進行同步任務建立10-12

下面羅列了部分管控台建立同步任務的配置說明,更多更靈活的操作請參考SDK使用。

  1. HostRDS服務地址,請務必填寫內網地址以確保服務聯通性

  2. 匯入欄位DataHub可以根據使用者佈建將部分column內容同步到RDS表中

  3. 寫入模式包括IGNORE和OVERWRITE兩種模式

    • IGNORE: 忽略重複資料,即INSERT IGNORE INTO寫入

    • OVERWRITE: 更新重複資料,即REPLACE INTO寫入

  4. VpcId和執行個體ID,如圖所示:

10-13

注意:填入執行個體ID時需要注意加上-controller,例如上圖所示叢集ID為am-bp10732mzu7wd78x9,則執行個體ID填寫am-bp10732mzu7wd78x9-controller

同步樣本

  1. 建立ADS執行個體和表結構

  2. 建立DataHub Topic在DataHub中建立Topic,樣本中為TUPLE類型topic,schema如下圖所示:10-14

  3. 建立同步任務這裡寫入模式選擇IGNORE,匯入所有欄位10-15

  4. 向DataHub中寫入TUPLE資料,資料內容如下圖所示,共4條資料10-16

  5. 確認同步資料這裡採用MySQL用戶端串連ADS服務查看資料,資料結果如下圖所示:10-17