全部產品
Search
文件中心

DataHub:建立同步OSS

更新時間:Jul 13, 2024

準備工作

1.準備OSS BucketDataHub支援將資料同步到Object Storage Service中,在建立同步任務前,使用者首先需要在OSS管控台建立OSS Bucket,作為DataHub資料同步的目標Bucket。2.服務關聯角色授權使用者配置同步任務時,帳號可以選擇使用AccessId/AccessKey靜態雲帳號或者STS臨時帳號的方式進行資料同步。當選擇STS臨時帳號方式時,將會自動建立DataHub服務關聯角色,DataHub服務會使用此角色訪問OSS以完成資料同步

3.同步說明1)目前DataHub支援將TUPLE和BLOB資料同步到OSS中

  • TUPLE: 採用csv資料格式,每個Record中的column資料以逗號分隔,Record之間採用分行符號'\N'分隔

  • BLOB: 採用Append方式進行資料追加,如果使用者需要拆分OSS資料,使用者需要自己往DataHub中寫入資料分隔字元

2)檔案格式同步到OSS中的檔案名稱採用ConnectorId等有含義資訊拼接而成,暫時不支援使用者修改3)二級目錄DataHub同步會根據資料寫入DataHub的時間來產生二級目錄,預設Asia/Shanghai時區,更多配置可參考SDK方式建立。

建立同步任務

  1. 依次進入專案列表/Project詳情/Topic詳情頁面

  2. 點擊右上方的 + 同步按鈕進行同步任務建立1

下面羅列了部分管控台建立同步任務的配置說明,更多更靈活的操作請參考SDK使用。

  1. EndpointOSS服務地址,請使用傳統網路網域名稱,內部網路僅支援http,暫不支援HTTPS

  2. 匯入欄位DataHub可以根據使用者佈建將部分column內容同步到OSS檔案中

  3. 目錄首碼資料同步到OSS Bucket下面的目錄名稱

  4. 時間格式和時間間隔DataHub會根據資料寫入DataHub的時間來決定寫入到上述目錄首碼的二級目錄名稱時間間隔表示二級目錄的資料時間範圍,預設[15min ~ 1440min(1day)]

同步樣本

  1. 建立OSS Bucket在OSS管控台中建立同步Bucket,如下圖所示:2

  2. 建立DataHub Topic在DataHub中建立Topic,樣本中為TUPLE類型topic,schema如下圖所示:3

  3. 建立同步任務4

  4. 向DataHub中寫入TUPLE資料,資料內容如下圖所示5

  5. 確認同步資料同步檔案在OSS中的命名格式如下圖所示:包含Bucket、目錄首碼、二級目錄以及檔案名稱等6下載該檔案,並查看檔案內容,TUPLE同步檔案內容為csv資料格式,如下圖所示:7