通過DataWorks控制台將Tablestore中的增量資料同步到OSS中。
步驟二:新增OSS資料來源
如果已新增OSS資料來源,請跳過此步驟。
新增OSS資料來源。具體操作,請參見步驟二:新增OSS資料來源。
步驟三:配置定時同步任務
建立並配置Tablestore到OSS的增量資料同步任務,具體操作步驟如下:
- 進入資料開發。
- 以專案系統管理員身份登入DataWorks控制台。
说明 僅專案系統管理員角色可以新增資料來源,其他角色的成員僅可查看資料來源。
- 在左側導覽列,單擊工作空間列表後,選擇地區。
- 在工作空間列表頁面,單擊工作空間操作列的資料開發。
- 在DataStudio控制台的資料開發頁面,單擊商務程序節點下的目標商務程序。
- 建立同步任務節點。
每個同步任務都需建立一個相應的節點。
- 在Data Integration節點上右鍵選擇。
您也可以將滑鼠移至上方在
表徵圖,選擇來建立節點。
- 在建立節點對話方塊,輸入節點名稱,選擇一個目標檔案夾。
- 單擊確認。
- 配置資料來源。
- 在Data Integration節點下,雙擊同步任務節點。
- 在同步任務節點的編輯頁面的選擇資料來源地區,配置資料來源和資料去向。
- 單擊表徵圖,進行指令碼配置。
使用過程中涉及OTSStream Reader和OSS Writer外掛程式的配置。具體操作,請參見配置OTSStream Reader和配置OSS Writer。
在指令碼配置頁面,請根據如下樣本完成配置。
{
"type": "job",
"version": "1.0",
"configuration": {
"setting": {
"errorLimit": {
"record": "0" # 允許出錯的個數,當錯誤超過這個數目的時候同步任務會失敗。
},
"speed": {
"mbps": "1", # 每次同步任務的最大流量。
"concurrent": "1" # 每次同步任務的並發度。
}
},
"reader": {
"plugin": "otsstream", # Reader外掛程式的名稱。
"parameter": {
"datasource": "", # Tablestore的資料來源名稱,如果有此項則無需配置endpoint,accessId,accessKey和instanceName。
"dataTable": "", # Tablestore中的資料表名稱。
"statusTable": "TablestoreStreamReaderStatusTable", # 儲存Tablestore Stream狀態的表,一般無需修改。
"startTimestampMillis": "", # 開始匯出的時間點,由於是增量匯出,需要迴圈啟動此任務,則此處每次啟動時的時間都不同,因此需要設定一個變數,例如${start_time}。
"endTimestampMillis": "", # 結束匯出的時間點。此處也需要設定一個變數,例如${end_time}。
"date": "yyyyMMdd", # 匯出該日期的資料,此功能與startTimestampMillis和endTimestampMillis重複,需要刪除。
"mode": "single_version_and_update_only", # Tablestore Stream匯出資料的格式,目前需要設定為single_version_and_update_only。如果配置模板中無此項,則需要增加。
"column":[ # 設定資料表中需要匯出到OSS中的列,如果配置模板中無此項則需要增加,具體列個數由使用者自訂設定。
{
"name": "uid" # 列名,此處是Tablestore中的主鍵。
},
{
"name": "name" # 列名,此處是Tablestore中的屬性列。
},
],
"isExportSequenceInfo": false, # single_version_and_update_only模式下只能設定為false。
"maxRetries": 30 # 最大重試次數。
}
},
"writer": {
"plugin": "oss", # Writer外掛程式的名稱。
"parameter": {
"datasource": "", # OSS的資料來源名稱。
"object": "", # 備份到OSS的檔案名稱首碼,建議使用"Tablestore執行個體名/表名/date",例如"instance/table/{date}"。
"writeMode": "truncate", # 當同名檔案存在時系統進行的操作,可選值包括truncate、append和nonConflict,truncate表示會清理已存在的同名檔案,append表示會加到已存在的同名檔案內容後面,nonConflict表示當同名檔案存在時會報錯。
"fileFormat": "csv", # 檔案類型,可選值包括csv、txt和parquet格式。
"encoding": "UTF-8", # 編碼類別型。
"nullFormat": "null", # 定義null值的字串標識符方式,可以是Null 字元串。
"dateFormat": "yyyy-MM-dd HH:mm:ss", # # 時間格式。
"fieldDelimiter": "," # 每一列的分隔字元。
}
}
}
}
- 在同步任務節點的編輯頁面的右側單擊Data Integration資源群組配置,選擇獨享Data Integration資源群組。
如果未建立獨享Data Integration資源群組,請單擊建立獨享Data Integration資源群組進行建立。
- 單擊表徵圖,儲存資料來源配置。
- 運行同步任務。
- 單擊表徵圖。
- 在參數對話方塊,選擇調度的資源群組。
- 單擊確定,開始運行任務。
運行結束後,在
作業記錄頁簽中可以查看任務是否成功和匯出的資料行數。
Tablestore的增量資料可以在延遲5~10分鐘的基礎上自動同步到OSS中。
- 配置調度參數。
通過調度配置,可以配置同步任務的執行時間、重跑屬性、調度依賴等。
- 在Data Integration節點下,雙擊同步任務節點。
- 在同步任務節點的編輯頁面的右側單擊調度配置,進行調度參數配置。更多資訊,請參見步驟四:設定周期和依賴。
- 提交同步任務。
將同步任務提交到調度系統後,調度系統會根據配置的調度參數,自動定時執行同步任務。
- 在同步任務節點的編輯頁面,單擊表徵圖。
- 在提交新版本對話方塊,輸入備忘資訊。
- 單擊確認。
步驟四:查看同步任務
- 進入營運中心。
说明 您也可以在DataStudio控制台的右上方單擊營運中心,快速進入營運中心。
- 以專案系統管理員身份登入DataWorks控制台。
- 在左側導覽列,單擊工作空間列表後,選擇地區。
- 在工作空間列表頁面,移動滑鼠到工作空間操作列的表徵圖後選擇營運中心。
- 在營運中心控制台,選擇。
- 在周期任務頁面,查看提交的同步任務詳情。
當單個任務在運行中或運行結束後,可以查看日誌。
说明 在左側導覽列中,選擇,可以查看當天需要啟動並執行周期任務。單擊執行個體名稱,可以查看任務運行詳情。
步驟五:查看匯出到OSS中的資料
- 登入OSS管理主控台。
- 選擇相應Bucket和檔案名稱,下載後可查看內容是否符合預期。