通過DataWorks控制台將Tablestore中的增量資料同步到OSS中。

步驟一:新增Tablestore資料來源

如果已新增Tablestore資料來源,請跳過此步驟。

新增Tablestore資料來源。具體操作,請參見步驟一:新增Tablestore資料來源

步驟二:新增OSS資料來源

如果已新增OSS資料來源,請跳過此步驟。

新增OSS資料來源。具體操作,請參見步驟二:新增OSS資料來源

步驟三:配置定時同步任務

建立並配置Tablestore到OSS的增量資料同步任務,具體操作步驟如下:

  1. 進入資料開發。
    1. 以專案系統管理員身份登入DataWorks控制台
      说明 僅專案系統管理員角色可以新增資料來源,其他角色的成員僅可查看資料來源。
    2. 在左側導覽列,單擊工作空間列表後,選擇地區。
    3. 工作空間列表頁面,單擊工作空間操作列的資料開發
  2. 在DataStudio控制台的資料開發頁面,單擊商務程序節點下的目標商務程序。

    如果需要建立商務程序,請參見步驟二:建立商務程序

  3. 建立同步任務節點。
    每個同步任務都需建立一個相應的節點。
    1. Data Integration節點上右鍵選擇建立 > 離線同步
      您也可以將滑鼠移至上方在fig_addnode表徵圖,選擇Data Integration > 離線同步來建立節點。
    2. 建立節點對話方塊,輸入節點名稱,選擇一個目標檔案夾。
      fig_tasknew
    3. 單擊確認
  4. 配置資料來源。
    1. Data Integration節點下,雙擊同步任務節點。
    2. 在同步任務節點的編輯頁面的選擇資料來源地區,配置資料來源和資料去向。
      • 配置資料來源。

        選擇資料來源資料來源OTS Stream,選擇資料來源和資料表,可根據需要配置任務開始時間、結束時間、狀態表的名稱、最大重試次數等。

      • 配置資料去向。

        選擇資料去向資料來源OSS,選擇資料來源,配置Object首碼、文本類型、列的分隔字元等。

      fig_oss_002
    3. 單擊script表徵圖,進行指令碼配置。

      使用過程中涉及OTSStream Reader和OSS Writer外掛程式的配置。具體操作,請參見配置OTSStream Reader配置OSS Writer

      在指令碼配置頁面,請根據如下樣本完成配置。
      {
      "type": "job",
      "version": "1.0",
      "configuration": {
      "setting": {
      "errorLimit": {
       "record": "0"  # 允許出錯的個數,當錯誤超過這個數目的時候同步任務會失敗。
      },
      "speed": {
       "mbps": "1",  # 每次同步任務的最大流量。
       "concurrent": "1"   # 每次同步任務的並發度。
      }
      },
      "reader": {
      "plugin": "otsstream",  # Reader外掛程式的名稱。
      "parameter": {
       "datasource": "", # Tablestore的資料來源名稱,如果有此項則無需配置endpoint,accessId,accessKey和instanceName。
       "dataTable": "", # Tablestore中的資料表名稱。
       "statusTable": "TablestoreStreamReaderStatusTable", # 儲存Tablestore Stream狀態的表,一般無需修改。
       "startTimestampMillis": "",  # 開始匯出的時間點,由於是增量匯出,需要迴圈啟動此任務,則此處每次啟動時的時間都不同,因此需要設定一個變數,例如${start_time}。
       "endTimestampMillis": "",  # 結束匯出的時間點。此處也需要設定一個變數,例如${end_time}。
       "date": "yyyyMMdd",  # 匯出該日期的資料,此功能與startTimestampMillis和endTimestampMillis重複,需要刪除。
       "mode": "single_version_and_update_only", # Tablestore Stream匯出資料的格式,目前需要設定為single_version_and_update_only。如果配置模板中無此項,則需要增加。
       "column":[  # 設定資料表中需要匯出到OSS中的列,如果配置模板中無此項則需要增加,具體列個數由使用者自訂設定。
                {
                   "name": "uid"  # 列名,此處是Tablestore中的主鍵。
                },
                {
                   "name": "name"  # 列名,此處是Tablestore中的屬性列。
                },
       ],
       "isExportSequenceInfo": false, # single_version_and_update_only模式下只能設定為false。
       "maxRetries": 30 # 最大重試次數。
      }
      },
      "writer": {
      "plugin": "oss", # Writer外掛程式的名稱。
      "parameter": {
       "datasource": "", # OSS的資料來源名稱。
       "object": "",  # 備份到OSS的檔案名稱首碼,建議使用"Tablestore執行個體名/表名/date",例如"instance/table/{date}"。
       "writeMode": "truncate", # 當同名檔案存在時系統進行的操作,可選值包括truncate、append和nonConflict,truncate表示會清理已存在的同名檔案,append表示會加到已存在的同名檔案內容後面,nonConflict表示當同名檔案存在時會報錯。
       "fileFormat": "csv", # 檔案類型,可選值包括csv、txt和parquet格式。
       "encoding": "UTF-8", # 編碼類別型。
       "nullFormat": "null", # 定義null值的字串標識符方式,可以是Null 字元串。
       "dateFormat": "yyyy-MM-dd HH:mm:ss", # # 時間格式。
       "fieldDelimiter": "," # 每一列的分隔字元。
      }
      }
      }
      }
    4. 在同步任務節點的編輯頁面的右側單擊Data Integration資源群組配置,選擇獨享Data Integration資源群組。
      如果未建立獨享Data Integration資源群組,請單擊建立獨享Data Integration資源群組進行建立。
    5. 單擊save表徵圖,儲存資料來源配置。
  5. 運行同步任務。
    1. 單擊start表徵圖。
    2. 參數對話方塊,選擇調度的資源群組。
    3. 單擊確定,開始運行任務。
      運行結束後,在作業記錄頁簽中可以查看任務是否成功和匯出的資料行數。

      Tablestore的增量資料可以在延遲5~10分鐘的基礎上自動同步到OSS中。

  6. 配置調度參數。
    通過調度配置,可以配置同步任務的執行時間、重跑屬性、調度依賴等。
    1. Data Integration節點下,雙擊同步任務節點。
    2. 在同步任務節點的編輯頁面的右側單擊調度配置,進行調度參數配置。更多資訊,請參見步驟四:設定周期和依賴
  7. 提交同步任務。
    將同步任務提交到調度系統後,調度系統會根據配置的調度參數,自動定時執行同步任務。
    1. 在同步任務節點的編輯頁面,單擊submit表徵圖。
    2. 提交新版本對話方塊,輸入備忘資訊。
    3. 單擊確認

步驟四:查看同步任務

  1. 進入營運中心。
    说明 您也可以在DataStudio控制台的右上方單擊營運中心,快速進入營運中心。
    1. 以專案系統管理員身份登入DataWorks控制台
    2. 在左側導覽列,單擊工作空間列表後,選擇地區。
    3. 工作空間列表頁面,移動滑鼠到工作空間操作列的fig_more表徵圖後選擇營運中心
  2. 在營運中心控制台,選擇周期任務營運 > 周期任務
  3. 周期任務頁面,查看提交的同步任務詳情。
    當單個任務在運行中或運行結束後,可以查看日誌。
    说明 在左側導覽列中,選擇周期任務營運 > 周期執行個體,可以查看當天需要啟動並執行周期任務。單擊執行個體名稱,可以查看任務運行詳情。

步驟五:查看匯出到OSS中的資料

  1. 登入OSS管理主控台
  2. 選擇相應Bucket和檔案名稱,下載後可查看內容是否符合預期。