DataWorks的Check節點可用於檢查目標對象(MaxCompute分區表、FTP檔案、OSS檔案、HDFS檔案、OSS_HDFS檔案以及即時同步任務)是否可用,當Check節點滿足檢查策略後會返回運行成功狀態。如果某任務的運行依賴目標對象,您可使用Check節點檢查目標對象,並設定該任務為Check節點的下遊任務,當Check節點滿足檢查策略後,便會運行成功並觸發下遊任務執行。本文為您介紹Check節點支援檢查的對象、具體的檢查策略、以及如何配置Check節點。
節點介紹
檢查節點,可對MaxCompute分區表、FTP檔案、OSS檔案、HDFS檔案、OSS_HDFS檔案以及即時同步任務進行監控檢查,可實現的情境如下:
DataWorks調度系統中的任務需要訪問一個外部資料庫時,由於該資料庫的相關資料寫入任務不在DataWorks中,DataWorks無法知道該資料庫何時完成寫入任務並可以被訪問。如果DataWorks讀取未寫入完成的資料,則可能導致讀取的資料不全或讀取失敗。為了保證DataWorks任務正常執行,所以採用檢查節點來對錶、檔案或同步任務進行檢查,確保下遊任務運行時的資料能被完全讀取。
版本限制
僅支援DataWorks專業版及以上版本。
前提條件
RAM帳號添加至對應空間(可選)。
進行任務開發的RAM帳號已被添加至對應工作空間中,並具有開發或空間管理員(許可權較大,謹慎添加)角色許可權。新增成員並授權,詳情請參見為工作空間增加空間成員。
對應空間已綁定Serverless資源群組。詳情請參見:使用Serverless資源群組。
進行檢查節點開發前,需建立對應的檢查節點,詳情請參見:建立調度工作流程的節點。
Check節點基於資料來源進行校正時,使用Check節點前,請先根據要檢查的物件類別建立好對應資料來源,具體如下。
檢查物件類別
相關準備操作
參考文檔
MaxCompute分區表
已建立MaxCompute資料來源並綁定至資料開發(DataStudio)。
在DataWorks中,您需先將MaxCompute專案建立為DataWorks的MaxCompute資料來源,才可通過該資料來源訪問相應MaxCompute專案的資料。
已建立MaxCompute分區表。
FTP檔案
已建立FTP資料來源。
在DataWorks中,您需先將FTP服務建立為DataWorks的FTP資料來源,才可通過該資料來源訪問相應FTP服務的資料。
OSS檔案
已建立OSS資料來源且資料來源訪問模式為Access Key。
在DataWorks中,您需要先將OSS的Bucket建立為DataWorks的OSS資料來源,才可通過該資料來源訪問相應Bucket中的資料。
說明目前僅支援在Check節點中通過Access Key模式訪問OSS資料來源,RAM角色授權模式配置的OSS資料來源無法用於Check節點。
HDFS檔案
已建立HDFS資料來源。
在DataWorks中,您需先將HDFS檔案建立為DataWorks的HDFS資料來源,才可通過該資料來源訪問相應HDFS檔案資料。
OSS_HDFS檔案
已建立OSS_HDFS資料來源。
在DataWorks中,您需先將OSS_HDFS服務建立為DataWorks的OSS_HDFS資料來源,才可通過該資料來源訪問相應OSS_HDFS服務的資料。
DLF表
已建立Data Lake Formation 資料來源。當前僅支援選擇Paimon類型的分區表
Check節點基於即時同步任務進行校正時,僅支援Kafka到MaxCompute的即時同步任務。使用Check節點前,請先建立好對應即時同步任務,詳情請參見DataStudio側即時同步任務配置。
注意事項
當Check任務由於上遊任務延遲,導致Check任務實際開始已耗用時間超過您在此處配置的Check任務檢查截止時間時,Check任務仍會運行但只會檢查一次。
Check任務的最大運行時間長度為24小時。
步驟一:開發檢查節點
進入已建立的開發檢查節點後,即可按照介面提示進行檢查節點配置。檢查節點可以對資料來源或即時同步任務進行檢查。
資料來源
檢查節點對象為資料來源時的配置項可參考以下表格:
配置項
配置內容
Check對象
資料來源
資料來源類型
支援資料來源如下:
MaxComputeOSSFTPHDFSOSS_HDFSDLF
資料來源名稱
可選擇與資料來源類型對應的資料來源,若沒有可選擇的目標資料來源,可單擊右側建立資料來源。
表名/路徑
若資料來源類型配置的是
MaxCompute、DLF時,可按表名來進行檢查。說明僅支援選擇分區表。
若資料來源類型配置為
OSS、FTP、HDFS、OSS_HDFS時,需配置目標檔案路徑。
Check通過條件
若Check的內容為表時,可根據表分區或LastModifiedTime的持續無更新事件進行校正。
若Check的內容為檔案時,僅支援根據檔案是否存在進行校正。
Check停止策略
Check停止時間:將按照配置的間隔時間一直檢查至所配置的時間。
Check停止次數:將按照配置的間隔時間,完成所配置的Check次數。
說明任務運行時將按照停止策略進行檢測,若在Check停止策略指定的條件下Check任務仍未檢查通過,Check任務將自動結束共置為失敗狀態。
即時同步任務
檢查節點對象為即時同步任務時的配置項可參考以下文檔:
配置項
配置內容
Check對象
即時同步任務
即時同步任務
選擇已建立的即時同步任務。
Check停止策略
Check停止時間:將按照配置的間隔時間一直檢查至所配置的時間。
Check停止次數:將按照配置的間隔時間,完成所配置的Check次數。
說明任務運行時將按照停止策略進行檢測,若在Check停止策略指定的條件下Check任務仍未檢查通過,Check任務將自動結束共置為失敗狀態。
檢查節點在配置完檢測策略後,即可進行調度配置,詳情請參見節點調度配置。