DataWorks資料地圖為您提供中繼資料採集功能,方便您將DataWorks不同資料來源的中繼資料進行統一匯總管理,您可以在資料地圖查看從各資料來源彙集而來的中繼資料資訊。本文為您介紹如何建立採集器,將各資料來源的中繼資料資訊彙集至DataWorks。
功能概述
中繼資料採集是構建企業級資料地圖、實現資料資產統一管理的核心功能。它通過運行“採集器”(Crawler),自動地從分散在同一地區下不同工作空間的DataWorks資料來源(如MaxCompute、Hologres、MySQL、CDH Hive等),抽取技術中繼資料(庫、表、欄位等)、資料血緣、分區資訊等,彙集到DataWorks資料地圖中,為您提供統一的資料檢視。
通過中繼資料採集,您可以:
構建統一資料檢視:打破資料孤島,將多源異構的中繼資料集中管理。
支援資料發現與搜尋:讓資料消費者能快速、準確地找到所需資料。
實現全鏈路血緣分析:清晰地追溯資料的來龍去脈,便於影響分析和問題排查。
賦能資料治理:基於完整的中繼資料進行資料分類分級、許可權管控、品質監控和生命週期管理。
計費說明
每次採集任務預設消耗0.25CU*任務已耗用時間,涉及資源群組費用。每次成功採集將產生一個調度執行個體,涉及任務調度計費。
使用限制
功能入口
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的,在右側頁面中單擊進入資料地圖。
在左側導覽列中,單擊
進入中繼資料採集頁面。
系統內建採集器
系統內建採集器由DataWorks平台預置並自動執行採集(准即時),主要用於採集與DataWorks深度整合的核心中繼資料。您無需建立,僅需進行簡單的範圍管理。
若在資料地圖中,沒有找到目標表,可進入,手動同步相關表。
MaxCompute 預設採集器
用於採集您帳號下MaxCompute專案的中繼資料。您可以進入詳情頁,通過修改資料範圍來選擇需要採集的專案,並通過許可權配置來設定中繼資料在租戶內的可見度。
在中繼資料採集頁面的系統內建地區,找到 MaxCompute Default Crawler 卡片,單擊詳情。
MaxCompute Default Crawler詳情頁包含基本資料和資料範圍兩個標籤頁。
基本資料:展示採集器的基礎屬性,如採集類型、方式等,此處資訊為唯讀。
資料範圍:管理此採集器要採集哪些MaxCompute專案。
修改採集範圍:
切換到資料範圍頁簽,單擊修改資料範圍按鈕。
在彈出的對話方塊中,勾選或取消勾選您希望採集的MaxCompute專案。
重要預設範圍為本租戶下當前地區下綁定到工作空間的所有MaxCompute專案。修改資料範圍後,在資料地圖中採集的中繼資料對象和當前資料範圍保持一致,即未勾選的中繼資料將不可見。
單擊確定儲存更改。
配置中繼資料可見度:
在資料範圍列表中,找到目標專案,單擊其操作列下的許可權配置。
根據您的資料治理要求,選擇可見度策略:
租戶內公開:租戶內所有成員都可以搜尋和查看該專案的中繼資料。
僅關聯的工作空間下的成員可搜尋和查看:只有特定工作空間的成員才能訪問該專案的中繼資料,保障資料的隔離性。
DLF 預設採集器
若需支援 DLF 中繼資料的即時採集,需要在 DLF 控制台授予服務關聯角色AliyunServiceRoleForDataworksOnEmr的Data Reader許可權。
DLF Default Crawler採集器用於採集您帳號下DLF(Data Lake Formation)中的中繼資料。
在中繼資料採集頁面的系統內建地區,找到 DLF Default Crawler 卡片,單擊詳情查看基本資料。
切換到資料範圍頁簽,查看當前已納入採集範圍的DLF Catalog列表及其包含的表數量。
預設會採集所有可訪問的Catalog(包含DLF以及DLF-Legacy版本)。
自訂採集器
當您需要採集Hologres、StarRocks、MySQL、Oracle、CDH Hive等多種資料來源的中繼資料時,需要建立自訂採集器。
建立自訂採集器
在中繼資料採集頁面的自訂採集器列表地區,單擊建立中繼資料採集。
選擇採集類型:在類型選擇頁面,選擇要採集的目標資料來源類型,例如Hologres、StarRocks等。
配置基礎與資源群組:
基礎配置:
選擇工作空間:選擇採集資料來源所在的工作空間。
選擇資料來源:從下拉式清單中選擇一個已建立好的目標資料來源。選擇後,系統會自動展示該資料來源的詳細資料。
名稱:為採集器命名,以便後續識別。預設和資料來源同名。
資源群組配置:
資源群組:選擇一個用於執行採集任務的資源群組。
測試連通性:此步驟至關重要。單擊測試連通性,確保資源群組可以成功訪問資料來源。
重要請確認資料來源是否開啟白名單限制,如果需要採集已開啟白名單存取控制的中繼資料,請參考網路連通方案概述和通用配置:添加白名單配置白名單許可權。
如果資料來源未開啟白名單限制,請參考資源群組操作及網路連通文檔進行資料來源網路打通。
配置中繼資料採集:
採集範圍:定義需要採集的資料庫(Database/Schema)。若資料來源為資料庫粒度,預設選中資料來源對應的資料庫,可支援選擇資料來源之外的更多資料庫。
重要同一個資料庫僅支援配置在一個採集器中,若不可勾選資料庫,則表示該資料庫已被其他採集器採集。
當縮小採集範圍後,資料地圖中將搜尋不到採集範圍外的中繼資料。
配置智能增強與採集計劃:
智能增強配置 (Beta):
AI採集描述:開啟後,系統將利用大模型能力,在採集中繼資料後,為您的表和欄位自動產生業務描述,極大提升中繼資料可讀性和易用性。可在採集完畢之後,進入資料地圖表對象的詳情頁查看AI智能產生的資訊(例如,表說明、欄位描述)。
採集計劃:
觸發方式:選擇手動或周期。
手動:採集器僅在您手動觸發時運行,適用於一次性或按需採集的情境。
周期:配置定時任務(如每月、每日、每周、每小時),系統將自動周期性地更新中繼資料。
若需要配置分鐘級定時任務,採集周期選擇每小時,並勾選所有分鐘粒度,可實現每5分鐘的定時任務。
重要僅生產環境資料來源支援周期採集方式。
儲存配置:單擊儲存或儲存並運行,完成採集器的建立。
管理自訂採集器
採集器建立後,會出現在自訂欄表中,您可以進行如下管理操作:
列表操作:在列表中,您可以直接對採集器進行運行、停止、刪除等操作。通過頂部的篩選和搜尋功能,可以快速定位目標採集器。
重要刪除中繼資料採集器後,該採集器在資料地圖中採集的中繼資料對象也將失效,使用者將無法搜尋、查看來自於該採集器的對象及詳細資料。請謹慎操作!
查看詳情與日誌:單擊目標採集器名稱,進入其詳情頁。
基本資料:查看採集器的所有配置項。
資料範圍:查看或修改資料範圍。
未採集時查看,表數量和最新動向時間將顯示為空白。
以下資料來源不支援修改範圍:EMR Hive、CDH Hive、Lindorm、Elasticsearch、OTS以及 AnalyticDB MySQL中的AnalyticDB for Spark。
作業記錄:跟蹤每一次採集任務的執行歷史。您可以查看任務的開始時間、耗時、狀態和採集的資料量。當任務失敗時,單擊查看日誌是定位和解決問題的關鍵入口。
手動執行採集:在詳情頁右上方,單擊採集中繼資料按鈕,可以立即觸發一次採集任務。適用於在新表建立後希望立刻在資料地圖中看到它的情境。
後續步驟
中繼資料採集成功後,您便可以充分利用資料地圖的各項能力:
常見問題
Q:MySQL等資料庫類採集逾時或失敗?
A:請檢查是否將資源群組的交換器網段添加至白名單。
附錄:採集範圍和實效
資料表
資料來源類型 | 採集方式 | 採集粒度 | 中繼資料更新時效性 | ||
表/欄位 | 分區 | 血緣 | |||
MaxCompute | 系統預設自動採集 | 執行個體 | 普通專案:即時 外部項目:T+1 | 中國內地地區:即時 海外地區:T+1 | 即時 |
Data Lake Formation(DLF) | 執行個體 | 即時 | 即時 | Serverless Spark、Serverless StarRocks、Serverless Flink引擎的DLF 中繼資料,支援展示血緣;其他不支援。 重要 若為EMR叢集,需開啟EMR_HOOK。 | |
Hologres | 手動建立採集器 | 庫 | 取決於採集周期 | 即時 | |
EMR Hive | 執行個體 | 取決於採集周期 | 取決於採集周期 | 即時 重要 需要為叢集開啟EMR_HOOK。 | |
CDH Hive | 執行個體 | 取決於採集周期 | 即時 | 即時 | |
StarRocks | 庫 |
| 即時 重要 僅執行個體模式支援血緣資訊採集,串連串模式無法採集血緣資訊。 | ||
AnalyticDB for MySQL | 庫 | 取決於採集周期 | 即時 說明 需要提交工單為AnalyticDB for MySQL執行個體開啟資料血緣功能。 | ||
AnalyticDB for Spark | 執行個體 | 即時 | 即時 | ||
AnalyticDB for PostgreSQL | 庫 | 取決於採集周期 | 即時 | ||
Lindorm | 執行個體 | 取決於採集周期 | 即時 | ||
OTS | 執行個體 | 取決於採集周期 | |||
其他資料來源類型(MySQL、PostgreSQL、SQL Server、Oracle、ClickHouse、SelectDB等) | 庫 | 取決於採集周期 | |||
AnalyticDB for Spark與AnalyticDB for MySQL使用同一個中繼資料採集入口。
任務代碼
資料地圖支援任務程式碼搜尋與快速定位,以下為支援搜尋的代碼範圍說明。
代碼來源 | 採集口徑 | 觸發採集方式 |
資料開發 | 資料開發 - 建立節點並編輯代碼 | 自動採集 |
資料開發(舊版) | 資料開發(舊版) - 建立節點並編輯代碼 | |
資料分析 | 資料分析 - 建立SQL查詢並編輯代碼 | |
資料服務 | 資料服務 - 建立API資料推送服務 |
API資產
資料地圖支援查看資料服務API的中繼資料,具體如下:
API類型 | 採集口徑 | 觸發採集方式 |
產生API(嚮導模式) | 資料服務 - 通過嚮導模式建立API | 自動採集 |
產生API(指令碼模式) | 資料服務 - 通過指令碼模式建立API | |
註冊API | 資料服務 - 註冊API | |
服務編排 | 資料服務 - 建立服務編排 |
AI資產
資料地圖支援查看與管理AI資產,並提供AI資產血緣功能用於追蹤資料和模型的來源、使用及演變過程,以下為各AI資產的支援情況。
資產類型 | 採集口徑 | 觸發採集方式 |
資料集 |
| 自動採集 |
AI模型 | PAI - 模型訓練任務/註冊模型/部署模型服務 | |
演算法任務 | PAI - 訓練任務/工作流程工作/分布式訓練任務 | |
模型服務 | PAI - 部署模型服務(EAS部署) |
工作空間
資料地圖支援查看工作空間中繼資料,具體如下:
專案 | 採集方式 | 觸發採集方式 |
工作空間 | DataWorks - 建立工作空間 | 自動採集 |