建立採集器採集多資料來源的中繼資料-巨量資料開發治理平台 DataWorks-阿里雲

DataWorks資料地圖為您提供中繼資料採集功能，方便您將DataWorks不同資料來源的中繼資料進行統一匯總管理，您可以在資料地圖查看從各資料來源彙集而來的中繼資料資訊。本文為您介紹如何建立採集器，將各資料來源的中繼資料資訊彙集至DataWorks。

功能概述

中繼資料採集是構建企業級資料地圖、實現資料資產統一管理的核心功能。它通過運行“採集器”（Crawler），自動地從分散在同一地區下不同工作空間的DataWorks資料來源（如MaxCompute、Hologres、MySQL、CDH Hive等），抽取技術中繼資料（庫、表、欄位等）、資料血緣、分區資訊等，彙集到DataWorks資料地圖中，為您提供統一的資料檢視。

通過中繼資料採集，您可以：

構建統一資料檢視：打破資料孤島，將多源異構的中繼資料集中管理。
支援資料發現與搜尋：讓資料消費者能快速、準確地找到所需資料。
實現全鏈路血緣分析：清晰地追溯資料的來龍去脈，便於影響分析和問題排查。
賦能資料治理：基於完整的中繼資料進行資料分類分級、許可權管控、品質監控和生命週期管理。

計費說明

每次採集任務預設消耗0.25CU×任務已耗用時間，涉及資源群組費用。每次成功採集將產生一個調度執行個體，涉及調度執行個體數費用。

使用限制

當您需要採集已開啟白名單存取控制的資料來源的中繼資料時，則需要提前配置好資料庫的白名單許可權。詳情請參見中繼資料採集白名單。
DataWorks目前不建議跨地區採集中繼資料，即DataWorks所在的地區需要與資料來源所在的地區相同。如需跨地區採集中繼資料，請在建立資料來源時使用公網地址。詳情請參見資料來源管理。
暫不支援使用MySQL中繼資料採集器來採集OceanBase資料來源。
暫不支援對開啟SSL的AnalyticDB for MySQL資料來源進行中繼資料採集。

功能入口

登入DataWorks控制台，切換至目標地區後，單擊左側導覽列的資料治理 > 資料地圖，在右側頁面中單擊進入資料地圖。
在左側導覽列中，單擊進入中繼資料採集頁面。

系統內建採集器

系統內建採集器由DataWorks平台預置並自動執行採集（准即時），主要用於採集與DataWorks深度整合的核心中繼資料。您無需建立，僅需進行簡單的範圍管理。

重要

若在資料地圖中，沒有找到目標表，可進入我的數據 > 我的工具 > 刷新錶元數據，手動同步相關表。

MaxCompute 預設採集器

用於採集您帳號下MaxCompute專案的中繼資料。您可以進入詳情頁，通過修改數據範圍來選擇需要採集的專案，並通過權限配置來設定中繼資料在租戶內的可見度。

在中繼資料採集頁面的系統內置地區，找到 MaxCompute Default Crawler 卡片，單擊詳情。
MaxCompute Default Crawler詳情頁包含基本信息和數據範圍兩個標籤頁。
- 基本信息：展示採集器的基礎屬性，如採集類型、方式等，此處資訊為唯讀。
- 數據範圍：管理此採集器要採集哪些MaxCompute專案。
修改採集範圍：
1. 切換到數據範圍頁簽，單擊修改數據範圍按鈕。
2. 在彈出的對話方塊中，勾選或取消勾選您希望採集的MaxCompute專案。
  重要
  預設範圍為本租戶下當前地區下綁定到工作空間的所有MaxCompute專案。修改資料範圍後，在資料地圖中採集的中繼資料對象和當前資料範圍保持一致，即未勾選的中繼資料將不可見。
3. 單擊確定儲存更改。
配置中繼資料可見度：
- 在數據範圍列表中，找到目標專案，單擊其操作列下的權限配置。
- 根據您的資料治理要求，選擇可見度策略：
  - 租戶內公開：租戶內所有成員都可以搜尋和查看該專案的中繼資料。
  - 僅關聯的工作空間下的成員可搜索和查看：只有特定工作空間的成員才能訪問該專案的中繼資料，保障資料的隔離性。

DLF 預設採集器

重要

若需支援 DLF 中繼資料的即時採集，需要在 DLF 控制台授予服務關聯角色AliyunServiceRoleForDataworksOnEmr的Data Reader許可權。

DLF Default Crawler採集器用於採集您帳號下DLF（Data Lake Formation）中的中繼資料。

在中繼資料採集頁面的系統內置地區，找到 DLF Default Crawler 卡片，單擊詳情查看基本資料。
切換到數據範圍頁簽，查看當前已納入採集範圍的DLF Catalog列表及其包含的表數量。
預設會採集所有可訪問的Catalog（包含DLF以及DLF-Legacy版本）。

自訂採集器

自訂採集器旨在為您提供跨環境、多引擎的中繼資料統一納管能力。

針對常規資料來源
支援對 Hologres、StarRocks、MySQL、Oracle、CDH Hive 等傳統結構化或半結構化資料來源建立自訂採集器。通過配置採集任務，系統可深度解析源端的物理庫表結構，實現對欄位屬性、索引及分區等中繼資料的自動化提取與同步。
對中繼資料類型資料來源（Catalog）
針對非 DLF 託管的，自主聲明的原生湖格式中繼資料，如 Paimon Catalog等中繼資料類型資料來源，也可以通過建立採集器進行直接採集。

創建自定義採集器

在中繼資料採集頁面的自訂採集器列表地區，單擊建立中繼資料採集。
選擇採集類型：在類型選擇頁面，選擇要採集的目標資料來源類型，例如Hologres、StarRocks等。
配置基礎與資源群組：
- 基礎配置：
  - 選擇工作空間：選擇採集資料來源所在的工作空間。
  - 選擇數據源：從下拉式清單中選擇一個已建立好的目標資料來源。選擇後，系統會自動展示該資料來源的詳細資料。
  - 名稱：為採集器命名，以便後續識別。預設和資料來源同名。
- 資源組配置：
  - 資源組：選擇一個用於執行採集任務的資源群組。
  - 測試連通性：此步驟至關重要。單擊測試連通性，確保資源群組可以成功訪問資料來源。
    重要
    請確認資料來源是否開啟白名單限制，如果需要採集已開啟白名單存取控制的中繼資料，請參考網路連通方案概述和通用配置：添加白名單配置白名單許可權。
    如果資料來源未開啟白名單限制，請參考資源群組操作及網路連通文檔進行資料來源網路打通。
    如遇連通性測試報錯：後端服務調用失敗：test connectivity failed.not support data type，請聯絡支援人員對資源群組進行升級。
配置中繼資料採集：
- 採集範圍：定義需要採集的資料庫（Database/Schema）。若資料來源為資料庫粒度，預設選中資料來源對應的資料庫，可支援選擇資料來源之外的更多資料庫。
  重要
  - 同一個資料庫僅支援配置在一個採集器中，若不可勾選資料庫，則表示該資料庫已被其他採集器採集。
  - 當縮小採集範圍後，資料地圖中將搜尋不到採集範圍外的中繼資料。
配置智能增強與採集計劃：
- 智能增強配置 (Beta)：
  - AI採集描述：開啟後，系統將利用大模型能力，在採集中繼資料後，為您的表和欄位自動產生業務描述，極大提升中繼資料可讀性和易用性。可在採集完畢之後，進入資料地圖表對象的詳情頁查看AI智能產生的資訊（例如，表說明、欄位描述）。
- 採集計劃：
  - 觸發方式：選擇手動或周期。
    - 手動：採集器僅在您手動觸發時運行，適用於一次性或按需採集的情境。
    - 周期：配置定時任務（如每月、每日、每周、每小時），系統將自動周期性地更新中繼資料。
      若需要配置分鐘級定時任務，採集周期選擇每小時，並勾選所有分鐘粒度，可實現每5分鐘的定時任務。
      重要
      僅生產環境資料來源支援周期採集方式。
儲存配置：單擊保存或保存並運行，完成採集器的建立。

管理自訂採集器

採集器建立後，會出現在自訂欄表中，您可以進行如下管理操作：

列表操作：在列表中，您可以直接對採集器進行運行、停止、删除等操作。通過頂部的篩選和搜索功能，可以快速定位目標採集器。
重要
刪除中繼資料採集器後，該採集器在資料地圖中採集的中繼資料對象也將失效，使用者將無法搜尋、查看來自於該採集器的對象及詳細資料。請謹慎操作！
查看詳情與日誌：單擊目標採集器名稱，進入其詳情頁。
- 基本信息：查看採集器的所有配置項。
- 數據範圍：查看或修改數據範圍。
  未採集時查看，表數量和最新動向時間將顯示為空白。
  以下資料來源不支援修改範圍：EMR Hive、CDH Hive、Lindorm、Elasticsearch、OTS、MongoDB以及 AnalyticDB MySQL中的AnalyticDB for Spark。
- 運行日誌：跟蹤每一次採集任務的執行歷史。您可以查看任務的開始時間、耗時、狀態和採集的資料量。當任務失敗時，單擊查看日誌是定位和解決問題的關鍵入口。
手動執行採集：在詳情頁右上方，單擊採集元數據按鈕，可以立即觸發一次採集任務。適用於在新表建立後希望立刻在資料地圖中看到它的情境。

後續步驟

中繼資料採集成功後，您便可以充分利用資料地圖的各項能力：

在資料地圖中搜尋您採集的表，查看其詳情、欄位資訊、分區和資料預覽。詳情請參見中繼資料詳情。
分析表的上下遊血緣關係，瞭解資料加工全鏈路。詳情請參見資料血緣分析。
將資產加入資料專輯，從業務視角組織和管理您的資料。詳情請參見資料專輯。

常見問題

Q：MySQL等資料庫類採集逾時或失敗？
A：請檢查是否將資源群組的交換器網段添加至白名單。

附錄：採集範圍和實效

資料表

數據源類型	採集方式	採集粒度	中繼資料更新時效性
數據源類型	採集方式	採集粒度	表/欄位	分區	血緣
MaxCompute	系統預設自動採集	執行個體	普通專案：即時外部項目：T+1	中國內地地區：即時海外地區：T+1	即時
Data Lake Formation（DLF）	系統預設自動採集	執行個體	即時	即時	Serverless Spark、Serverless StarRocks、Serverless Flink引擎的DLF 中繼資料，支援展示血緣；其他不支援。重要若為EMR叢集，需開啟EMR_HOOK。
Hologres	手動建立採集器	庫	取決於採集周期	不支援	即時
EMR Hive		執行個體	取決於採集周期	取決於採集周期	即時重要需要為叢集開啟EMR_HOOK。
CDH Hive		執行個體	取決於採集周期	即時	即時
StarRocks		庫	執行個體模式：即時。串連串模式：取決於採集周期。	不支援	即時重要僅執行個體模式支援血緣資訊採集，串連串模式無法採集血緣資訊。
AnalyticDB for MySQL		庫	取決於採集周期	不支援	即時說明需要提交工單為AnalyticDB for MySQL執行個體開啟資料血緣功能。
AnalyticDB for Spark		執行個體	即時	不支援	即時
AnalyticDB for PostgreSQL		庫	取決於採集周期	不支援	即時
Lindorm		執行個體	取決於採集周期	不支援	即時
OTS		執行個體	取決於採集周期	不支援	不支援
MongoDB		執行個體	取決於採集周期	不支援	不支援
Elasticsearch		執行個體	取決於採集周期	不支援	T+1更新
Paimon Catalog		Catalog	取決於採集周期	取決於採集周期	不支援
其他資料來源類型（MySQL、PostgreSQL、SQL Server、Oracle、ClickHouse、SelectDB等）		庫	取決於採集周期	不支援	不支援

說明

AnalyticDB for Spark與AnalyticDB for MySQL使用同一個中繼資料採集入口。

任務代碼

資料地圖支援任務程式碼搜尋與快速定位，以下為支援搜尋的代碼範圍說明。

代碼來源	採集口徑	觸發採集方式
資料開發	資料開發 - 建立節點並編輯代碼	自動採集
資料開發（舊版）	資料開發（舊版） - 建立節點並編輯代碼
資料分析	資料分析 - 建立SQL查詢並編輯代碼
資料服務	資料服務 - 建立API資料推送服務

API資產

資料地圖支援查看資料服務API的中繼資料，具體如下：

API類型	採集口徑	觸發採集方式
產生API（嚮導模式）	資料服務 - 通過嚮導模式建立API	自動採集
產生API（指令碼模式）	資料服務 - 通過指令碼模式建立API
註冊API	資料服務 - 註冊API
服務編排	資料服務 - 建立服務編排

AI資產

資料地圖支援查看與管理AI資產，並提供AI資產血緣功能用於追蹤資料和模型的來源、使用及演變過程，以下為各AI資產的支援情況。

資產類型	採集口徑	觸發採集方式
資料集	PAI - 建立資料集/註冊資料集 DataWorks-建立資料集	自動採集
AI模型	PAI - 模型訓練任務/註冊模型/部署模型服務
演算法任務	PAI - 訓練任務/工作流程工作/分布式訓練任務
模型服務	PAI - 部署模型服務（EAS部署）

工作空間

資料地圖支援查看工作空間中繼資料，具體如下：

專案	採集方式	觸發採集方式
工作空間	DataWorks - 建立工作空間	自動採集