全部產品
Search
文件中心

DataWorks:中繼資料採集

更新時間:Dec 13, 2025

DataWorks資料地圖為您提供中繼資料採集功能,方便您將DataWorks不同資料來源的中繼資料進行統一匯總管理,您可以在資料地圖查看從各資料來源彙集而來的中繼資料資訊。本文為您介紹如何建立採集器,將各資料來源的中繼資料資訊彙集至DataWorks。

功能概述

中繼資料採集是構建企業級資料地圖、實現資料資產統一管理的核心功能。它通過運行“採集器”(Crawler),自動地從分散在同一地區下不同工作空間的DataWorks資料來源(如MaxCompute、Hologres、MySQL、CDH Hive等),抽取技術中繼資料(庫、表、欄位等)、資料血緣、分區資訊等,彙集到DataWorks資料地圖中,為您提供統一的資料檢視。

通過中繼資料採集,您可以:

  • 構建統一資料檢視:打破資料孤島,將多源異構的中繼資料集中管理。

  • 支援資料發現與搜尋:讓資料消費者能快速、準確地找到所需資料。

  • 實現全鏈路血緣分析:清晰地追溯資料的來龍去脈,便於影響分析和問題排查。

  • 賦能資料治理:基於完整的中繼資料進行資料分類分級、許可權管控、品質監控和生命週期管理。

計費說明

每次採集任務預設消耗0.25CU*任務已耗用時間,涉及資源群組費用。每次成功採集將產生一個調度執行個體,涉及任務調度計費

使用限制

  • 當您需要採集已開啟白名單存取控制的資料來源的中繼資料時,則需要提前配置好資料庫的白名單許可權。詳情請參見中繼資料採集白名單

  • DataWorks目前不建議跨地區採集中繼資料,即DataWorks所在的地區需要與資料來源所在的地區相同。如需跨地區採集中繼資料,請在建立資料來源時使用公網地址。詳情請參見資料來源管理

  • 暫不支援使用MySQL中繼資料採集器來採集OceanBase資料來源。

功能入口

  1. 登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的資料治理 > 資料地圖,在右側頁面中單擊進入資料地圖

  2. 在左側導覽列中,單擊image進入中繼資料採集頁面。

系統內建採集器

系統內建採集器由DataWorks平台預置並自動執行採集(准即時),主要用於採集與DataWorks深度整合的核心中繼資料。您無需建立,僅需進行簡單的範圍管理。

重要

若在資料地圖中,沒有找到目標表,可進入我的資料 > 我的工具 > 重新整理表中繼資料,手動同步相關表。

MaxCompute 預設採集器

用於採集您帳號下MaxCompute專案的中繼資料。您可以進入詳情頁,通過修改資料範圍來選擇需要採集的專案,並通過許可權配置來設定中繼資料在租戶內的可見度。

  1. 在中繼資料採集頁面的系統內建地區,找到 MaxCompute Default Crawler 卡片,單擊詳情

  2. MaxCompute Default Crawler詳情頁包含基本資料資料範圍兩個標籤頁。

    • 基本資料:展示採集器的基礎屬性,如採集類型、方式等,此處資訊為唯讀。

    • 資料範圍:管理此採集器要採集哪些MaxCompute專案。

  3. 修改採集範圍

    1. 切換到資料範圍頁簽,單擊修改資料範圍按鈕。

    2. 在彈出的對話方塊中,勾選或取消勾選您希望採集的MaxCompute專案。

      重要

      預設範圍為本租戶下當前地區下綁定到工作空間的所有MaxCompute專案。修改資料範圍後,在資料地圖中採集的中繼資料對象和當前資料範圍保持一致,即未勾選的中繼資料將不可見。

    3. 單擊確定儲存更改。

  4. 配置中繼資料可見度

    • 資料範圍列表中,找到目標專案,單擊其操作列下的許可權配置

    • 根據您的資料治理要求,選擇可見度策略:

      • 租戶內公開:租戶內所有成員都可以搜尋和查看該專案的中繼資料。

      • 僅關聯的工作空間下的成員可搜尋和查看:只有特定工作空間的成員才能訪問該專案的中繼資料,保障資料的隔離性。

DLF 預設採集器

重要

若需支援 DLF 中繼資料的即時採集,需要在 DLF 控制台授予服務關聯角色AliyunServiceRoleForDataworksOnEmr的Data Reader許可權。

DLF Default Crawler採集器用於採集您帳號下DLF(Data Lake Formation)中的中繼資料。

  1. 在中繼資料採集頁面的系統內建地區,找到 DLF Default Crawler 卡片,單擊詳情查看基本資料。

  2. 切換到資料範圍頁簽,查看當前已納入採集範圍的DLF Catalog列表及其包含的表數量。

    預設會採集所有可訪問的Catalog(包含DLF以及DLF-Legacy版本)。

自訂採集器

當您需要採集HologresStarRocksMySQLOracleCDH Hive等多種資料來源的中繼資料時,需要建立自訂採集器。

建立自訂採集器

  1. 在中繼資料採集頁面的自訂採集器列表地區,單擊建立中繼資料採集

  2. 選擇採集類型:在類型選擇頁面,選擇要採集的目標資料來源類型,例如Hologres、StarRocks等。

  3. 配置基礎與資源群組

    • 基礎配置

      • 選擇工作空間:選擇採集資料來源所在的工作空間。

      • 選擇資料來源:從下拉式清單中選擇一個已建立好的目標資料來源。選擇後,系統會自動展示該資料來源的詳細資料。

      • 名稱:為採集器命名,以便後續識別。預設和資料來源同名。

    • 資源群組配置

      • 資源群組:選擇一個用於執行採集任務的資源群組。

      • 測試連通性:此步驟至關重要。單擊測試連通性,確保資源群組可以成功訪問資料來源。

        重要
  4. 配置中繼資料採集

    • 採集範圍:定義需要採集的資料庫(Database/Schema)。若資料來源為資料庫粒度,預設選中資料來源對應的資料庫,可支援選擇資料來源之外的更多資料庫。

      重要
      • 同一個資料庫僅支援配置在一個採集器中,若不可勾選資料庫,則表示該資料庫已被其他採集器採集。

      • 當縮小採集範圍後,資料地圖中將搜尋不到採集範圍外的中繼資料。

  5. 配置智能增強與採集計劃

    • 智能增強配置 (Beta)

      • AI採集描述:開啟後,系統將利用大模型能力,在採集中繼資料後,為您的表和欄位自動產生業務描述,極大提升中繼資料可讀性和易用性。可在採集完畢之後,進入資料地圖表對象的詳情頁查看AI智能產生的資訊(例如,表說明、欄位描述)。

    • 採集計劃

      • 觸發方式:選擇手動或周期。

        • 手動:採集器僅在您手動觸發時運行,適用於一次性或按需採集的情境。

        • 周期:配置定時任務(如每月、每日、每周、每小時),系統將自動周期性地更新中繼資料。

          若需要配置分鐘級定時任務,採集周期選擇每小時,並勾選所有分鐘粒度,可實現每5分鐘的定時任務。
          重要

          僅生產環境資料來源支援周期採集方式。

  6. 儲存配置:單擊儲存儲存並運行,完成採集器的建立。

管理自訂採集器

採集器建立後,會出現在自訂欄表中,您可以進行如下管理操作:

  • 列表操作:在列表中,您可以直接對採集器進行運行停止刪除等操作。通過頂部的篩選搜尋功能,可以快速定位目標採集器。

    重要

    刪除中繼資料採集器後,該採集器在資料地圖中採集的中繼資料對象也將失效,使用者將無法搜尋、查看來自於該採集器的對象及詳細資料。請謹慎操作!

  • 查看詳情與日誌:單擊目標採集器名稱,進入其詳情頁。

    • 基本資料:查看採集器的所有配置項。

    • 資料範圍:查看或修改資料範圍

      未採集時查看,表數量和最新動向時間將顯示為空白。
      以下資料來源不支援修改範圍:EMR Hive、CDH Hive、Lindorm、Elasticsearch、OTS以及 AnalyticDB MySQL中的AnalyticDB for Spark。
    • 作業記錄:跟蹤每一次採集任務的執行歷史。您可以查看任務的開始時間、耗時、狀態和採集的資料量。當任務失敗時,單擊查看日誌是定位和解決問題的關鍵入口。

  • 手動執行採集:在詳情頁右上方,單擊採集中繼資料按鈕,可以立即觸發一次採集任務。適用於在新表建立後希望立刻在資料地圖中看到它的情境。

後續步驟

中繼資料採集成功後,您便可以充分利用資料地圖的各項能力:

  • 在資料地圖中搜尋您採集的表,查看其詳情、欄位資訊、分區和資料預覽。詳情請參見中繼資料詳情

  • 分析表的上下遊血緣關係,瞭解資料加工全鏈路。詳情請參見資料血緣分析

  • 將資產加入資料專輯,從業務視角組織和管理您的資料。詳情請參見資料專輯

常見問題

  • Q:MySQL等資料庫類採集逾時或失敗?

    A:請檢查是否將資源群組的交換器網段添加至白名單

附錄:採集範圍和實效

資料表

資料來源類型

採集方式

採集粒度

中繼資料更新時效性

表/欄位

分區

血緣

MaxCompute

系統預設自動採集

執行個體

普通專案:即時

外部項目:T+1

中國內地地區:即時

海外地區:T+1

即時

Data Lake Formation(DLF)

執行個體

即時

即時

Serverless Spark、Serverless StarRocks、Serverless Flink引擎的DLF 中繼資料,支援展示血緣;其他不支援。

重要

若為EMR叢集,需開啟EMR_HOOK

Hologres

手動建立採集器

取決於採集周期

不支援

即時

EMR Hive

執行個體

取決於採集周期

取決於採集周期

即時

重要

需要為叢集開啟EMR_HOOK

CDH Hive

執行個體

取決於採集周期

即時

即時

StarRocks

  • 執行個體模式:即時。

  • 串連串模式:取決於採集周期。

不支援

即時

重要

執行個體模式支援血緣資訊採集,串連串模式無法採集血緣資訊。

AnalyticDB for MySQL

取決於採集周期

不支援

即時

說明

需要提交工單為AnalyticDB for MySQL執行個體開啟資料血緣功能。

AnalyticDB for Spark

執行個體

即時

不支援

即時

AnalyticDB for PostgreSQL

取決於採集周期

不支援

即時

Lindorm

執行個體

取決於採集周期

不支援

即時

OTS

執行個體

取決於採集周期

不支援

不支援

其他資料來源類型(MySQL、PostgreSQL、SQL Server、Oracle、ClickHouse、SelectDB等)

取決於採集周期

不支援

不支援

說明

AnalyticDB for Spark與AnalyticDB for MySQL使用同一個中繼資料採集入口。

任務代碼

資料地圖支援任務程式碼搜尋與快速定位,以下為支援搜尋的代碼範圍說明。

代碼來源

採集口徑

觸發採集方式

資料開發

資料開發 - 建立節點並編輯代碼

自動採集

資料開發(舊版)

資料開發(舊版) - 建立節點並編輯代碼

資料分析

資料分析 - 建立SQL查詢並編輯代碼

資料服務

資料服務 - 建立API資料推送服務

API資產

資料地圖支援查看資料服務API的中繼資料,具體如下:

API類型

採集口徑

觸發採集方式

產生API(嚮導模式)

資料服務 - 通過嚮導模式建立API

自動採集

產生API(指令碼模式)

資料服務 - 通過指令碼模式建立API

註冊API

資料服務 - 註冊API

服務編排

資料服務 - 建立服務編排

AI資產

資料地圖支援查看與管理AI資產,並提供AI資產血緣功能用於追蹤資料和模型的來源、使用及演變過程,以下為各AI資產的支援情況。

資產類型

採集口徑

觸發採集方式

資料集

  • PAI - 建立資料集/註冊資料集

  • DataWorks-建立資料集

自動採集

AI模型

PAI - 模型訓練任務/註冊模型/部署模型服務

演算法任務

PAI - 訓練任務/工作流程工作/分布式訓練任務

模型服務

PAI - 部署模型服務(EAS部署)

工作空間

資料地圖支援查看工作空間中繼資料,具體如下:

專案

採集方式

觸發採集方式

工作空間

DataWorks - 建立工作空間

自動採集