全部產品
Search
文件中心

Dataphin:建立及管理中繼資料採集任務

更新時間:Nov 19, 2025

採集任務通過採集適配器串連到指定的資料來源,將來源資料庫中的對象中繼資料資訊採集至Dataphin,通過內建解析器進行解析後儲存並進行統一呈現。本文為您介紹如何建立及管理中繼資料採集任務。

前提條件

需先在管理中心 > 資料來源管理 > 應用系統建立應用系統,才能使用應用系統類別型的採集源。

使用限制

  • 若採集的中繼資料存在同名但名稱大小寫不一致的情況時,系統僅識別計算引擎預設支援的寫法(如Oracle預設識別大寫名稱對象、DM(達夢)預設識別第一次採集到的對象),其他同名中繼資料不作處理。

  • PolarDB-X(原DRDS)資料來源2.0及以上版本支援採集視圖對象。

  • 預設支援關係型資料庫的中繼資料採集,如需採集其他資料來源類型,請增購對應功能。

  • V5.3版本之前,部分資料來源需要先在元倉租戶中完成中繼資料中心初始化配置才可採集,包括AnalyticDB for MySQL 3.0、PolarDB-X(原DRDS)、SAP HANA、Hologres;V5.3及之後版本,無需進行中繼資料中心初始化配置,可直接開始配置採集任務。

  • 由於採集工作流程升級,在V5.1版本前建立了PostgreSQL、MySQL、Microsoft SQLServer、Oracle、IBM DB2、Hive(MySQL中繼資料庫)、StarRocks採集任務,升級到V5.1及以上版本且採集任務未重新運行,將無法查看歷史的採集執行個體作業記錄。

  • Elasticsearch資料來源不支援上架管理。

許可權說明

超級管理員、系統管理員和具有中繼資料採集任務系統管理權限的自訂全域角色支援建立及管理中繼資料採集任務。

中繼資料採集工作流程說明

若採集的資料來源網路環境與Dataphin叢集所在網路環境不通,需要依賴註冊調度叢集功能,並將採集資料寫入到Dataphin部署依賴的Object Storage Service系統(如OSS)作中轉,再將資料寫入Dataphin系統,此時會產生額外的儲存費用。

建立採集任務

  1. 在Dataphin首頁的頂部功能表列,選擇治理 > 中繼資料

  2. 單擊左側導覽列的採集任務,再單擊+建立採集任務按鈕,進入建立採集任務對話方塊。

  3. 建立採集任務對話方塊中,配置參數。

    參數

    描述

    採集任務名稱

    採集任務的名稱,全域唯一,不超過512個字元。

    負責人

    採集任務的負責人,可選擇具有採集任務系統管理權限的成員。

    採集任務描述

    可添加採集任務的描述,不超過1000個字元。

    資料來源

    根據資料來源圈選採集源範圍,針對所選採集源範圍採集中繼資料。支援的資料來源包括資料來源和應用系統。

    • 資料來源:支援關係型資料庫和巨量資料儲存資料庫,詳情請參見Dataphin支援的資料來源

    • 應用系統:目前僅支援Quick BI。選擇需採集中繼資料的應用系統。

    您可以點擊查看,跳轉至資料來源管理頁面,系統會為您篩選出相關的資料來源。

    說明
    • 若選中的資料來源未配置資料來源編碼,後續可能無法通過JDBC或在BI平台使用已採集的中繼資料。如果需要配置資料來源編碼,詳情請參見Dataphin支援的資料來源

    • 一個資料來源僅支援配置一個採集任務,同一個資料來源的2個不同環境源(開發環境和生產環境)可分別配置採集任務。

    採集範圍

    您可以根據不同的資料來源類型或應用系統配置不同的任務採集範圍。

    • 當資料來源類型為Hive時,將根據資料來源配置的JDBC URL自動解析對應的dbname(資料庫名稱)。

    • 當資料來源類型為MySQL、AnalyticDB for MySQL 3.0、PolarDB-X(原DRDS)、StarRocks、OceanBase(MySQL租戶)、ClickHouse、Amazon RDS for MySQL、SelectDB、Doris、DolphinDB、TDSQL for MySQL時,支援根據Database(即資料來源執行個體下的資料庫)配置採集範圍,您可以選擇全部Database指定Database

      • 全部Database:根據資料來源配置動態擷取所有有查詢許可權的Database。

      • 指定Database:根據資料來源配置指定其他有許可權的Database,若資料來源側已配置Database,則預設進行填充;若自訂輸入Database,字元需區分大小寫。

    • 當資料來源類型為Oracle、PostgreSQL、Microsoft SQL Server、SAP HANA、IBM DB2、Hologres、OceanBase(Oracle租戶)、Greenplum、Amazon RDS for PostgreSQL、Amazon RDS for SQL Server、Amazon RDS for Oracle、Amazon RDS for DB2、Amazon Redshift、DM(達夢)、openGauss時,支援根據schema(即資料來源執行個體下的資料庫名稱)配置採集範圍,您可以選擇全部schema指定schema

      • 全部schema:根據資料來源配置動態擷取所有有查詢許可權的schema。

      • 指定schema:根據資料來源配置指定其他有許可權的schema或一鍵快捷填充預設schema;若自訂輸入schema,字元需區分大小寫。

    • 當資料來源為Quick BI時,支援根據工作空間配置採集範圍,您可以選擇全部工作空間或指定工作空間。

      • 全部工作空間:根據應用系統配置動態擷取所有有查詢許可權的工作空間。

      • 指定工作空間:根據應用系統配置指定其他有許可權的工作空間。

    說明
    • 當採集範圍為Hive、StarRocks資料來源時,單張分區表根據建立時間採集最近10萬個分區。

    • 當資料來源為OceanBase時,根據資料來源配置的租戶模式決定採集範圍,MySQL租戶根據Database採集中繼資料;Oracle租戶根據Schema採集中繼資料。

    採集物件類型

    系統預設選中,不支援修改。當資料來源選擇資料來源時,支援視圖欄位;當資料來源為應用系統時,支援採集儀表板

    說明
    • 當資料來源為Elasticsearch時,索引對應的採集物件類型為表,索引別名對應的採集物件類型為視圖。

    • 當資料來源為StarRocks時,不支援採集同步物化視圖。

    來源系統

    僅資料來源為資料來源時支援配置。請選擇從該來源採集的中繼資料歸屬的來源系統,後續可用於資產對象篩選、來源系統血緣關係展示等情境。如需建立,請參見建立及管理來源系統

    自動資料採樣

    治理 > 中繼資料 > 採樣配置的資料採樣開啟、觸發情境包含中繼資料採集且支援資料預覽時可開啟。開啟後,根據採樣配置 > 資料來源的採集範圍,執行時自動進行範例資料擷取,支援修改採集範圍。

  4. 單擊下一步,配置採集策略。

    參數

    描述

    資料更新策略

    新增/變更中繼資料

    對比上一次採集,若源系統有新增、更新的資料,系統將會添加新的中繼資料,更新已變更中繼資料;針對儀表板如果作品修改但未發布(即作品狀態為“已儲存未發布”),則會保留上一次採集的已發佈資料不更新。

    已刪除中繼資料

    對比上一次採集,若源系統有刪除的資料,可選擇從中繼資料清單及資產清單中刪除忽略刪除操作;針對儀表板可選擇如果作品狀態從“發行”變更為“已下線”,視為刪除忽略刪除操作

    • 從中繼資料清單及資產清單中刪除/如果作品狀態從“發行”變更為“已下線”,視為刪除:同步刪除已經採集的中繼資料資訊,刪除後無法恢複。

    • 忽略刪除操作:忽略源系統的刪除操作,仍可在中繼資料清單和資產清單中查看該對象詳情和歷史版本,後續可手動刪除。

    資料擷取計劃

    採集頻率

    用於控制任務採集的頻率,支援定時採集手動採集

    • 定時採集:根據配置的調度時間自動執行任務的採集,適用於對採集任務更新時效性較高的情境,支援每日每周每月,可配置的定時開始執行時間區間為00:00~23:59。當選擇每月調度時間,支援選擇月末日

      當系統時區(即使用者中心的時區)與調度時區(即管理中心 > 系統設定 > 基礎設定中所配置的時區)不一致時,系統將同時展示系統時區和調度時區。當採集任務配置了定時採集時間,系統將自動計算出對應調度時區的時間並按照該時間執行。

    • 手動採集:需要手動觸發任務的採集,適用於中繼資料變更頻率較低且希望節約資源的情境。

    回合組態

    出錯重試

    針對運行失敗的採集執行個體,可以根據配置的重試次數稍候再試決定是否重新運行採集執行個體。

    • 重試次數:採集執行個體運行失敗後是否需要自動重試運行以及最大可自動重試的次數。預設1次,支援配置1~10次之間的正整數。

    • 稍候再試:每次自動重新啟動並執行時間間隔。預設5分鐘,支援配置的時間範圍為1~60分鐘。

    說明

    出錯重試和定時採集可能會產生衝突,如果到達下一個採集時間點,上一次採集任務運行仍未結束,則下一次定時採集將會自動延遲,您可以在採集執行個體列表手動終止任務執行,詳情請參見查看及管理採集執行個體

    運行逾時

    若採集任務的運行總時間長度(開始運行到結束已耗用時間,不包括資源等待和調度等待時間)超過設定的閾值仍未結束,系統會自動終止共置為失敗。支援設定的時間範圍為0~24小時,最多設定一位小數。

    調度資源

    採集任務調度時將佔用該資源群組的資源配額,為了避免並發過高佔用較多資源影響其他系統任務正常運行,全域所有租戶建立的採集任務遵循統一的並發運行數,請合理分配調度資源。支援選擇當前租戶下建立的狀態為正常的資源群組。

    您選擇的資料來源所在的網路環境和調度資源群組所在的網路環境需要互連,否則採集任務無法執行。選擇完成後。您可以單擊測試連接進行網路連通性測試。如果測試連接測試失敗,您可以單擊查看日誌,查看具體失敗原因。

    串連配置

    您可以查看已選採集源的串連配置資訊,作為採集頻率和採集時間配置的參考,詳情請參見Dataphin支援的資料來源

    說明

    當前的串連配置將同時應用於離線整合任務、全域品質監控規則、中繼資料採集任務。

  5. 單擊確定,完成採集任務的建立。

管理採集任務

  1. 採集任務頁面為您展示採集任務的名稱、資料來源及資料來源編碼、資料來源類型、採集方式、最近1次採集的狀態和時間、描述、負責人、生效狀態、任務狀態、最新動向時間資訊。您可以單擊右上方的資料來源管理按鈕,跳轉至管理中心 > 資料來源頁面管理採集源。

    任務狀態:在採集工作清單中查看相應任務的任務狀態,不同狀態對應的單個操作不同,相應任務狀態下可執行檔操作如下表。

    任務狀態

    操作項

    正常

    查看、編輯、臨時手動執行(定時採集任務支援該操作)、手動執行(手動任務支援該操作)、複製、刪除、查看中繼資料、查看採集執行個體、開啟或關閉生效狀態。

    建立失敗

    重試、查看執行日誌、查看、編輯、刪除。

    更新失敗/刪除失敗/置為生效失敗/置為失效失敗

    重試、查看執行日誌、查看、編輯、刪除、查看中繼資料、查看採集執行個體。

    置為生效中/置為失效中

    查看。

    置為生效中或置為失效中時不支援修改生效狀態。

    建立中/更新中/刪除中

    查看。

    異常

    查看、編輯、刪除、查看中繼資料、查看採集執行個體。

  2. (可選)您可以根據採集任務或資料來源名稱搜尋目標採集任務,也可以快捷篩選我負責的任務、生效任務,或者根據任務狀態、生效狀態、負責人、資料來源、採集方式篩選目標採集任務。

  3. 在目標採集任務操作列下可進行如下操作。

    操作項

    描述

    重試

    支援將運行失敗的採集任務重新運行。

    查看執行日誌

    支援查看運行失敗的採集任務的作業記錄。

    查看

    支援查看採集任務的配置資訊。

    編輯

    不支援修改資料來源類型和資料來源,其他資訊修改後,不影響生效狀態。

    臨時手動執行

    僅正常狀態的定時採集任務支援臨時手動執行,如果在到達下一次定時已耗用時間時本次啟動並執行執行個體仍未結束,可能會導致資料不一致。若該任務已經存在一個正在運行中的執行個體(定時採集執行個體和臨時手動執行的採集執行個體),需要先終止該執行個體,然後再重新操作。

    手動執行

    僅正常狀態的手動採集任務支援手動執行,若該任務已經存在一個正在運行中的執行個體(定時採集執行個體和臨時手動執行的採集執行個體),需要先終止該執行個體,然後再重新操作。

    複製

    支援快速複製採集任務的配置資訊,但是需要重新設定資料來源和採集範圍。

    刪除

    • 單個刪除:您可以單擊操作列下的image,選擇刪除,刪除採集任務。

    • 大量刪除:選中需要刪除的採集任務,單擊底部的image表徵圖,大量刪除採集任務。

    說明

    刪除任務不會影響正在運行中的執行個體,如果需要,您可以手動終止。任務刪除成功後,不會繼續產生新的採集執行個體。支援配置的刪除策略為同步刪除已採集的中繼資料僅刪除任務,保留已採集的中繼資料

    • 同步刪除已採集的中繼資料:同步從中繼資料清單列表和資產清單中刪除通過該任務從指定資料來源採集到的中繼資料。

    • 僅刪除任務,保留已採集的中繼資料:僅刪除採集任務本身,在中繼資料清單和資產清單中保留從指定資料來源已經採集到的中繼資料。後續如果選擇相同的資料來源重新建立採集任務,可能會覆蓋已保留的中繼資料資訊。

    查看中繼資料清單

    支援跳轉至中繼資料清單列表頁面,系統會為您篩選出該任務配置的資料來源相關的中繼資料資訊。

    查看採集執行個體

    支援跳轉至採集執行個體列表頁面,系統會為您篩選出與該任務相關的執行個體。

    修改生效狀態

    • 修改單個生效狀態:您可以單擊生效狀態列下的image開關,開啟或關閉生效狀態。

    • 批量修改生效狀態:選中需要修改生效狀態的採集任務,單擊底部的image表徵圖,開啟或關閉生效狀態。

    說明

    開啟後,採集任務將會按照配置的調度自動執行;關閉後,正在運行中或已產生待啟動並執行執行個體不受影響,後續產生的採集執行個體將不會自動執行,您可以手動運行任務。

後續步驟