全部產品
Search
文件中心

DataWorks:Paimon Catalog資料來源

更新時間:Mar 25, 2026

DataWorks 支援配置 Paimon Catalog 資料來源,專門用於對非 DLF 來源的 Paimon 表進行中繼資料採集與納管。作為一類特殊的中繼資料類資料來源,它能協助您在資料地圖中實現 Paimon 資料湖資產的統一治理。本文將為您介紹該資料來源的具體配置步驟。

功能介紹

隨著湖倉一體架構在企業中的深度普及,Paimon、Iceberg、Delta Lake 等開放表格式已成為構建即時數倉流批一體情境的核心基石。特別是在 Flink 流處理生態中,Paimon Catalog 因其天然的適配性被廣泛應用。

目前,DataWorks 已實現與 Data Lake Formation的深度對接,支援通過 DLF 資料來源實現對資料湖表的統一管理與調用。然而,在實際業務中,存在大量自主聲明的 Catalog 情境:例如,使用者通過 Flink 引擎聲明定義、實際中繼資料及資料均儲存於阿里雲OSS 中的 Paimon Catalog。

針對此類非 DLF 託管的、原生的湖格式中繼資料,原有資料來源體系難以進行有效感知與深度管理。為此,DataWorks 推出 Paimon Catalog 資料來源,旨在支援原生資料湖格式的中繼資料採集與治理,填補自主聲明式 Catalog 的管理空白,實現湖倉全路徑資料的可見、可管、可用。

使用限制

  • 網路連通:僅支援使用Serverless資源群組

  • 適用情境:當前 Paimon Catalog 僅適用於元數據採集與治理,不支援用於Data Integration同步任務。若需執行資料同步讀寫Paimon表,請使用其他資料來源(如 DLF、OSS)。

操作步驟

1. 進入資料來源頁面

  1. 登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的工作空間,單擊目標工作空間右側的操作欄中的管理按鈕進入管理介面。

  2. 進入工作空間管理中心頁面後,單擊左側導覽列的數據源,進入資料來源頁面。

2. 建立 Paimon Catalog 資料來源

  1. 數據源頁面,單擊新增數據源

  2. 在彈出的對話方塊中,搜尋並選擇Paimon Catalog

3. 配置參數

根據介面提示配置以下核心欄位:

欄位

說明

數據源名稱

自訂資料來源名稱,如paimon_finance

Catalog

用於串連的Catalog的名稱,如paimon-catalog建議將 Catalog 名稱設定為與計算引擎側一致,以確保中繼資料能夠實現精準映射。

MetaStore

Catalog儲存的類型,目前僅支援 Filesystem

Filesystem

檔案儲存體的類型,目前僅支援OSS。

訪問身份

  • RAM角色授權模式:支援通過RAM角色授權的方式訪問Catalog所在的OSS路徑,授權配置方式可參考:通過RAM角色授權模式配置資料來源

  • 阿里雲RAM子帳號:支援將當前登入帳號,作為訪問身份訪問OSS。

地區

盡量選擇與當前空間同地區Bucket。如需跨地區建立資料來源時,建議建立VPC對等連結,詳情參考:串連同主帳號不同地區資料來源;或使用外網Endpoint串連。

Endpoint

網域名稱配置可參考:訪問網域名稱與網路連接概述

Warehouse

Warehouse 路徑:Paimon Catalog 在 OSS 中的儲存地址。

  • 格式要求:必填,需填寫完整路徑。樣本:oss://bucket/path/warehouse

  • 採集說明:請務必保證路徑準確,否則將導致中繼資料採集失敗。

  • 快捷選擇:支援點擊輸入框右側的檔案夾表徵圖PixPin_2025-12-29_11-41-27進行可視化直接選取。

4. 連通性測試

資料來源資訊配置完成後,需要經過連通性測試,以保證資料來源和資源群組網路連通正常。

  • 如果顯示可連通,則表示配置無誤。

  • 如果顯示無法連通,系統會彈出診斷工具輔助排查。常見原因包括憑證錯誤、網路不通(IP白名單未配置)或NAT Gateway缺失等。

  • 標準模式下,請務必保證開發環境和生產環境均為可連通,否則在後續中繼資料採集等使用中將出錯。

後續步驟

資料來源配置完成後,可以在資料地圖模組中進行中繼資料採集,並對中繼資料進行查看和治理。