DataWorks 支援配置 Paimon Catalog 資料來源,專門用於對非 DLF 來源的 Paimon 表進行中繼資料採集與納管。作為一類特殊的中繼資料類資料來源,它能協助您在資料地圖中實現 Paimon 資料湖資產的統一治理。本文將為您介紹該資料來源的具體配置步驟。
功能介紹
隨著湖倉一體架構在企業中的深度普及,Paimon、Iceberg、Delta Lake 等開放表格式已成為構建即時數倉與流批一體情境的核心基石。特別是在 Flink 流處理生態中,Paimon Catalog 因其天然的適配性被廣泛應用。
目前,DataWorks 已實現與 Data Lake Formation的深度對接,支援通過 DLF 資料來源實現對資料湖表的統一管理與調用。然而,在實際業務中,存在大量自主聲明的 Catalog 情境:例如,使用者通過 Flink 引擎聲明定義、實際中繼資料及資料均儲存於阿里雲OSS 中的 Paimon Catalog。
針對此類非 DLF 託管的、原生的湖格式中繼資料,原有資料來源體系難以進行有效感知與深度管理。為此,DataWorks 推出 Paimon Catalog 資料來源,旨在支援原生資料湖格式的中繼資料採集與治理,填補自主聲明式 Catalog 的管理空白,實現湖倉全路徑資料的可見、可管、可用。
使用限制
網路連通:僅支援使用Serverless資源群組。
適用情境:當前 Paimon Catalog 僅適用於元數據採集與治理,不支援用於Data Integration同步任務。若需執行資料同步讀寫Paimon表,請使用其他資料來源(如 DLF、OSS)。
操作步驟
1. 進入資料來源頁面
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的工作空間,單擊目標工作空間右側的操作欄中的管理按鈕進入管理介面。
進入工作空間管理中心頁面後,單擊左側導覽列的數據源,進入資料來源頁面。
2. 建立 Paimon Catalog 資料來源
在數據源頁面,單擊新增數據源。
在彈出的對話方塊中,搜尋並選擇Paimon Catalog。
3. 配置參數
根據介面提示配置以下核心欄位:
欄位 | 說明 |
數據源名稱 | 自訂資料來源名稱,如 |
Catalog | 用於串連的Catalog的名稱,如 |
MetaStore | Catalog儲存的類型,目前僅支援 Filesystem。 |
Filesystem | 檔案儲存體的類型,目前僅支援OSS。 |
訪問身份 |
|
地區 | 盡量選擇與當前空間同地區Bucket。如需跨地區建立資料來源時,建議建立VPC對等連結,詳情參考:串連同主帳號不同地區資料來源;或使用外網Endpoint串連。 |
Endpoint | 網域名稱配置可參考:訪問網域名稱與網路連接概述。 |
Warehouse | Warehouse 路徑:Paimon Catalog 在 OSS 中的儲存地址。
|
4. 連通性測試
資料來源資訊配置完成後,需要經過連通性測試,以保證資料來源和資源群組網路連通正常。
如果顯示可連通,則表示配置無誤。
如果顯示無法連通,系統會彈出診斷工具輔助排查。常見原因包括憑證錯誤、網路不通(IP白名單未配置)或NAT Gateway缺失等。
標準模式下,請務必保證開發環境和生產環境均為可連通,否則在後續中繼資料採集等使用中將出錯。
後續步驟
資料來源配置完成後,可以在資料地圖模組中進行中繼資料採集,並對中繼資料進行查看和治理。
進行可視化直接選取。