DLF提供符合Apache Paimon REST Catalog標準的表管理API,其檔案儲存體結構與開源社區完全相容。這使得任何相容Paimon的引擎和應用都能夠輕鬆地在DLF中建立、更新、查詢和刪除。
Catalog中的主要資料層次結構如下:
Catalog:資料目錄是中繼資料頂層邏輯實體,採用層級化結構組織中繼資料資源。適用於不同業務或不同使用者間的中繼資料隔離與許可權管控,以及湖資料存放區和湖表營運管理等情境。
Database:資料庫是中繼資料的邏輯分組方式,相較於Catalog提供了更精細化的資料群組織與存取控制能力。
Tables:支援多種表類型,實現跨引擎、跨格式的統一管理與無縫相容。寫入資料支援落盤加密功能可以基於需求申請工單處理。
View:持久化在DLF的視圖,視圖支援方言,您可以為不同的計算引擎配置不同的方言SQL。
Function:持久化在DLF的函數,函數目前支援Flink Jar(Java和Python)函數,也支援Java Lambda函數在Spark引擎上運行。
統一中繼資料服務
DLF 提供企業級的統一中繼資料管理服務。它打破了計算引擎間的壁壘,支援阿里雲的巨量資料與 AI 引擎無縫訪問全模態資料。通過單一的 Catalog 體系,DLF 集中管理資料表、視圖(View)及函數(Function)的中繼資料。
多模態資料支援
DLF 相容多種資料格式與生態,實現對結構化與非結構化資料的統一納管:
資料湖格式:完整支援 Apache Paimon 和 Apache Iceberg 及其生態組件。
AI 與向量資料:支援 Lance 格式,滿足 AI 高效能檢索與訓練需求。
非結構化資料:通過 Object Table 管理圖片、視頻等非表格式資料集,實現存算互連。
標準檔案格式:支援 Parquet、CSV、ORC 等傳統 Hive 相容表(Format Table)。
統一許可權控制
基於統一的中繼資料架構,DLF 提供了集中式的安全管理能力。
細粒度授權:支援 Catalog、資料庫、資料表及列四級許可權控制。
多引擎生效:使用者只需執行一次授權操作,策略即可在所有接入的計算引擎中同步生效。
這種機制確保了資料訪問的一致性,在提升安全性的同時,顯著簡化了跨引擎的營運流程。