DLF提供符合Apache Paimon REST Catalog标准的表管理API,其文件存储结构与开源社区完全兼容。这使得任何兼容Paimon的引擎和应用都能够轻松地在DLF中创建、更新、查询和删除。
Catalog中的主要数据层次结构如下:
Catalog:数据目录是元数据顶层逻辑实体,采用层级化结构组织元数据资源。适用于不同业务或不同用户间的元数据隔离与权限管控,以及湖数据存储和湖表运维管理等场景。
Database:数据库是元数据的逻辑分组方式,相较于Catalog提供了更精细化的数据组织与访问控制能力。
Tables:支持多种表类型,实现跨引擎、跨格式的统一管理与无缝兼容。写入数据支持落盘加密功能可以基于需求申请工单处理。
View:持久化在DLF的视图,视图支持方言,您可以为不同的计算引擎配置不同的方言SQL。
Function:持久化在DLF的函数,函数目前支持Flink Jar(Java和Python)函数,也支持Java Lambda函数在Spark引擎上运行。
统一元数据服务
DLF 提供企业级的统一元数据管理服务。它打破了计算引擎间的壁垒,支持阿里云的大数据与 AI 引擎无缝访问全模态数据。通过单一的 Catalog 体系,DLF 集中管理数据表、视图(View)及函数(Function)的元数据。
多模态数据支持
DLF 兼容多种数据格式与生态,实现对结构化与非结构化数据的统一纳管:
数据湖格式:完整支持 Apache Paimon 和 Apache Iceberg 及其生态组件。
AI 与向量数据:支持 Lance 格式,满足 AI 高性能检索与训练需求。
非结构化数据:通过 Object Table 管理图片、视频等非表格数据集,实现存算互通。
标准文件格式:支持 Parquet、CSV、ORC 等传统 Hive 兼容表(Format Table)。
统一权限控制
基于统一的元数据架构,DLF 提供了集中式的安全管理能力。
细粒度授权:支持 Catalog、数据库、数据表及列四级权限控制。
多引擎生效:用户只需执行一次授权操作,策略即可在所有接入的计算引擎中同步生效。
这种机制确保了数据访问的一致性,在提升安全性的同时,显著简化了跨引擎的运维流程。