DLA Lakehouse实时入湖方案利用数据湖技术,重构数仓语义,分析数据湖数据,实现数仓的应用。本文介绍Lindorm实时入湖建仓分析的操作步骤。
方案介绍
DLA Lakehouse的Lindorm实时入湖建仓分析助力企业构建大数据离在线一体化,主要包括三方面。
- Lindorm实时入湖建仓引擎:支持T+10min近实时入湖,同时支持Schema推断、动态列增加、分区管理、小文件合并及Clustering等能力。
- Lindorm DFS存储:Lindorm入湖建仓数据回流到Lindorm DFS中,用户无需额外购买其他存储,有效地降低运维管理成本。
- 完全弹性的分析:DLA支持Serverless Presto和Serverless Spark的分析与计算能力,完全按需计费。
方案架构如下图所示。

使用限制
- Lindorm宽表引擎版本必须大于等于2.1.28。
- Lindorm通道服务版本必须大于等于3.5.0。
- Lindorm文件引擎版本必须大于等于3.10.3。
前提条件
- 已在DLA中开通云原生数据湖分析服务。更多信息,请参见开通云原生数据湖分析服务。
- 已创建Spark引擎的虚拟集群。更多信息,请参见创建虚拟集群。
- 已创建Presto CU版虚拟集群。更多信息,请参见DLA Presto CU版本快速入门。
- 如果您使用RAM子账号登录,还需要进行如下操作:
- 已授予RAM子账号AliyunDLAFullAccess权限。更多信息,请参见为RAM账号授权。
- 已将DLA子账号绑定到RAM子账号。更多信息,请参见DLA子账号绑定RAM账号。
- 已在Lindorm中开通数据湖分析。
注意事项
- Lindorm通道中的消息数据默认只保留7天,如果数据过期,同时入湖任务失败,再重新启动时读取不到过期的数据,会有丢失数据的风险。因此请在入湖任务失败时及时提交工单或者钉钉咨询DLA答疑获得支持。
- 若您无法在云原生多模数据库Lindorm控制台开通数据湖分析服务,请及时提交工单或者钉钉咨询DLA答疑获得支持。
操作步骤
Lindorm与DLA的字段类型转换表
目前支持的字段类型转换如下。
Lindorm字段类型 | DLA字段类型 |
---|---|
long、usigned_long、short、unsigned_short、int、unsigned_integer、byte | bigint |
string、date、unsigned date、time、unsigned time、timestamp、unsigned timestamp、decimal | string |
float、double、unsigned double | double |
boolean | boolean |
varbinary、binary、encoded binary | binary |
说明 不支持的Lindorm字段类型不会同步到DLA中。
常见问题
Q:为什么Lindorm中开通数据湖分析后,下拉选择入湖表没有显示已创建的表?
A:目前数据湖分析仅支持有Schema的表,即Lindorm通过CQL创建的表。更多信息,请参见Lindorm CQL操作文档。