本文档将以通过DLA的元信息发现功能查询并分析OSS数据为例,帮助您快速掌握DLA的基本使用流程。

前提条件

已注册阿里云账号并完成实名认证。
说明 如果您还没有创建阿里云账号,系统会在您开通云原生数据湖分析服务时提示您注册账号。

操作步骤

  1. 开通云原生数据湖分析服务
  2. 登录OSS管理控制台,上传文件到OSS,具体操作请参见上传文件
    例如将supplier_with_header.csv文件上传到OSS的指定目录oss://alibaba-crawler/schema1/supply_ceshi/
  3. 登录数据湖分析管理控制台,在左侧导航栏单击数据湖管理 > 元信息发现
  4. 元信息发现页面的OSS数据源区域,单击进入向导
    oss发现1
  5. OSS数据源页签的数据源配置调度配置目标元数据配置区域,根据实际需要进行参数配置。
    oss发现2
    参数配置说明如下表所示:
    参数 说明
    数仓模式和自由模式 您可以选择数仓模式或自由模式:
    • 数仓模式:为“基于OSS而构建的标准数据仓库”的场景构建自动化元信息发现,识别精度高。OSS路径数据布局要求为“库/表/文件”或者“库/表/分区/.../分区/文件”。
    • 自由模式:为“探索OSS上的数据进行分析”的场景构建自动化元信息发现。对OSS数据布局没有要求,可能会产生差异化的表。
    OSS目录位置 文件在OSS中的存储地址,以/结尾。系统会根据您选择的文件夹路径,自动设置OSS路径。
    说明 系统会自动拉取与DLA同地域的OSS Bucket,您可以根据业务需要从下拉列表中选择Bucket。选择Bucket后,系统会自动列出该Bucket下所有的Object和文件;选中目标Object和文件后,系统会自动将其添加到右侧的OSS路径处。
    格式解析器 默认自动解析,即按照顺序调用所有内置解析器,也可指定特定文件类型的格式解析器,比如json、parquet、avro、orc、csv。
    调度频率 您可以根据需要定期计划运行元信息发现任务。
    Schema名称 设置Schema名称,即映射到DLA中的数据库名称(默认每个发现任务会新创建一个独立的Schema)。
    配置选项 高级自定义设置项,如字段分隔符、引用标识、表头模式、允许单个列字段等。
  6. 配置完成后,单击创建
    元信息发现任务创建成功后,在任务列表中您将能看到创建成功的任务信息。元信息发现任务将根据您设置的调度频率,需要您手动执行或者定期自动调度该任务。oss发现4
    元信息发现任务执行成功后,单击schema名称/前缀列下面的数据库名称链接(如单击alibaba),跳转到Serverless Presto > SQL执行页面。您可以看到DLA自动发现创建成功的库、表、列信息。oss发现6
  7. Serverless Presto > SQL执行页面编写SQL语句,单击同步执行或者异步执行,执行SQL语句。
    例如在schema1_test下执行select * from `schema1_test`.`supply_ceshi` limit 20;oss发现7
    您可以在执行结果中,查看DLA从OSS目录oss://alibaba-crawler/schema1/supply_ceshi/下的supplier_with_header.csv文件中自动发现的数据信息。