全部产品
Search
文档中心

大数据开发治理平台 DataWorks:快速体验

更新时间:Jan 19, 2024

本实验采用DataWorks+MaxCompute产品组合,为您介绍DataWorks的基本使用。

注意事项

本案例中,数据采集和数据加工的部分任务可以通过ETL工作流模板一键导入。在导入模板后,您可以前往目标空间,并自行完成后续的数据质量监控和数据可视化操作。

实验背景

以网站用户画像分析为背景,通过使用DataWorks完成以下场景。

  • 数据采集

  • 数据加工

  • 配置数据质量监控

  • 数据可视化展现

目标人群

开发工程师、数据分析师、产品运营等存在数仓数据获取与数据分析洞察人员。

涉及产品

本案例涉及以下产品:

  • image.png一站式大数据开发治理DataWorks

    本案例通过DataWorks实现数据采集、加工、质量监控,以及数据可视化展现,您需提前开通该服务。详情请参见开通DataWorks服务

  • image.png云原生大数据计算服务MaxCompute

    实现底层加工计算,您需提前开通该服务。详情请参见开通MaxCompute

  • image.png云数据库RDS MySQL版

    本案例中用于存储用户信息数据。案例已默认提供该MySQL数据源基本信息,您无需单独开通该服务。

  • image.png对象存储OSS

    本案例中用于存储网站访问记录数据,案例已默认提供该OSS数据源基本信息,您无需单独开通该服务。

涉及模块

本案例使用以下DataWorks模块共同完成。

image.png

步骤

操作内容

阶段性目标

数据采集

通过DataWorks数据集成模块,将存储在MySQL中的用户信息数据及存储在OSS中采集的用户访问日志数据同步至MaxCompute,并提交调度系统,结合DataWorks调度参数实现周期性增量同步。

学习如下内容:

  • 如何将不同数据源数据同步至MaxCompute。

  • 如何快速触发任务运行。

  • 如何查看任务日志。

数据加工

使用DataWorks数据开发(DataStudio)模块,将日志数据通过函数正则等方式拆解为可分析字段,并与用户信息表加工汇总产出基本的用户画像数据,并提交调度系统,结合DataWorks调度参数实现周期性数据清洗操作。

学习如下内容:

  • 如何基于DataWorks新建数据流程节点。

  • 如何配置任务的周期调度属性。

  • 如何运行工作流。

  • 如何可视化新建数据表。

数据质量监控

通过DataWorks数据质量模块,对周期性ETL(Extract Transformation Load)操作过程中产生的脏数据进行监控,监控不通过则阻断任务执行,避免影响扩大。

学习如何基于DataWorks为任务产出的表,配置数据质量的监控规则,以保证快速感知ETL过程中产生的脏数据,有效阻断脏数据向下游蔓延。

数据可视化展示

通过DataWorks数据分析模块,对最终结果表进行用户画像分析。例如,访问用户中地域分布分析、城市注册人数排行榜分析。

学习如何基于DataWorks将数据进行可视化展示。

实验预期

  1. 实操该实验后,可对DataWorks的主要功能有所了解。

  2. 实操该实验后,可在DataWorks独立完成数据采集 、数据开发和任务运维等数据岗位常见任务。

实验时长

采用在线学习的方式,预计耗时1小时。

实验费用

本案例运行可能会产生一定的费用。为避免产生过多费用,本案例在创建相关表时,生命周期已默认设置为14天,为避免长期调度产生费用,您可以在实操结束后配置任务的调度有效期,或者对任务执行冻结业务流程根节点(虚拟节点Workshop_Start)的操作。

学习答疑

如果您在学习过程中遇到问题,请申请加入钉钉群进行咨询。