全部产品
Search
文档中心

大数据开发治理平台 DataWorks:客户案例

更新时间:Jan 29, 2024

DataWorks在多个行业中均有典型的案例落地,帮助多个行业的企业解决数据痛点,挖掘数据价值,本文为您介绍典型行业中已落地的客户案例。

新零售行业:大润发云上数据中台建设

客户架构如下。大润发

  • 客户简介

    为了快速数字化转型,拥抱新零售,大润发计划两年内将IT系统全面迁移到阿里云上,不再自建IDC。同时与阿里云合作启动数据中台项目,可以帮助大润发降低TCO的同时,更好的依托云上生态,实现数据资产业务化闭环。

  • 客户需求

    • 基于Hadoop开源生态打造,软硬件维护成本高昂,稳定性问题不断,严重影响业务经营分析。

    • 线上业务爆发,需求积压严重,期望有整体解决方案,能够快速灵活支持业务发展所需的技术扩展。

  • 价值体现

    通过MMA工具,15天完成400TB+历史数据迁移,同时保证了迁移的准确性,让客户拥有平滑高效的上云体验。基于飞天大数据平台产品DataWorks+MaxCompute大大提高了数据业务的开发效率,构建大润发的数据中台体系。

新金融行业:某互联网金融公司湖仓一体案例

客户架构如下。互联网金融

  • 客户简介

    公司的第一代数据湖是基于Hadoop + OSS搭建的,同时引入的数据中台的执行引擎和存储是 MaxCompute,两套异构的执行引擎带来存储冗余、元数据不统一、权限不统一、湖仓计算不能自由流动的问题。

  • 客户需求

    如架构图所示,MaxCompute和EMR不同引擎用于不同的业务场景,使用阿里云数据湖构建DLF统一做元数据管理和统一用户权限管理。通过DataWorks进行全链路数据治理,提升数据质量与应用能力。

  • 价值体现

    • 将EMR的元数据统一到DLF,底层使用OSS作统一存储,并通过湖仓一体打通EMR数据湖和MaxCompute数仓两套体系,让数据和计算在湖和仓之间自由流动。

    • 实现湖仓数据分层存储。数据中台对数据湖数据进行维度建模的中间表存储在MaxCompute上,EMR或其他引擎消费ADS层。

新能源:某能源客户基于DataWorks全链路数据治理案例

客户架构如下。能源

  • 客户简介

    • 多家子公司经过多年建设,系统数量多,技术路线复杂多样。

    • 数据分散,数据标准定义混乱,各类数据出现断层,无法有效用于分析。

    • 数据管理权责不明,缺乏数据治理,没有有效的数据共享机制。

  • 客户需求

    • 通过DataWorks+MaxCompute搭建数据中台,打破数据孤岛。

    • 通过Realtime Compute+MaxCompute交互式分析(Hologres)提升数据中台实时性。

    • 通过DataWorks进行全链路数据治理,提升数据质量与应用能力。

  • 价值体现

    • 打造B2B智慧营销系统,实现智能制造+互联网模式落地。

    • 打造离线实时一体化数据中台,构建统一、完整的大数据应用链路,服务内部几大核心业务。

    • 全链路数据治理提高数据可用性,让数据在中台进行自由流动,保证数据准确、准时、一致,成本削减1亿元。

    • 提高业务迭代效率,数据更新频率由1天变成10分钟,新需求上线由1周变成1天。

互联网行业:快狗打车云上大数据仓库

客户架构如下。快狗打车

  • 客户简介

    快狗打车则一直坚持通过“连接网络化”、“运力共享化”、“过程数据化”、“匹配智能化”等数字信息化解决方案,将闲散运力统一整合到平台上,通过大数据将运力精准匹配市场需求,实现运力的节能减排,降低空驶率,有效提升行业运行效率,积极推动绿色物流发展。

  • 客户需求

    • 海量数据处理效率下降,离线数据计算时长不稳定。

    • 实时计算不开发维护代价大,希望对数仓进行综合治理。

  • 价值体现

    基于飞天大数据平台产品,快狗打车不仅机器成本节约30%以上,数据开发效率提升100%。从Java Storm迁移到Flink SQL使实时计算开发周期大大减少,维护更加容易,数据一致性得到更好地保障,提升了业务监控大屏的准确性和实时性,用户可以更专注于业务,加速了业务的实时化。同时,阿里云的24小时运维服务保证了集群稳定,实现了零故障。

互联网行业:宝宝树云上大数据仓库

客户架构如下。宝宝树

  • 客户简介

    宝宝树成立于2007年,是中国最大、最活跃的母婴类社区平台。作为最早做互联网2C的社区平台之一,宝宝树很早就建立了自己的IDC集群,而且规模越来越大。

  • 客户需求

    • 集群水位高,性能差,亟待大数据综合治理。

    • IDC大数据每年投入成本高,希望降本提效。

  • 价值体现

    从大数据平台上云整体“降本增效”的方案快速切入,迁移到大数据MaxCompute、实时计算、DataWorks后,部分任务有10倍以上的性能提升,存储从自建Hadoop 3PB降到900T,利用Flink实时数据处理能力,将宝宝树现有的场景实时化(“基于用户ID维度和内容类型的实时行为”、“获取用户的实时群聊ID”及“获取文章的实时发布信息”),并且基于Flink进行实时推荐增加转化率。大数据平台整体成本节省30%以上。

游戏行业:DeNA中国游戏全链路运营

客户架构如下。游戏

  • 客户简介

    DeNA是优秀的网络服务公司,随着游戏项目的生命周期越来越短,项目的各个阶段走向实时、精准的把控,需要构建经济、高效的精细化数据运营体系。

  • 客户需求

    • 存在Hadoop1.0、2.0两个集群,技术架构复杂,平台的稳定性和安全性、资源的弹性伸缩能力都遇到了瓶颈。

    • 日志来源渠道多,实时性要求高,基于fluentd的文件采集服务,随着日志量的增多,性能、稳定性存在明显瓶颈。

    • “人肉脚本”的数据开发方式,业务支持效率低,且hive计算性能无法满足需求。

  • 价值体现

    DeNA中国是游戏行业首家应用闪电立方+MMA工具项目,在无专线等环境下,1个多月就完成10年增量RDS库300TB+历史数据50TB的数据迁移,具备较高的技术复杂度。相较之前客户基于python开源的airflow任务管理系统来说,DataWorks拥有以下优势:

    • 任务管理一目了然,任务出错定位以及即时跳转到相关任务代码修复。

    • 数据源一次性管理,不需要重复劳动,可被多种数据服务需求使用游戏业务拥有上百个数据源。

    • 整体技术下沉,使得资源调度等都不需要自己耗费精力和"额外"的coding,而实现专注于管理开发。

    迁移完成后,飞天大数据平台覆盖数据采集>存储&计算>实时/离线分析等游戏数据运营全链路。