个人资源优化页面主要供个人使用,为您展示个人名下可优化的任务和表。

前提条件

您需要开通DataWorks专业版及以上版本,才可以使用资源优化功能。

操作步骤

  1. 登录DataWorks控制台
  2. 在左侧导航栏,单击工作空间列表
  3. 单击相应工作空间后的进入数据开发
  4. 单击左上方的图标图标,选择全部产品 > 数据治理 > 资源优化,默认进入个人资源优化页面。
    您可以单击顶部的工作空间下拉列表,选择相应的工作空间,也可以选择我的所有项目切换项目
    个人资源优化页面为您展示个人资产概览个人资源优化
    • 您可以在个人资产概览查看个人名下的总任务数总表数
      优化项变化趋势为您展示最近10天内可优化项的变化趋势,您可以在此查看最近完成可优化项的数量。
      说明 优化趋势中的数据是离线计算生成的,您可以查看最新的日期,以获取数据的最近更新时间。
    • 个人资源优化数据存储数据计算数据采集三个领域进行扫描。数据存储数据计算扫描的是MaxCompute表MaxCompute任务数据采集扫描的是写入至MaxCompute中的同步任务个人资源优化
      说明 DataWorks支持开发环境和生产环境隔离的标准工作空间模式,即一个DataWorks工作空间支持底层有两个MaxCompute项目,此时您可以通过环境进行筛选。
      扫描领域 优化对象 可优化项 描述
      数据存储 MaxCompute表 未管理的表 未管理的表需要满足以下两个校验条件:
      • 未设置生命周期的表。
      • 最近一个月未在DataWorks上访问的非分区表。
      同时满足上述条件的表,会被扫描出来。针对上述扫描条件,您可以通过设置表的生命周期,解决上述扫描问题。表的生命周期详情请参见生命周期
      说明 表的生命周期到期后,会回收表数据,请谨慎操作。
      空表 存储量为0的表即为空表。不建议您直接删除表,推荐您根据表的创建时间,对早期创建的表进行审计。
      最近90天未访问表 最近90天未访问表的优化方案如下:
      • 根据自身业务需求,调整表的生命周期。
      • 梳理您的业务,确认该表是否有效。如果无效,可以删除。
        注意 删除后的表,无法恢复数据,请谨慎操作。
      数据计算 MaxCompute任务 冲突任务 多个任务写入同一张表,可能导致不符合预期的结果。在数据开发过程中,不建议多个任务操作同一张表的同一个分区,避免其中一个任务报错,补数据时出现数据质量问题。

      开发任务时,需要考虑数据幂等性问题。建议根据任务的下游数量,暂停其中一个任务,调整暂停任务下游节点的依赖关系。

      数据倾斜 产生数据倾斜的根本原因是:有少数伏羲实例处理的数据量超过其它实例处理的数据量,导致少数实例的运行时长超过其它实例的平均运行时长,从而导致整个任务的运行时间较长,造成任务延迟。

      数据倾斜的解决方案请参见其它计算长尾调优

      暴力扫描 如果在运行任务时未指定分区,会扫描大量数据。建议您优化任务,减少数据的输入量。

      暴力扫描的判定规则为:扫描的分区数大于90个,且总扫描量大于90 GB。

      数据采集 同步任务 导入为空 扫描出导入数据量持续为0的数据同步任务,您可以暂停或下线该任务。
      持续导入一致 扫描出连续15天导入数据量持续一致的数据同步任务,请关注源数据是否不再更新。

      此时需要考虑业务是否已暂停。如果业务暂时停止,建议暂停任务的调度,以节省调度、计算和存储等资源。

      同源导入 扫描出有相同数据源的数据同步任务,该类任务会存在重复导入MaxCompute的情况,导致存储及调度资源的浪费。您可以通过合并任务解决该问题。
      OSS同步优化 扫描出通过公网进行OSS数据传输的数据同步任务,该类任务会导致额外的网络费用。

      您可以进入工作空间管理 > 数据源管理页面,修改数据源的Endpoint地址为内网地址,减少公网流量费用、提升传输速度。详情请参见配置Endpoint

    对于业务上难以治理的内容,您可以单击相应表或任务后的添加白名单。详情请参见添加白名单