您可以通过工作空间列表页面,查看该账号下所有的工作空间,对工作空间进行配置、删除、激活和重试等操作,也可以在该页面创建工作空间和刷新列表。

进入工作空间列表

  1. 以组织管理员(主账号)身份登录DataWorks控制台,默认进入概览页面。
  2. 在左侧导航栏,单击工作空间列表,查看当前账号下所有的工作空间。
    • 状态:工作空间包括正常初始化中初始化失败删除中删除禁用更新失败等状态。创建工作空间开始会进入初始化中,通常会显示初始化失败或正常2种结果。

      禁用后,您也可以激活和删除工作空间,激活后工作空间正常。

    • 已开通引擎:您的鼠标移至已开通引擎图标上,会展示您开通的所有引擎。通常正常引擎的图标为蓝色,欠费引擎图标为红色并有相应的欠费标志,欠费已删除的引擎的图标为灰色。通常引擎欠费7天后仍未续费,会自动删除。

创建工作空间

  1. 鼠标悬停至工作空间列表左上角的地域,单击需要创建工作空间的地域。
    说明
    • 选择地域后,默认情况下将DataWorks工作空间所在地域对应的时区设置为调度时区(即任务定时调度时间所使用的时区)。
    • 美国(硅谷)、德国(法兰克福)地域首次创建工作空间时,会出现弹框提示,可提交工单联系技术支持人员修改调度时区为东八区。
    • 修改调度时区时需注意:
      • 调度时区修改后不可更改,请您谨慎操作。
      • 修改后影响的时间范围:
        • DataStudio中任务定时调度时间的时区会被修改。配置任务定时调度时间,详情请参见时间属性配置说明
        • 运维中心所展示时间的时区会被修改。运维中心的介绍说明,详情请参见运维中心概述
        除了DataStudio中的任务定时调度时间和运维中心页面外,DataWorks其他模块的时间默认使用工作空间所在地域的时区,不使用调度时区。
      • 修改后影响的用户范围:

        调度时区的修改是地域级别的,修改后本地域所有用户的所有工作空间中,DataStudio的任务定时调度时间及运维中心展示时间的时区均会被修改。

  2. 单击创建工作空间,进行基本配置,单击下一步
    分类 参数 描述
    基本信息 工作空间名称 工作空间名称的长度需要在3~28个字符,以字母开头,且只能包含字母、下划线(_)和数字。
    显示名 显示名不能超过23个字符,只能字母、中文开头,仅包含中文、字母、下划线(_)和数字。
    模式 DataWorks的工作空间分为简单模式标准模式
    • 简单模式:指一个DataWorks工作空间对应一个引擎项目,无法设置开发和生产环境,只能进行简单的数据开发,无法对数据开发流程以及表权限进行强控制。
    • 标准模式:指一个DataWorks工作空间对应两个引擎项目,可以设置开发和生产两种环境,提升代码开发规范,并能够对表权限进行严格控制,禁止随意操作生产环境的表,保证生产表的数据安全。

    详情请参见简单模式和标准模式的区别

    描述 对创建的工作空间进行简单描述。
    高级设置 能下载select结果 控制数据开发中查询的数据结果是否能够下载,如果关闭无法下载select的数据查询结果。此参数在工作空间创建完成后可以在工作空间配置页面进行修改,详情可参考文档:安全设置
  3. 进入选择引擎界面,选择相应引擎后,单击下一步
    DataWorks已正式商用,如果该地域没有开通,需要首先开通正式商用服务。
    选项 参数 描述
    选择DataWorks服务
    说明 默认选中该模块。
    数据集成 数据集成是稳定高效、弹性伸缩的数据同步平台。致力于提供复杂网络环境下、丰富的异构数据源之间数据高速稳定的数据移动及同步能力。详情请参见数据集成模块。
    数据开发 该页面是您根据业务需求,设计数据计算流程,并实现为多个相互依赖的任务,供调度系统自动执行的主要操作页面。详情请参见数据开发模块。
    运维中心 该页面可对任务和实例进行展示和操作,您可以在此查看所有任务的实例。详情请参见运维中心模块。
    数据质量 DataWorks数据质量依托DataWorks平台,为您提供全链路的数据质量方案,包括数据探查、数据对比、数据质量监控、SQLScan和智能报警等功能。详情请参见数据质量模块。
    选择计算引擎服务 MaxCompute MaxCompute是一种快速、完全托管的TB或PB级数据仓库解决方案,能够更快速为您解决海量数据计算问题,有效降低企业成本,并保障数据安全。详情请参见MaxCompute
    说明 完成创建DataWorks工作空间后,需要关联MaxCompute项目,否则现执行命令会报project not found的错误。
    E-MapReduce 开通后,您可以在DataWorks中使用E-MapReduce,进行大数据处理任务的开发。详情请参见E-MapReduce
    注意

    DataWorks已暂停绑定E-MapReduce计算引擎,如您有相关需求,请提交工单申请。

    交互式分析Hologres 开通后,您可以在DataWorks中使用Holostudio进行交互式分析的表管理、外部表管理和SQL任务的开发。
    AnalyticDB for PostgreSQL 开通后,您可以在DataWorks中进行分析型数据库AnalyticDB for PostgreSQL任务的开发,AnalyticDB for PostgreSQL的详情请参见产品概述
    说明 您需要购买DataWorks标准版及以上版本,才可以开通AnalyticDB for PostgreSQL服务。
    AnalyticDB for MySQL 开通后,您可以在DataWorks中进行分析型数据库AnalyticDB for MySQL任务的开发,AnalyticDB for MySQL的详情请参见产品概述
    说明 您需要购买DataWorks标准版及以上版本,才可以开通AnalyticDB for MySQL服务。
    选择机器学习服务 机器学习PAI 机器学习是指机器通过统计学算法,对大量的历史数据进行学习从而生成经验模型,利用经验模型指导业务。
  4. 进入引擎详情页面,配置选购引擎的参数。
    • 绑定MaxCompute计算引擎
      参数 描述
      新增方式 您可以创建MaxCompute项目或者绑定已有MaxCompute项目
      实例显示名称 实例名称长度需要控制在3~28个字符,仅支持字母开头,仅包含字母、下划线(_)和数字。
      地域 默认当前工作空间所在的地域。
      付费模式 包括按量付费包年包月开发者版本
      说明 标准模式下不支持添加开发者版本的实例。
      Quota组 Quota用来实现计算资源和磁盘配额。
      MaxCompute数据类型 包括2.0数据类型(推荐)1.0数据类型(面向已有使用1.0数据类型用户)Hive兼容类型(面向Hive迁移用户),详情请参见:数据类型版本说明
      是否加密 根据实际情况选择是否需要加密当前实例。
      生产环境 生产环境下的配置项包括MaxCompute项目名称访问身份
      • MaxCompute项目名称:当前DataWorks工作空间底层使用的MaxCompute生产环境的项目名称。
      • 访问身份:支持您通过阿里云主账号阿里云子账号阿里云RAM角色角色访问MaxCompute。
      开发环境 开发环境下的配置项包括MaxCompute项目名称访问身份
      • MaxCompute项目名称:当前DataWorks工作空间底层使用的MaxCompute开发环境的项目名称。
        说明 该MaxCompute项目是计算和存储资源。
      • 访问身份:默认是任务执行者,不可以修改。
    • 绑定E-MapReduce计算引擎
      参数 描述
      实例显示名称 自定义实例的名称。
      地域 默认当前工作空间所在的地域。
      访问模式
      • 当EMR计算引擎的绑定模式为快捷模式时,阿里云主账号RAM用户在DataWorks运行代码或自动调度任务,都只是下发代码至EMR集群,实际运行的身份为集群内的Hadoop用户。
      • 当EMR计算引擎的绑定模式为安全模式时,阿里云主账号RAM用户在下发代码的同时,EMR集群内会匹配对应的同名用户来运行任务。管理者可以使用EMR集群内的Ranger组件对每个用户进行权限管控,最终实现不同阿里云主账号任务责任人阿里云子账号在DataWorks上运行EMR任务时,拥有对应不同数据权限的目的,进行更安全的数据权限隔离。
      调度访问身份
      • 如果访问模式选择快捷模式,当提交任务至调度系统后,DataWorks调度系统自动运行任务时,您可以选择阿里云主账号阿里云子账号提交代码至EMR集群。
      • 如果访问模式选择安全模式,当任务被提交、发布至生产环境后,DataWorks调度系统自动运行任务时,您可以选择任务责任人阿里云主账号阿里云子账号提交代码至EMR集群,同时该身份对应的Hadoop用户将实际运行代码。
      说明
      • 仅生产环境涉及配置该参数。
      • 为保证工作空间成员可以在DataStudio内正常运行EMR类的任务,请确保开发、管理员等相关角色拥有AliyunEMRDevelopAccess权限策略。
        • 如果您使用阿里云主账号运行任务,该账号天然拥有AliyunEMRDevelopAccess权限策略。
        • 如果您使用RAM用户运行任务,则需要授予该用户AliyunEMRDevelopAccess权限策略,详情请参见为RAM用户授权
      访问身份 在开发环境运行任务时,提交代码至EMR引擎所使用的身份。此处默认为任务执行者
      说明
      • 仅DataWorks标准模式的工作空间会显示该参数,并且仅开发环境涉及配置该参数。
      • 任务执行者可以为阿里云主账号或RAM用户。
        为保证工作空间成员可以在DataStudio内正常运行EMR类的任务,请确保开发、管理员等相关角色拥有AliyunEMRDevelopAccess权限策略。
        • 如果您使用阿里云主账号运行任务,该账号天然拥有AliyunEMRDevelopAccess权限策略。
        • 如果您使用RAM用户运行任务,则需要授予该用户AliyunEMRDevelopAccess权限策略。
      集群ID 从下拉列表中选择调度访问身份账户所在的EMR集群,作为任务的运行环境。
      项目ID 从下拉列表中选择调度访问身份账户所在的EMR项目,作为任务的运行环境。
      说明 如果EMR项目开启访问模式安全模式,则无法被选择。
      YARN资源队列 当前集群下的队列名称。如果无特殊需求,请输入default
      覆盖DataStudio任务队列映射
      • 勾选覆盖DataStudio任务队列时:所有任务将按照当前指定的队列运行。
      • 未勾选覆盖DataStudio任务队列时:
        • 如果节点高级配置中配置了queue,则按照节点的queue配置运行。
        • 如果节点高级配置中没有配置queue(自己删除了该配置),任务将按照当前界面指定的队列运行。
      说明 如果您看不到覆盖DataStudio任务队列功能,可以提交工单联系我们进行升级。
      Endpoint EMR的Endpoint,不可以修改。
      选择资源组 选择已与当前DataWorks工作空间配置网络连通性的独享调度资源组。如果您没有可用的独享调度资源组则需要新建。新建独享调度资源组并配置网络连通性,详情请参见新增和使用独享调度资源组

      选择后,单击测试连通性进行测试,以验证独享调度资源组和E-MapReduce实例的网络连通性。验证后会对资源组进行初始化。

      说明 当EMR集群配置变更时,需要对资源组重新进行初始化。
    • 绑定Hologres计算引擎
      参数 描述
      实例显示名称 实例的显示名称。
      访问身份
      • DataWorks任务提交调度后,作为在Hologres引擎内执行代码的账号。包括阿里云主账号阿里云子账号
        说明 仅生产环境涉及配置该参数。
      • 在开发环境运行任务时,此处默认为任务执行者
      Hologres实例名称 选择需要绑定的Hologres实例。
      数据库名称 输入在SQL Console中新建的数据库的名称。例如,testdb
    • 绑定GraphCompute计算引擎
    • 绑定AnalyticDB for PostgreSQL计算引擎
      参数 描述
      实例显示名称 实例的显示名称,请注意名称需要保持唯一性。
      实例名称 选择需要在工作空间中使用的AnalyticDB for PostgreSQL实例。
      数据库名称 AnalyticDB for PostgreSQL实例下需要绑定使用的数据库的名称。
      用户名 拥有数据库操作权限的Username。,详情请参见创建数据库账号,进入AnalyticDB for PostgreSQL的账号管理页面获取。
      密码 拥有数据库操作权限的Password。,详情请参见创建数据库账号,进入AnalyticDB for PostgreSQL的账号管理页面获取。
      连通性测试 AnalyticDB for PostgreSQL任务实例需要运行在独享调度资源组上,请在此处选择需要使用的独享调度资源组,详情请参见独享资源组模式

      选择后,单击测试连通性进行测试,以验证独享调度资源组和AnalyticDB for PostgreSQL实例的网络连通性。如果您没有可用的独享调度资源组,请单击新建独享资源组创建。

    • 绑定AnalyticDB for MySQL计算引擎
      注意
      • 您需要开通DataWorks标准版及以上版本,当前页面才会显示AnalyticDB for MySQL
      • AnalyticDB for MySQL任务实例仅支持运行在独享调度资源组上。
      • 阿里云RAM子账号绑定引擎时,需要拥有引擎实例的DescribeDBClusters权限,授权详情可参考AnalyticDB MySQL文档:RAM用户和权限
      参数 描述
      实例显示名称 实例的显示名称,请注意名称必须唯一。
      实例名称 选择需要在工作空间中使用的AnalyticDB for MySQL实例。
      数据库名称 AnalyticDB for MySQL实例下绑定的需要使用的数据库名称。
      用户名 拥有数据库操作权限的Username。,详情请参见数据库账号和权限,进入AnalyticDB for MySQL的账号管理页面获取。
      密码 拥有数据库操作权限的Password。,详情请参见数据库账号和权限,进入AnalyticDB for MySQL的账号管理页面获取。
      连通性测试 AnalyticDB for MySQL任务实例需要运行在独享调度资源组上,请在此处选择需要使用的独享调度资源组,详情请参见独享资源组模式

      选择后,单击测试连通性进行连通性测试,以验证独享调度资源组和AnalyticDB for MySQL实例的网络连通性。如果您没有可用的独享调度资源组,请单击新建独享资源组创建。

  5. 配置完成后,单击创建工作空间
工作空间创建成功后,即可在工作空间列表页面查看相应内容。
说明
  • 如果您成为工作空间所有者,代表该工作空间内的所有东西都属于您。在给别人赋权之前,任何人无权限访问您的空间。如果您使用的是子账号创建的工作空间,则该工作空间会同时属于该子账号和对应的主账号。
  • 子账号可以不用创建工作空间,只需要被加入到某个工作空间,即可使用MaxCompute。

工作空间配置

单击相应工作空间后操作列的更多按钮,在展开的下拉菜单中选择工作空间配置,即可对当前工作空间的基本属性和高级属性进行设置,主要对工作空间、调度等进行管理和配置。详情请参见配置工作空间

工作空间配置

引擎配置

通常引擎配置是对计算引擎服务和DataWorks服务的操作,需要先购买才可以对相应的服务进行选择。

单击相应工作空间后操作列的更多按钮,在展开的下拉菜单中选择引擎配置,即可在引擎配置对话框中进行相关操作。

如果您需要购买服务,选择相应服务后,单击下一步,进入引擎详情界面配置相关参数,单击确定即可。

进入数据开发、数据集成或数据地图

单击相应工作空间后的数据开发数据集成数据地图,即可进入相应的页面进行操作。

删除工作空间和禁用工作空间

单击相应工作空间后操作列的更多按钮,在展开的下拉菜单中选择删除或禁用工作空间:
  • 删除工作空间
    单击删除工作空间,在删除工作空间对话框中输入验证码YES,单击确定
    说明
    • 删除工作空间对话框中的验证码YES是固定的。
    • 删除工作空间的操作为不可逆操作,请慎重使用。
  • 禁用工作空间
    单击禁用工作空间,在禁用工作空间提示框中,单击确定
    说明
    • 工作空间被禁用后,工作空间内周期调度任务不会再生成实例,禁用前生成的实例到运行时间会自动运行,但是您无法登录工作空间查看相应情况。
    • 工作空间被禁用后,引擎资源仍然存在,可能会产生引擎存储相关的费用。该费用由相应引擎侧收取,不会在DataWorks收取,存储账单的相关问题可咨询相应引擎侧负责人员。