DataWorks的工作空间即MaxCompute中项目的概念,本文为您介绍如何创建工作空间。

前提条件

请根据准备阿里云账号中的步骤检查账号是否已可用。如果验证无误,请根据下文操作创建工作空间。
说明 子账号创建工作空间的流程与本文所描述的步骤一致。

操作步骤

  1. 使用主账号登录DataWorks控制台
  2. 概览页面,单击右侧的快速入口 > 创建工作空间
    您也可以单击左侧导航栏中的工作空间列表,切换至相应的区域后,单击创建工作空间
  3. 创建工作空间对话框,配置各项参数,单击下一步
    分类 参数 描述
    基本信息 工作空间名称 工作空间名称的长度需要在3~27个字符,以字母开头,且只能包含字母下划线和数字。
    显示名 显示名不能超过27个字符,只能字母、中文开头,仅包含中文、字母、下划线和数字。
    模式 工作空间模式是DataWorks新版推出的新功能,分为简单模式标准模式,两种项目开发模式的区别请参见简单模式和标准模式的区别
    • 简单模式:指一个Dataworks工作空间对应一个MaxCompute项目,无法设置开发和生产环境,只能进行简单的数据开发,无法对数据开发流程以及表权限进行强控制。
    • 标准模式:指一个Dataworks工作空间对应两个MaxCompute项目,可以设置开发和生产两种环境,提升代码开发规范,并能够对表权限进行严格控制,禁止随意操作生产环境的表,保证生产表的数据安全。
    描述 对创建的工作空间进行简单描述。
    高级设置 能下载select结果 控制数据开发中查询的数据结果是否能够下载,如果关闭无法下载select的数据查询结果。
  4. 进入选择引擎界面,选择相应引擎后,单击下一步
    说明
    • 如果您需要绑定实时计算、E-MapReduce、交互式分析、Graph Compute或AnalyticDB for PostgreSQL计算引擎,请首先开通相应的服务,才能进行选择。
    • 如果创建工作空间时,未选择正确的计算引擎,可能导致无法在数据开发页面进行创建表等操作。
    DataWorks已正式商用,如果该地域没有开通,需要首先开通正式商用服务。
    选项 参数 描述
    选择DataWorks服务
    说明 默认选中该模块。
    数据集成 数据集成是稳定高效、弹性伸缩的数据同步平台。致力于提供复杂网络环境下、丰富的异构数据源之间数据高速稳定的数据移动及同步能力。
    数据开发 该页面是您根据业务需求,设计数据计算流程,并实现为多个相互依赖的任务,供调度系统自动执行的主要操作页面。
    运维中心 该页面可对任务和实例进行展示和操作,您可以在此查看所有任务的实例。
    数据质量 DataWorks数据质量依托DataWorks平台,为您提供全链路的数据质量方案,包括数据探查、数据对比、数据质量监控、SQLScan和智能报警等功能。详情请参见数据质量模块。
    选择计算引擎服务 MaxCompute MaxCompute是一种快速、完全托管的TB或PB级数据仓库解决方案,能够更快速为您解决海量数据计算问题,有效降低企业成本,并保障数据安全。详情请参见MaxCompute
    说明 完成创建Dataworks工作空间后,需要关联MaxCompute项目,否则现执行命令会报project not found的错误。
    实时计算 开通后,您可以在DataWorks中进行流式计算任务开发。
    E-MapReduce 开通后,您可以在DataWorks中使用E-MapReduce,进行大数据处理任务的开发。详情请参见E-MapReduce
    交互式分析 开通后,您可以在DataWorks中使用Holostudio进行交互式分析的表管理、外部表管理和SQL任务的开发。
    Graph Compute 开通后,您可以在Dataworks中使用Graph Studio进行图计算开发。
    AnalyticDB for PostgreSQL 开通后,您可以在DataWorks中进行分析型数据库AnalyticDB for PostgreSQL任务的开发,AnalyticDB for PostgreSQL的详情请参见产品概述
    说明 您需要购买DataWorks标准版及以上版本,才可以开通AnalyticDB for PostgreSQL服务。
    选择机器学习服务 机器学习PAI 机器学习是指机器通过统计学算法,对大量的历史数据进行学习从而生成经验模型,利用经验模型指导业务。
  5. 进入引擎详情页面,配置选购引擎的参数。
    分类 参数 描述
    MaxCompute 实例显示名称 实例显示名称不能超过27个字符,仅支持字母、中文开头,仅包含中文、字母、下划线和数字。
    MaxCompute项目名称 默认与DataWorks工作空间的名称一致。
    MaxCompute访问身份 开发环境的MaxCompute访问身份默认为任务负责人,不可以修改。

    生产环境的MaxCompute访问身份包括阿里云主账号阿里云子账号

    Quota组切换 Quota用来实现计算资源和磁盘配额。
    实时计算 实例显示名称 自定义输入实例显示名称。
    绑定实时计算项目 选择要绑定的实时计算项目。如果没有项目,请登录实时计算控制台进行创建,详情请参见开通服务和创建项目
    E-MapReduce 实例显示名称 自定义实例名称。
    Access ID 已经授权可以访问EMR集群的账号的AccessKey ID。
    Access Key 已经授权可以访问EMR集群的账号的AccessKey Secret。
    EmrClusterID 集群ID,从EMR端获取。
    集群ID 当前集群创建者的用户ID。
    项目ID 当前集群下的项目ID。
    YARN资源队列 当前集群下的队列名称。如果无特殊需求,请输入default
    Endpoint EMR的Endpoint,从EMR端获取。
    交互式分析 实例显示名称 自定义实例名称。
    交互式分析实例名称 选择购买的交互式分析实例名称。
    数据库名 输入相应的数据库名称。
    服务器 输入实例的endpoint。
    端口 输入实例的端口。
    Graph Compute 实例显示名称 自定义实例名称。
    绑定图计算实例 选择需要绑定的图计算实例。
    AnalyticDB for PostgreSQL 实例显示名称 输入用作显示的实例别名,请注意名称需要保持唯一性。
    实例名称 选择需要在工作空间中使用的AnalyticDB for PostgreSQL实例。
    数据库名称 输入AnalyticDB for PostgreSQL实例下需要绑定使用的数据库的名称。
    用户名 输入访问数据库使用的用户名。
    密码 输入访问数据库使用的密码。
    连通性测试 AnalyticDB for PostgreSQL任务实例需要运行在独享资源组上,请在此处选择需要使用的独享资源组。选择后,单击测试连通性进行测试,以验证独享资源组和AnalyticDB for PostgreSQL实例的网络连通性。
    PAI 使用GPU 默认不使用,如果需要使用,请前往工作空间配置页面开启GPU使用。
  6. 配置完成后,单击创建工作空间
    工作空间创建成功后,即可在工作空间列表页面查看相应内容。
    说明
    • 如果您成为工作空间所有者,代表该工作空间内的所有东西都属于您。在给别人赋权之前,任何人无权限访问您的空间。如果您使用的是子账号创建的工作空间,则该工作空间会同时属于子账号和对应的主账号。
    • 子账号无需创建工作空间,只需要被加入到某个工作空间,即可使用MaxCompute。

后续步骤

现在,您已经学习了如何创建工作空间,您可以选择继续添加工作空间成员和角色或直接开始快速入门的操作。您可以通过学习快速入门模块,快速完成一个完整的数据开发和运维操作。