全部产品
Search
文档中心

大数据开发治理平台 DataWorks:创建Hologres数据源

更新时间:May 30, 2024

若您要使用DataWorks进行Hologres任务的开发、管理,需先将您的Hologres实例创建为DataWorks的Hologres数据源。创建完成后,可在DataWorks的各功能模块使用该数据源连接Hologres实例,进行相应的数据同步、数据开发、数据分析等操作。

前提条件

  • 已购买Hologres实例并创建数据库。操作详情请参见购买Hologres创建数据库

    说明

    建议购买Hologres实例时,地域与创建Hologres数据源的DataWorks工作空间地域一致,如果地域不一致就只能创建为跨地域的数据源,此类数据源无法绑定为计算引擎,即无法在DataWorks的数据开发、运维中心页面中执行对应计算任务,仅可进行数据同步任务。

  • 已购买所需的DataWorks资源组并完成资源组配置。Hologres实例仅支持使用独享数据集成资源组、独享调度资源组、独享数据服务资源组。

    Hologres数据源创建完成后,可用于进行数据同步、Hologres计算任务开发与调度、生成API提供数据服务等应用场景中,各应用场景需要分别使用DataWorks的数据集成资源组、调度资源组、数据服务资源组。

    您需要根据数据源的应用场景提前准备好对应的资源组并完成资源组配置,在创建Hologres数据源时确保与对应资源组间网络连通。各资源组的介绍与配置引导请参见DataWorks资源组概述

  • 已创建或加入目标工作空间。

    您需在目标工作空间中,将Hologres实例创建为该工作空间的数据源,用于后续在该工作空间进行开发操作。同时,需将购买的DataWorks资源组绑定至该工作空间,确保数据源与资源组网络连通。创建工作空间,详情请参见配置工作空间

    说明

    同一个Hologres实例可在多个DataWorks工作空间中被创建为数据源。

使用限制

  • 仅当Hologres实例和DataWorks工作空间同地域、属于同一阿里云主账号,且数据源未开启SSL认证时,基于该实例创建的Hologres数据源才可被绑定为计算引擎,即此类数据源才可在DataWorks的数据开发、运维中心页面中执行对应计算任务。

  • 支持跨账号创建数据源,即支持选择其他阿里云账号下的Hologres实例创建为数据源,但数据源创建完成后仅支持通过RAM角色的方式访问对应的Hologres实例。并且该类数据源不能用于数据开发和调度。

  • 支持创建数据源时选择是否需要对数据源开启SSL认证,如果Hologres实例开启了传输加密,您可以在创建Hologres数据源时开启SSL认证,但开启认证后的Hologres数据源不能用于数据开发和调度。

  • 仅支持使用独享数据集成资源组、独享调度资源组运行Hologres任务;基于Hologres数据源创建数据服务API,推荐使用独享数据服务资源组。独享资源组的购买与配置操作,详情请参见新增和使用独享数据集成资源组新增和使用独享调度资源组新增和使用独享数据服务资源组

操作前准备:权限说明与配置

  1. DataWorks侧权限配置。

    进行创建数据源操作前,您需确保操作的阿里云账号有DataWorks数据源的新建、编辑、删除、连通性测试等相关操作权限。

    • 操作账号拥有AliyunDataWorksFullAccess、AdministratorAccess权限时,则具备相关操作权限。

    • 如果您使用RAM账号或RAM角色进行操作:

      • RAM账号或RAM角色为项目所有者时,则具备相关操作权限。

      • RAM账号或RAM角色不是项目所有者时,您需将对应账号添加为DataWorks工作空间的运维空间管理员角色,详情请参见添加空间成员并管理成员角色权限

  2. Hologres侧权限配置。

    在数据源创建完成后,需要使用数据源配置的访问身份来访问对应的Hologres实例,因此,您需确保访问身份对应的阿里云账号有Hologres实例的操作权限。Hologres权限说明详情级授权指导请参见Hologres权限模型概述

  3. (可选)跨账号场景下的权限配置。(单击展开查看详情)

    跨阿里云账号创建Hologres数据源时,仅支持通过RAM角色访问的方式访问对应的Hologres实例,且需要对对应的RAM角色配置以下权限策略。

    • 跨账号创建数据源场景示例:

      本文示例使用主账号A登录DataWorks,通过主账号B的Hologres实例创建Hologres数据源,实现数据源的跨账号创建。

      • 主账号A:开通了DataWorks,需访问主账号B下的Hologres。

      • 主账号B:已开通Hologres实例并创建了Hologres数据库。

    • 账号B的RAM角色要求及权限配置

      1. 账号B需创建一个RAM角色并授权该角色可访问指定Hologres实例。同时,RAM角色需添加账号A为信任的云账号,即允许账号A使用此RAM角色。详情请参见RAM角色授权模式

      2. 修改RAM角色的权限策略,授权给账号A,后续账号A可使用此RAM角色来访问Hologres。详情请参见修改RAM角色的信任策略

        策略内容如下。

        {
            "Version": "1",
            "Statement": [
                {
                    "Action": [
                        "sts:AssumeRole",
                        "hologram:GetInstance",
                        "hologram:ListInstances",
                        "hologram:ListWarehouses"
                    ],
                    "Effect": "Allow",
                    "Principal": {
                        "Service": [
                            "账号A的阿里云账号ID@engine.dataworks.aliyuncs.com"
                        ]
                    }
                }
            ]
        }

创建数据源

  1. 进入数据源页面。

    1. 登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的管理中心,在下拉框中选择对应工作空间后单击进入管理中心

    2. 进入工作空间管理中心页面后,单击左侧导航栏的数据源 > 数据源列表,进入数据源页面。

  2. 单击新增数据源,选择Hologres。在数据源配置页面中配置数据源参数。

  3. 配置基础信息。

    您可根据界面提示配置数据源的名称等基础信息,核心配置参数如下表所示。

    说明

    标准模式工作空间,需分别创建开发环境数据源和生产环境数据源。工作空间模式,详情请参见必读:简单模式和标准模式的区别

    参数

    说明

    数据源名称

    定义数据源在DataWorks的名称,名称必须唯一。

    认证方式

    新建数据源时无需配置,默认支持通过阿里云账号及阿里云RAM角色身份进行认证。

    说明

    历史创建的存量数据源支持使用AccessID及AccessKey的认证方式,这类数据源建议后续修改认证方式为阿里云账号及阿里云RAM角色

    所属云账号

    指定当前创建的数据源对应的Hologres实例属于当前阿里云主账号还是其他阿里云主账号。

    • 当前阿里云主账号:添加当前阿里云主账号下的Hologres实例作为当前工作空间的数据源。

    • 其他阿里云主账号:添加其他阿里云主账号下的Hologres实例作为当前工作空间的数据源。

      说明

      此方式即可实现跨账号创建数据源,数据源创建完成后仅支持通过RAM角色访问的方式执行。

    地域

    Hologres实例所在地域。

    说明

    若选择的地域与当前工作空间地域不一致,则创建数据源后,该数据源不支持绑定为工作空间的计算引擎,即不支持在数据开发(DataStudio)、运维中心使用,仅可用于数据集成模块进行数据同步。

    Hologres实例及访问身份配置

    所属云账户不同时,Hologres实例及访问身份的配置参数不同。

    所属账号:当前阿里云主账号

    • Hologres实例数据库名称:在下拉框中选择待添加为数据源的Hologres实例,并填写已创建的Hologres数据库名称。您可以登录Hologres控制台,在实例列表页面进入实例详情页,查看对应信息。

    • 默认访问身份:用于指定后续使用什么账号访问Hologres。

      • 开发环境:默认使用当前的执行者(即当前的登录账号)访问Hologres。

        例如在数据开发页面中创建并调试Hologres引擎任务时,即使用当前登录数据开发页面的阿里云账号访问对应的Hologres。

      • 生产环境:您可以在下拉框中选择使用主账号或RAM账号/RAM角色访问Hologres。

        说明

        RAM角色相关操作请参见(进阶)RAM角色登录并使用DataWorks

        下拉框中可选的访问身份类型与当前操作创建Hologres数据源的账号有关,详情可见界面提示。

        例如在运维中心周期性调度Hologres任务时,即使用此处配置的访问身份访问对应的Hologres。

    所属账号:其他阿里云主账号

    说明

    此场景为创建跨账号的Hologres实例为数据源,数据源创建完成后,仅支持通过RAM角色的方式访问对应Hologres。并且该类数据源不能用于数据开发和调度。

    • 对方阿里云主账号UID对方RAM角色:填写跨账号的阿里云账号UID和RAM角色。后续即使用此阿里云账号下的RAM角色访问对应Hologres。

    • 对方Hologres实例对方数据库名称:填写已创建的Hologres实例ID、Hologres数据库名称。您可以登录Hologres控制台,在实例列表页面进入实例详情页,查看对应信息。

    认证选项加密模式

    选择后续访问Hologres实例时,是否需要加密传输。

    • 如果您需要选择仅认证选项为SSL认证,则需要先确保对应Hologres实例已经开启了传输加密,否则后续连接访问Hologres实例会报错。

    • 如果您开启了SSL认证,则创建的数据源不能用于数据开发和调度。

  4. 测试资源组连通性。

    根据使用场景不同,资源组分为数据集成(用于数据同步)、数据调度(用于任务调度)、数据服务(用于数据服务任务)这些类型。各类资源组的详细介绍请参见DataWorks资源组概述

    您需根据数据源后续的用途,在对应资源组类型页签下,测试所需资源组的连通性。若资源组与数据源无法连通,则相应数据源任务将无法正常执行。

后续操作

为保障您的开发过程更加顺畅,建议先阅读DataWorks On Hologres使用说明,了解在DataWorks使用Hologres的开发流程、相关费用、环境准备、权限控制等内容。

数据源创建完成后,您可根据需要执行如下操作:

  • 计算任务开发与调度

    DataWorks的数据开发与运维中心模块,为您提供Hologres任务的开发与调度能力,若您需要基于该Hologres数据源进行Hologres任务开发,或周期性调度Hologres相关任务,需先进入数据开发(DataStudio)页面,将创建的数据源绑定至数据开发(DataStudio)。

    说明

    仅当Hologres实例和DataWorks工作空间同地域、同账号时,基于该项目创建的数据源才可绑定至数据开发(DataStudio)。

  • 进行数据同步

    DataWorks的数据集成模块为您提供读取和写入数据至Hologres的能力,您可将其他数据源的数据同步至当前Hologres数据源,或将当前Hologres数据源的数据同步至其他数据源。同时,可根据需要选择离线同步、实时同步、同步解决方案等场景执行相关数据同步操作。

  • 增删改查数据源:进入数据源管理页面执行编辑、删除等管理操作。