全部产品
Search
文档中心

大数据开发治理平台 DataWorks:运维助手

更新时间:Jan 12, 2024

若运行在独享调度资源组上的任务执行时需依赖第三方包,为保障任务可顺利执行,您需要先通过该资源组的运维助手功能,将相应的第三方包安装至独享调度资源组。DataWorks的运维助手提供了多种内置的第三方包,可直接安装使用,若内置的第三方包无法满足您的业务需要,您也可通过Shell命令手动上传所需的包或资源文件进行安装。

前提条件

使用限制

运维助手功能的使用限制如下:

  • 仅支持用于独享调度资源组,不支持用于独享数据集成资源组、新版资源组。

  • 仅支持新建安装第三方包的命令,不支持修改命令。

  • 仅支持上传不超过50M的资源至独享调度资源组。

    说明

    对于超过50M的MaxCompute类型资源,您可通过DataWorks可视化方式上传,详情请参见创建并使用MaxCompute资源

  • 通过独享调度资源组的运维助手安装的Python第三方包,仅支持在该独享调度资源组运行PyODPS任务时引用。

    说明

    如需在MaxCompute的Python UDF中引用Python第三方包,请参见UDF示例:Python UDF使用第三方包

进入运维助手

  1. 登录DataWorks控制台,单击左侧导航栏的资源组列表,进入资源组列表页面。

  2. 独享资源组页签,单击相应调度资源组后的image.png图标,选择运维助手,进入所选资源组的运维助手页面。

    您可根据需要创建命令,通过命令安装执行任务所需的第三方包。

    说明

    运维助手只能用于独享调度资源组,不能用于独享数据集成资源组、新版资源组。

安装第三方包

  1. 创建用于安装第三方包的命令。

    安装的第三方包可被当前资源组运行调度任务时使用。在所选资源组的运维助手页面,单击创建命令,可选择使用快捷方式或手动输入方式创建命令。

    方式一:快捷方式

    该方式用于安装DataWorks提供的内置第三方包。

    image.png

    核心参数说明如下。

    参数

    描述

    命令名称

    自定义名称。

    命令类型

    选择快捷安装环境

    该方式下,DataWorks会根据所选的第三方包自动生成安装该第三方包的Shell命令。

    内置第三方包

    选择要安装的第三方包及其对应版本。

    DataWorks内置多种Python2、Python3、Yum类型的第三方包,您可根据需要选择。常用的第三方包,例如:

    • Aliyun-python-sdk-core:阿里云提供的Python SDK的核心库,是与阿里云的云服务进行交互时使用的基础库,提供了基本的API调用和认证功能。

    • NumPy:提供了高性能的多维数组和数值计算功能,是进行科学计算和数据分析的基础库。

    • Pandas:提供了高性能、易用的数据结构和数据分析工具,用于处理和分析结构化数据。

    更多支持的第三方包请参见实际的功能界面。

    生成的Shell

    DataWorks将根据您所选的安装包,自动生成相应Shell命令。

    后续可通过执行该命令,安装相应的第三方包。

    例如,选择aliyun-python-sdk-core安装包后,平台将自动生成安装该第三方包的pip install aliyun-python-sdk-core命令。

    超时时间

    命令执行的超时时间,单位为秒。超时后DataWorks会强制结束正在执行的命令。

    方式二:手动输入

    若内置的第三方包无法满足您的业务需要,则可手动输入Shell命令上传所需包或资源文件。image

    说明

    手动输入方式无法使用PIP命令安装第三方包。

    参数

    描述

    命令名称

    自定义名称。

    命令类型及内容

    选择手动输入

    您需手动输入上传本地包或资源文件的Shell命令。

    说明
    • 通过手动输入的命令执行时无法保证成功率。

    • 资源上传完成后,在数据开发(DataStudio)的节点任务中引用该资源时需要使用绝对路径。

    安装目录

    配置待执行命令所在的目录。DataWorks会添加该目录至白名单,保证该目录可访问。多个目录之间使用英文分号(;)分隔。

    说明
    • 可选择安装第三方包至/home/目录、非/home/目录。对于/home/目录,仅支持存放待执行命令至独享调度资源组的/home/admin/usertools/tools/路径下。

    • 若未指定安装目录,将默认安装至/home/admin/usertools/tools/路径下。

    超时时间

    命令执行的超时时间,单位为秒。超时后DataWorks会强制结束正在执行的命令。

  2. 单击创建,完成创建。

  3. 执行命令。

    命令创建完成后,您需在该资源组的运维助手页面,单击所创建命令操作列的运行命令,安装相应第三方包。安装成功后,后续可使用该第三方包在当前资源组中运行相关调度任务。

管理命令

您可在当前资源组的运维助手页面,对已创建的命令执行如下操作:

说明

您也可单击查看环境配置详情,查看当前资源组的整体环境配置情况。例如,已安装的第三方包、第三方包的版本及状态。

  • 查看命令:查看命令的执行状态、执行ID、命令内容等基本信息。

  • 查看运行结果:查看命令运行成功或失败,根据日志分析运行失败的原因并处理。

  • 联系技术支持:如您遇到无法解决的问题,可根据界面指引加入DataWorks用户交流群,联系技术支持解决。

后续操作

第三方包安装完成后,使用当前独享调度资源组运行调度任务时便可引用该包。使用示例参考如下: