若运行在独享调度资源组上的任务执行时需依赖第三方包,为保障任务可顺利执行,您需要先通过该资源组的运维助手功能,将相应的第三方包安装至独享调度资源组。DataWorks的运维助手提供了多种内置的第三方包,可直接安装使用,若内置的第三方包无法满足您的业务需要,您也可通过Shell命令手动上传所需的包或资源文件进行安装。
前提条件
已创建独享调度资源组。仅独享调度资源组支持使用运维助手功能。创建独享调度资源组,详情请参见新增和使用独享调度资源组。
已拥有AliyunDataWorksFullAccess或ModifyResourceGroup权限策略。授权详情请参见产品及控制台权限控制详情:RAM Policy。
使用限制
运维助手功能的使用限制如下:
仅支持用于独享调度资源组,不支持用于独享数据集成资源组、新版资源组。
仅支持新建安装第三方包的命令,不支持修改命令。
仅支持上传不超过50M的资源至独享调度资源组。
说明对于超过50M的MaxCompute类型资源,您可通过DataWorks可视化方式上传,详情请参见创建并使用MaxCompute资源。
通过独享调度资源组的运维助手安装的Python第三方包,仅支持在该独享调度资源组运行PyODPS任务时引用。
说明如需在MaxCompute的Python UDF中引用Python第三方包,请参见UDF示例:Python UDF使用第三方包。
进入运维助手
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的资源组列表,进入资源组列表页面。
在独享资源组页签,找到用途为数据调度的资源组,单击资源组后的图标,选择运维助手,进入所选资源组的运维助手页面。
您可根据需要创建命令,通过命令安装执行任务所需的第三方包。
说明运维助手只能用于独享调度资源组,不能用于独享数据集成资源组、新版资源组。
安装第三方包
创建用于安装第三方包的命令。
安装的第三方包可被当前资源组运行调度任务时使用。在所选资源组的运维助手页面,单击创建命令,可选择使用快捷方式或手动输入方式创建命令。
方式一:快捷方式
该方式用于安装DataWorks提供的内置第三方包。
核心参数说明如下。
参数
描述
命令名称
自定义名称。
命令类型
选择快捷安装环境。
该方式下,DataWorks会根据所选的第三方包自动生成安装该第三方包的Shell命令。
内置第三方包
选择要安装的第三方包及其对应版本。
DataWorks内置多种Python2、Python3、Yum类型的第三方包,您可根据需要选择。常用的第三方包,例如:
Aliyun-python-sdk-core:阿里云提供的Python SDK的核心库,是与阿里云的云服务进行交互时使用的基础库,提供了基本的API调用和认证功能。
NumPy:提供了高性能的多维数组和数值计算功能,是进行科学计算和数据分析的基础库。
Pandas:提供了高性能、易用的数据结构和数据分析工具,用于处理和分析结构化数据。
更多支持的第三方包请参见实际的功能界面。
生成的Shell
DataWorks将根据您所选的安装包,自动生成相应Shell命令。
后续可通过执行该命令,安装相应的第三方包。
例如,选择aliyun-python-sdk-core安装包后,平台将自动生成安装该第三方包的pip install aliyun-python-sdk-core命令。
超时时间
命令执行的超时时间,单位为秒。超时后DataWorks会强制结束正在执行的命令。
方式二:手动输入
若内置的第三方包无法满足您的业务需要,则可手动输入Shell命令上传所需包或资源文件。
说明手动输入方式无法使用PIP命令安装第三方包。
参数
描述
命令名称
自定义名称。
命令类型及内容
选择手动输入。
您需手动输入上传本地包或资源文件的Shell命令。
说明通过手动输入的命令执行时无法保证成功率。
资源上传完成后,在数据开发(DataStudio)的节点任务中引用该资源时需要使用绝对路径。
安装目录
配置待执行命令所在的目录。DataWorks会添加该目录至白名单,保证该目录可访问。多个目录之间使用英文分号(;)分隔。
说明可选择安装第三方包至/home/目录、非/home/目录。对于/home/目录,仅支持存放待执行命令至独享调度资源组的/home/admin/usertools/tools/路径下。
若未指定安装目录,将默认安装至/home/admin/usertools/tools/路径下。
超时时间
命令执行的超时时间,单位为秒。超时后DataWorks会强制结束正在执行的命令。
单击创建,完成创建。
执行命令。
命令创建完成后,您需在该资源组的运维助手页面,单击所创建命令操作列的运行命令,安装相应第三方包。安装成功后,后续可使用该第三方包在当前资源组中运行相关调度任务。
管理命令
您可在当前资源组的运维助手页面,对已创建的命令执行如下操作:
您也可单击查看环境配置详情,查看当前资源组的整体环境配置情况。例如,已安装的第三方包、第三方包的版本及状态。
查看命令:查看命令的执行状态、执行ID、命令内容等基本信息。
查看运行结果:查看命令运行成功或失败,根据日志分析运行失败的原因并处理。
联系技术支持:如您遇到无法解决的问题,可根据界面指引加入DataWorks用户交流群,联系技术支持解决。
后续操作
第三方包安装完成后,使用当前独享调度资源组运行调度任务时便可引用该包。使用示例参考如下: