Lindorm计算引擎RAY资源组提供分布式计算服务,支持AI负载端到端处理。该资源组兼容完整RAY计算模型及编程接口,深度融合Lindorm多模存储引擎特性,可高效完成数据预处理、训练及推理任务。本文介绍RAY资源组的开通、管理及计费方式。
RAY资源组目前处于邀测阶段,如有使用需求,请联系Lindorm技术支持(钉钉号:s0s3eg3)申请使用名额。
前提条件
计费方式
RAY资源组提供常驻运行模式,费用包含以下两部分:
开通RAY资源组
登录Lindorm管理控制台。在左上角选择实例所属的地域。在实例列表页,单击目标实例ID或者目标实例所在行操作列的管理。
-
在实例详情页的配置信息区域,单击计算引擎操作列的资源组管理。
-
在资源组详情页中单击创建资源组,配置以下内容:
-
资源组类型:选择RAY。
-
资源组名称:资源组的名字,仅支持小写字母和数字,且长度不超过63个字符。例如
raycg。 -
运行模式:RAY 资源组的运行模式,默认常驻。常驻运行的 Ray 集群,将 RAY 作业提交到指定的 RAY 集群运行。在无作业运行情况下,RAY 集群以最小的资源保有量运行;有作业提交后,RAY 集群按照作业需求动态申请资源。
-
RAY 常驻资源组参数说明:
-
Head 节点配置。请根据您的集群规模选择 Head 节点资源规格以及磁盘空间。
-
Worker Group 数量。您可以根据业务场景选择一个或多个 Worker Group,每个 Worker Group 拥有不同的资源规格。
-
Worker Group 配置。您可以为每个 Worker Group 配置独立的资源规格、磁盘空间以及 Worker Group 内最大、最小运行副本数。
Head 节点配置
配置项
参数说明
Head资源类型
RAY 资源组支持选择 CPU、GPU 2种类型资源。
Head资源规格
-
CPU 资源类型,请选择您的 CPU、内存配额,比如 4核8G、4核16G、8核32G 等。请根据您的集群规模选择,默认为 4核16G。
-
GPU 资源类型,当您需要使用 GPU 资源时,受机型、库存限制,请联系Lindorm技术支持(钉钉号:s0s3eg3)。
Head磁盘大小
Head节点的磁盘空间,用于存储日志、内存溢出文件,以及您作业运行过程中所使用的资源文件,默认为 30G。
Worker Group 配置
配置项
参数说明
Worker资源类型
RAY 资源组支持选择 CPU、GPU 2种类型资源。
Worker资源规格
-
CPU 资源类型,请选择您的 CPU、内存配额,比如 4核8G、4核16G、8核32G 等。Worker Group 资源规格请根据您实际运行的作业需求选择,默认为 4核16G。
-
GPU 资源类型,当您需要使用 GPU 资源时,受机型、库存限制,请联系Lindorm技术支持(钉钉号:s0s3eg3)。
Worker磁盘空间
Worker节点的磁盘空间,用于存储日志、内存溢出文件,以及您作业运行过程中所使用的资源文件,默认为 30G。
最小Worker个数
Worker Group 内最小运行副本数。当无作业运行时,以该资源配额运行。
最大Worker个数
Worker Group 内最大运行副本数。当有作业运行时,能申请的最大 Worker 节点数量。
-
-
-
单击确定,创建RAY资源组。创建过程大约需要20分钟。
管理RAY资源组
登录Lindorm管理控制台。在左上角选择实例所属的地域。在实例列表页,单击目标实例ID或者目标实例所在行操作列的管理。
-
在实例详情页的配置信息区域,单击计算引擎操作列的资源组管理。
-
在资源组详情界面,将鼠标悬停在RAY资源组操作列的WebUI之上,获取资源组的WebUI地址,例如:
http://alb-57k7r581oht8rd****.cn-hangzhou.alb.aliyuncsslb.com/ray/raycg/dashboard/。 -
在浏览器中访问资源组的WebUI地址来查看资源组的运行状态。

-
在WebUI的上方导航栏,切换标签页可以依次查看作业列表(Jobs)、集群状态(Cluster)、Actor列表(Actors)、集群日志(Logs)。
-
在集群状态(Cluster)标签页,可查看集群中所有节点的CPU、内存、GPU、Object Store等资源的使用情况。
-
-
(可选)在资源组详情页中,您还可以删除已创建的资源组。
说明RAY资源组暂不支持修改和重启操作。