PAI Designer支持与DataWorks互通,您可以通过DataWorks实现离线工作流的离线调度,周期性地更新模型,帮助您构建模型训练的Pipeline。本文为您介绍如何使用DataWorks实现Designer工作流的离线调度,以及在调度任务中自动同步PAI模型至OSS。
前提条件
工作流中所有节点已运行成功。
已开通DataWorks服务并创建业务流程,具体操作,详情请参见创建业务流程。
业务流程需要与Designer工作流属于相同的工作空间。否则,在创建离线调度任务时,路径将无法选择已创建的业务流程。
如果您的DataWorks工作空间是标准模式,由于开发和生产环境的MaxCompute数据相互隔离,在周期性调度任务前,需要先将离线训练得到的模型同步至生产环境,详情请参见离线预测工作流部署周期性调度。
操作步骤
PAI-Designer工作流与DataWorks数据开发中的Designer节点个数的比例为1∶N,您可以基于同一个PAI-Designer工作流,在DataWorks数据开发中创建多个Designer类型的节点。
前往可视化建模,选择工作空间后进入Designer页面,双击并进入目标工作流。
(可选)如果在周期性调度时需要同步Designer模型至OSS,可添加模型导出组件。
在工作流属性页签,配置工作流数据存储参数为保存模型的OSS路径。
如果您需要导出PMML格式的模型文件,单击目标模型组件(例如逻辑回归二分类),在右侧的字段设置页签选中是否生成PMML。
说明仅部分模型件支持导出PMML格式的模型文件,不支持的组件或不需要导出PMM格式时,可以跳过该步骤。
在模型组件的下游接入通用模型导出组件,配置详情请参见通用模型导出。
使用DataWorks实现Designer工作流的离线调度。
单击画布左上方的周期性调度,单击新建调度节点,跳转到DataWorks进行离线调度,在新建节点对话框配置节点名称,单击确认。
在节点的编辑页面,从选择PAI Designer实验下拉列表中选择已创建的PAI Designer工作流。
如果您需要修改PAI Designer工作流,请单击去PAI Designer编辑,进入工作流编辑页面进行编辑。
单击节点编辑区域右侧的调度配置,配置节点的调度属性,详情请参见配置节点调度属性。
在调度配置面板中,包含基础属性、参数、时间属性、资源属性和调度依赖等配置项。您可以在时间属性区域配置调度周期,后续DataWorks会根据配置的调度周期自动调度运行节点任务。
说明DataWorks调度时可能会报“Start Container timeout”相关的错误,这通常是偶发的超时问题,建议您在配置时间属性时开启失败自动重跑。开启后,当任务运行失败(不包括用户主动终止任务运行)时,调度系统会根据重跑次数和重跑间隔自动触发重跑。
依次单击工具栏中的和图标,根据界面提示,保存并提交节点。
如果您使用的是标准模式的工作空间,在提交成功后,请单击页面上方的任务发布,具体操作请参见发布任务。
单击页面上方的运维中心,查看机器学习任务的运行情况和操作日志。
您也可以直接进行补数据、工作流试跑等操作,详情请参见查看并管理周期任务。
相关文档
Designer支持使用更新EAS服务(Beta)组件来(定时)更新模型在线服务,详情请参见在线模型服务定时更新。