您可以在PAI工作空間的事件通知配置中建立訊息通知規則,以便追蹤和監控DLC任務的狀態。本文為您介紹如何使用訊息通知功能。
配置訊息通知
在工作空間詳情頁面,選擇工作空间配置 > 事件通知配置,然後單擊新建事件规则。

在新建事件规则配置面板,配置以下參數,然後單擊提交。

參數
描述
规则名称
根據介面提示資訊,自訂規則名稱。
事件类型
事件來源選擇DLC任務,可選擇多個事件。支援發送訊息通知的事件類型如下:
任务进程
进入排队:任務進入排隊中狀態。
开始竞价:任務進入競價中狀態。
开始环境准备:任務進入環境準備中狀態。
开始运行:任務進入運行中狀態。
任务成功保留:任務進入成功保留狀態。
任务失败保留:任務進入失敗保留狀態。
任务失败:任務執行失敗。
任务结束(包含成功和失败):任務執行成功或失敗。
任务自动容错:當DLC任務發生異常或錯誤並進行自動容錯處理時,發送訊息通知。
任务超时:若選擇此項,請先在對應工作空間的調度配置頁面,設定逾時規則,具體參考配置逾時警示規則。
排队超时:任務排隊時間長度>設定的最大排隊時間長度。
环境准备超时:任務環境準備時間長度>設定的最大準備時間長度。
等待超时:任務建立至運行前的等待時間長度>設定的最大等待時間長度。
运行超时:任務運行時間長度>設定的最大運行時間長度,觸發自動停止。
其他事件
任务被抢占:當閑時任務或競價任務被搶佔時,會發送訊息通知。
任务被手动停止
任务优先级被调整
事件范围
支援以下取值:
我创建的:僅您自己建立的DLC任務。
当前工作空间所有的:當前工作空間下的所有的DLC任務。
指定任务:支援選擇指定任務,可通過直接選擇或按名稱搜尋的方式快速定位任務。
事件目标
支援通過DingTalk通知、企業微信通知、飛書通知、語音電話、簡訊及郵件等方式進行訊息提醒。
通知規則建立成功後,當任務觸發對應規則時,系統會自動向預設的連絡人發送訊息通知。收到通知後,建議您前往分布式訓練(DLC)頁面,觀察任務是否符合預期,也可以通過任務監控狀態、日誌資訊排查具體原因,詳情請參見查看訓練詳情。
配置逾時警示規則
為指定事件類型配置逾時規則,具體操作步驟如下:
在工作空间配置頁面,切換到调度配置頁簽,在DLC地區配置任務最大等待時間長度、最大運行時間長度的逾時規則。

策略
描述
资源配额
支援為使用指定資源的任務配置最大等待時間長度,取值如下:
公共资源组
资源配额:選擇該工作空間已綁定的資源配額。
超时规则配置
為指定事件類型設定逾時時間。支援配置的事件類型如下:
任务等待时长(排隊時間長度+環境準備時間長度)
排队时长
环境准备时长
您也可以單擊添加按鈕,配置多條逾時規則。
參數設定完成後,單擊保存。
請前往事件通知配置選擇DLC任务類型,配置對應的逾時事件通知。若未配置,則不會收到通知。具體操作,請參見配置訊息通知。