概述
在進行模型訓練與調優時,通常需要發起多次訓練任務,對比不同參數與配置組合,以實驗化方式持續迭代模型效果和效能,從而加速演算法最佳化與業務落地。此過程中,即使代碼與資料保持一致,環境變數、鏡像版本、啟動命令、資源規格(GPU 型號與數量、節點數、網路設定等)等配置差異,仍可能導致收斂速度和模型效果出現明顯偏差。因此,既需要嚴格控制實驗變數,保障不同訓練任務的可比性,又需要在結果或效能異常時,快速定位配置差異來源,提高問題分析與實驗複現效率。
為此,平台提供以下兩項任務實驗能力:
工作範本:支援將成熟配置沉澱為模板,預設預設值,並對鏡像、資源、掛載路徑等關鍵配置進行鎖定(唯讀),僅開放超參數、啟動命令等必要可調項,從而規範任務建立過程、降低配置錯誤、統一基礎環境。
任務對比:支援在控制台選擇兩個任務,從配置(鏡像、環境變數、啟動命令、資源配置等)和運行情況(節點列表、狀態、類型等)維度自動比對,突出差異項,輔助定位效果差異與效能異常的根因。
兩者結合,可實現“規範建立+精準對比”,提升訓練調優與結果複現效率。
應用情境
沉澱與複用標準流程:將最佳實務固化為工作範本,供團隊快速複用,統一管理。
超參數調優與變數控制:基於模板建立任務,確保基礎環境一致,專註於調整超參數,並通過任務對比快速驗證變數。
快速排查效能與效果異常:將異常任務與成功的基準任務進行對比,迅速識別配置、資源或節點狀態等差異。
規範團隊協作流程:由平台管理員維護底層模板,演算法工程師在限定範圍內高效實驗,降低溝通和維護成本。
協助新成員快速上手:新成員可直接使用模板建立任務,並通過與基準任務對比來檢查配置,從而加速融入專案。
工作範本
目前工作範本功能在新加坡地區已開放,其他地區陸續開放中。
建立模板
通過將通用配置沉澱為模板,可以實現標準化建立,避免重複設定和手動失誤。
進入範本管理員。在分布式訓練 DLC 頁面,點擊頂部模板按鈕,進入範本管理員頁。

配置任務預填項。單擊新建模板進入預填項頁面,為任務設定預設取值。此頁面與建立任務的表單完全一致。您可以在此填入最常用的配置作為模板的預設值。您也可以基於任務建立,如選擇某個成功啟動並執行任務,使用此任務的配置作為預填值,快速建立。

配置任務唯讀規則。針對第一步預填的預設值,可設定為唯讀,即代表基於該模板建立的任務該項配置禁止修改,從而規範團隊成員建立任務的預設配置、避免人為修改錯誤。
說明對於類似於環境變數的有父子層級的配置項:
父目錄唯讀,則子目錄也會設定為唯讀,同時在使用模板建立任務時,不可設定新增加的環境變數。
唯讀規則:

建立任務時無法設定新加的環境變數。

設定子目錄唯讀,則在使用模板建立任務時,可增加並設定新的環境變數,如下圖所示:
唯讀規則:

建立任務時可再添加並設定環境變數。

建議將描述配置為必填項,以強制在建立任務時必須描述清楚參數調整相關資訊,後續可快速區分出不同任務。您也可以在模板描述中定義任務描述的範式,如實驗方向+調整參數的組合,當團隊成員基於該模板建立任務時,可根據範式的引導規範任務描述填寫。

工作範本預覽,可看到設定唯讀環境變數禁止修改。

基於模板建立任務
模板建立完畢後,進入到模板列表,基於模板新建任务。

在任務建立頁面,模板中預設的配置項會自動填滿,而被鎖定的配置(如下圖中的環境變數)將顯示為唯讀,無法修改。您只需關注需要調整的參數,然後建立任務。

單擊模板名稱進入詳情頁,可查看模板的使用记录,展示基於該模板建立的任務。

複製模板建立的任務:複製基於模板建立的任務,不會展示在模板的使用記錄中,當切換到模板tab頁時,也不會自動將任務歸檔到模板下。
複製與模板使用建議:如果您想快速發起任務、靈活修改配置,驗證配置正確性,可以使用複製功能,如果您希望按照同一方向歸檔任務,且受模板約束,建議基於模板建立任務。
編輯模板
已建立完成的模板支援再次编辑。

複製模板
已建立完成的模板支援克隆功能。

模板提示
在模型訓練過程中,常常需要針對不同參數配置或取值組合發起多次實驗。為便於統一管理和高效追蹤,建議將同一研究方向或同一類實驗任務建立為一個模板進行集中管理,並通過“模板—任務”關聯關係,快速查看和定位對應任務,提升實驗管理與檢索效率。

任務對比
當您需要分析兩個任務的效果或效能為何不同時,任務對比功能可以幫您快速找到根源。
選擇對比任務。在工作清單頁,勾選任意兩個需要對比的任務,然後單擊頁面下方对比按鈕。

分析配置與運行時差異。對比頁面會並排展示兩個任務的配置对比和实例对比。
配置对比:所有存在差異的配置項都會被高亮(紅/綠色)標記,讓您快速識別出不同之處,例如環境變數、啟動命令等。

实例对比:完整展示任務運行時的節點列表、執行個體狀態等資訊,便於排查因運行環境變化導致的問題。

實用技巧:
快速切換對比對象:在對比頁面頂部,單擊任務名稱可以隨時更換要對比的任務,無需返回列表頁重新選擇。

查看原始參數:如需與 API 請求參數進行精確比對,可開啟左上方的展示原始数据開關。
