dlc的概念、優勢、使用情境及使用流程 - Platform For AI

手動設定深度學習訓練叢集耗時間長度、易出錯。分布式訓練DLC（Deep Learning Containers）基於Kubernetes提供開箱即用的訓練環境，無需配置即可快速啟動訓練任務。支援多種深度學習架構和靈駿智算、GPU等算力資源。

產品優勢

支援多樣算力資源：
基於靈駿智算和通用計算資源，支援雲上ECS、ECI、神龍裸金屬和靈駿裸金屬等多種算力形態，實現異構算力的混合調度。
多樣的分布式任務類型：
無需搭建各種叢集，可以直接提交Megatron、Deepspeed、Pytorch、Tensorflow、Slurm、Ray、MPI及XGBoost等十多種訓練架構的任務。DLC預置了多種官方鏡像，支援自訂開發運行環境，支援控制台、SDK或命令列的提交方式，為AI訓練情境提供一站式服務。
高穩定：
在大模型訓練情境中，通過自研的容錯引擎AIMaster、高效能Checkpoint架構EasyCKPT、健康檢測SanityCheck以及節點自愈功能，使DLC具備快速探查、準確感應和及時反饋的能力。能夠有效解決多種穩定性問題，降低算力損失，提升訓練穩定性。
高效能：
通過自研的AI訓練加速架構，實現統一資料並行、流水並行、運算元拆分以及嵌套的並行加速策略。通過並行策略自動探索和多維度顯存最佳化技術，並結合高速網路的拓撲感知調度，以及通訊線程池、梯度分組融合、混合精度通訊、梯度壓縮的分布式通訊庫的最佳化，提升分布式訓練效率。尤其在大模型預訓練、持續訓練和Alignment的分布式訓練情境下，為大模型訓練提供最佳化的訓練引擎。

資源形態

通過分布式訓練（DLC）提交訓練任務時，根據使用情境和所需的算力類型，PAI提供了以下兩種資源形態：

靈駿智算：專為大模型訓練設計的高效能算力資源，支援超大規模深度學習任務。適用於大模型訓練、自動駕駛、基礎科研等需要大量計算資源的情境。
通用計算：適用於常規訓練需求，能夠靈活地支援多種規模和類型的機器學習任務。

靈駿智算和通用計算資源支援以下幾種使用方式：

資源配額：您可以通過訂用帳戶的方式提前購買靈駿智算或通用計算資源，用於AI開發和訓練，實現資源的靈活管理和高效利用。
公用資源：無需提前購買資源，您可以在提交訓練任務時，按需使用靈駿智算或通用計算資源，並通過隨用隨付的方式進行結算。
競價資源：靈駿智算提供競價資源，協助您以較低成本擷取AI算力。

應用情境

資料預先處理
支援您自訂運行環境，可以對資料進行離線並行預先處理，降低資料預先處理工程的難度。
大規模分布式訓練
支援使用多種開源深度學習架構進行離線大規模分布式深度訓練。DLC支援上千個節點同時訓練，顯著縮短訓練時間。
離線推理
支援使用DLC進行離線推理，提升閑時GPU資源使用率。

使用流程

在模型訓練階段，您可通過DLC發起大規模的分布式訓練任務。具體使用流程如下：

準備工作
在提交訓練任務前，您需要準備計算資源、鏡像、資料集和代碼集。詳細操作步驟請參見準備工作。
建立訓練任務
支援通過控制台、SDK或命令列提交訓練任務。更詳細的參數配置說明，請參見建立訓練任務。
提交DLC任務時，支援以下高階功能配置：
- 自動容錯：開啟後系統會拉起AIMaster執行個體，對任務進行監控和容錯判斷，在出現故障時自動回復，提升訓練穩定性。
- 健康檢測：訓練前全面檢測資源健康情況，自動隔離故障節點，減少任務啟動失敗的可能性。
- EasyCkpt：為PyTorch大模型訓練提供全過程無損的模型儲存和恢複能力，支援斷點續訓。
- RDMA配置：使用靈駿智算資源時，可配置高效能RDMA網路進行分布式訓練，加速節點間通訊。
- 儲存配置：通過代碼配置或掛載方式使用OSS、NAS、CPFS或MaxCompute儲存，方便讀寫訓練資料。
- SLS日誌轉寄：將DLC任務日誌轉寄至指定的SLS日誌庫，方便自訂分析和監控。
- 競價資源：使用靈駿智算競價資源建立DLC任務，以較低成本擷取AI算力。
查看和管理訓練任務
任務提交完成後，您可通過查看訓練任務詳情瞭解任務運行情況。且支援對已建立的任務進行停止、複製、分享、產生指令碼和刪除等管理操作，詳情請參見管理訓練任務。
監控訓練任務
提交訓練任務後，您可以通過以下操作監控訓練任務：
- 提交了綁定資料集的訓練任務後，您可以使用查看訓練任務分析報告。
- 使用CloudMonitor或ARMS查看DLC任務的資源狀況或配置警示規則。詳情請參見使用CloudMonitor或ARMS監控訓練任務。
- 通過在PAI工作空間的事件中心中建立訊息通知規則，以便跟蹤和監控DLC任務的狀態。詳情請參見配置訊息通知。
配置訓練任務周期性調度
當測試資料或超參數更新，並需要持續進行增量訓練和模型調優時，您可以通過配置離線調度定期提交DLC任務。

更多DLC相關的使用案例，請參見DLC實踐教程。

Platform For AI：DLC概述

產品優勢

資源形態

應用情境

使用流程

相關文檔