dlc的概念、優勢、使用情境及使用流程 - Platform For AI

手動設定深度學習訓練叢集耗時間長度、易出錯。分布式訓練DLC（Deep Learning Containers）基於Kubernetes提供開箱即用的訓練環境，無需配置即可快速啟動訓練任務。支援多種深度學習架構和靈駿智算、GPU等算力資源。

產品優勢

支援多樣算力資源：

基於靈駿智算和通用計算資源，支援雲上ECS、ECI、神龍裸金屬和靈駿裸金屬等多種算力形態，實現異構算力的混合調度。
多樣的分布式任務類型：

無需搭建叢集，直接提交Megatron、Deepspeed、Pytorch、Tensorflow、Slurm、Ray、MPI及XGBoost等十多種訓練架構的任務。DLC預置多種官方鏡像，也支援自訂運行環境，可通過控制台、SDK或命令列提交任務。
高穩定：

在大模型訓練情境中，DLC通過自研的容錯引擎AIMaster、高效能Checkpoint架構EasyCKPT、健康檢測SanityCheck和節點自愈功能，自動檢測和恢複故障，降低算力損失，提升訓練穩定性。
高效能：

自研AI訓練加速架構支援資料並行、流水並行、運算元拆分等多種並行策略，並提供並行策略自動探索和顯存最佳化能力。結合拓撲感知調度、梯度分組融合、混合精度通訊等通訊最佳化手段，提升分布式訓練效率。適用於大模型預訓練、持續訓練和Alignment等情境。

資源形態

PAI提供以下兩種資源形態，您可根據算力需求選擇：

靈駿智算：專為大模型訓練設計的高效能算力資源，支援超大規模深度學習任務。適用於大模型訓練、自動駕駛、基礎科研等需要大量計算資源的情境。
通用計算：適用於常規訓練需求，能夠靈活地支援多種規模和類型的機器學習任務。

靈駿智算和通用計算資源支援以下幾種使用方式：

資源配額：通過訂用帳戶提前購買靈駿智算或通用計算資源，適合長期穩定的訓練需求。
公用資源：無需提前購買資源，提交任務時按需使用靈駿智算或通用計算資源，隨用隨付結算。
競價資源：靈駿智算提供競價資源，協助您以較低成本擷取AI算力。

應用情境

資料預先處理

支援自訂運行環境，對資料進行離線並行預先處理，降低資料預先處理難度。
大規模分布式訓練

支援多種開源深度學習架構，可使用上千個節點同時訓練，顯著縮短訓練時間。
離線推理

支援使用DLC進行離線推理，提升閑時GPU資源使用率。

使用流程

您可通過DLC發起大規模分布式訓練任務，使用流程如下：

準備工作

在提交訓練任務前，您需要準備計算資源、鏡像、資料集和代碼集。詳細操作步驟請參見準備工作。
建立訓練任務

支援通過控制台、SDK或命令列提交訓練任務。參數配置說明請參見建立訓練任務。

提交DLC任務時，支援以下高階功能配置：
- 自動容錯：開啟後系統會拉起AIMaster執行個體，對任務進行監控和容錯判斷，在出現故障時自動回復，提升訓練穩定性。
- 健康檢測：訓練前全面檢測資源健康情況，自動隔離故障節點，減少任務啟動失敗的可能性。
- EasyCkpt：為PyTorch大模型訓練提供全過程無損的模型儲存和恢複能力，支援斷點續訓。
- RDMA配置：使用靈駿智算資源時，可配置高效能RDMA網路進行分布式訓練，加速節點間通訊。
- 儲存配置：通過代碼配置或掛載方式使用OSS、NAS、CPFS或MaxCompute儲存，方便讀寫訓練資料。
- SLS日誌轉寄：將DLC任務日誌轉寄至指定的SLS日誌庫，方便自訂分析和監控。
- 競價資源：使用靈駿智算競價資源建立DLC任務，以較低成本擷取AI算力。
- 提升公網訪問速率：DLC預設使用頻寬受限的共用網關訪問公網，您可以建立專有網關提升網路上傳和下載速度。
- PerfTracker：任務效能出現問題時，可使用PerfTracker產生分析報告，自動診斷效能損失原因。
- ACCL：ACCL是基於NCCL開發的集合通訊庫，提供更高的通訊效能，並具備故障診斷和自愈能力。
查看和管理訓練任務

任務提交後，您可通過查看訓練任務詳情瞭解運行情況。您還可以停止、複製、分享、產生指令碼和刪除任務，詳情請參見管理訓練任務。
監控訓練任務

提交訓練任務後，您可以通過以下操作監控訓練任務：
- 提交了綁定資料集的訓練任務後，您可以使用查看訓練任務分析報告。
- 使用CloudMonitor或ARMS查看DLC任務的資源狀況或配置警示規則。詳情請參見使用CloudMonitor或ARMS監控訓練任務。
- 在PAI工作空間的事件中心建立訊息通知規則，即時跟蹤DLC任務狀態變化。詳情請參見配置訊息通知。
配置訓練任務周期性調度

當資料或超參數更新，需要持續增量訓練和模型調優時，您可以通過配置離線調度定期提交DLC任務。

更多DLC相關的使用案例，請參見DLC實踐教程。

Platform For AI：DLC概述

產品優勢

資源形態

應用情境

使用流程

相關文檔