分布式訓練DLC(Deep Learning Containers)可以協助您快捷地建立單機或分布式訓練任務,其底層使用Kubernetes拉起計算節點。這避免了您手動購買機器並配置運行環境,同時無需改變使用習慣。適用於需要快速啟動訓練任務的使用者,支援多種深度學習架構,並提供靈活的資源配置選項。
產品優勢
支援多樣算力資源:
基於靈駿智算和通用計算資源,支援雲上ECS、ECI、神龍裸金屬和靈駿裸金屬等多種算力形態,實現異構算力的混合調度。
多樣的分布式任務類型:
無需搭建各種叢集,可以直接提交Megatron、Deepspeed、Pytorch、Tensorflow、Slurm、Ray、MPI及XGBoost等十多種訓練架構的任務。DLC預置了多種官方鏡像,支援自訂開發運行環境, 支援控制台、SDK或命令列的提交方式, 為AI訓練情境提供一站式服務。
高穩定:
在大模型訓練情境中,通過自研的容錯引擎AIMaster、高效能Checkpoint架構EasyCKPT、健康檢測SanityCheck以及節點自愈功能,使DLC具備快速探查、準確感應與快速反饋的能力。能夠有效解決多種穩定性問題,降低算力損失,提升訓練穩定性。
高效能:
通過自研的AI訓練加速架構,實現統一資料並行、流水並行、運算元拆分以及嵌套的並行加速策略。通過並行策略自動探索和多維度顯存最佳化技術,並結合高速網路的拓撲感知調度,以及通訊線程池、梯度分組融合、混合精度通訊、梯度壓縮的分布式通訊庫的最佳化,提升分布式訓練效率。尤其在大模型分預訓練、持續訓練和Alignment的分布式訓練情境下,為您提供較優的訓練引擎。
資源形態
通過分布式訓練(DLC)提交訓練任務時,根據使用情境和所需的算力類型,PAI提供了以下兩種資源形態:
靈駿智算:專為大模型訓練設計,適用於需要大量計算資源的深度學習任務。是面向超大規模深度學習和融合智算,基於軟硬體一體最佳化技術。構建高效能異構算力底座,提供全流程AI工程化能力,具備高效能、高效率、高利用率等核心優勢,以滿足在大模型訓練、自動駕駛、基礎科研以及金融等領域的廣泛需求。
通用計算:適用於常規訓練需求,能夠靈活地支援多種規模和類型的機器學習任務。
靈駿智算和通用計算資源支援以下幾種使用方式:
資源配額:您可以通過訂用帳戶的方式提前購買靈駿智算或通用計算資源,用於AI開發和訓練,從而實現資源的靈活管理和高效利用。
公用資源:無需提前購買資源,您可以在提交訓練任務時,按需使用靈駿智算或通用計算資源,並通過隨用隨付的方式進行結算。
競價資源:靈駿智算提供競價資源,助力您以較低成本擷取所需的AI算力,從而降低任務運行所需的資源成本。
應用情境
資料預先處理
支援您自訂運行環境,可以對資料進行離線並行預先處理,從而大幅降低資料預先處理工程的難度。
大規模分布式訓練
支援使用多種開源深度學習架構進行離線大規模分布式深度訓練。DLC支援上千個節點同時訓練,顯著縮短訓練時間。
離線推理
通過DLC可以離線對模型進行離線推理,有效增加閑時GPU機器使用率,大大降低資源浪費。