AI 訓練通常需要重複讀取海量資料,這會產生巨大的網路開銷,影響訓練效率。在靈駿智算情境下,PAI提供了本機快取加速功能,通過將資料緩衝至本地計算節點,減少網路開銷,提高訓練吞吐,大幅提升資料讀取效能,為您的 AI 訓練任務提速。
技術優勢
快取:利用計算節點的記憶體與本地碟構建單機和分布式讀緩衝,加速資料集與 Checkpoint 訪問,顯著減少資料訪問延遲。
水平擴充:緩衝吞吐能力隨計算節點規模線性擴充,支援數百至數千個節點規模。
P2P 模型分發:通過 P2P支援大規模模型的高並發載入與分發,利用 GPU 節點間的高速網路實現熱點資料的並行讀取加速。
Serverless 簡單易用:一鍵開啟和關閉,無需修改代碼,對程式無侵入,無需關注營運。
限制與說明
儲存支援:支援 OSS 、智算 CPFS。
適用資源:目前僅支援靈駿智算資源,注意開啟後會佔用算力節點一定資源(CPU 和 Mem)。
容量與策略:最大緩衝容量和靈駿智算規格相關,淘汰策略採用 LRU(最近最少使用)。
加速目標:核心目標是提升資料讀取效能,不支援寫。
資料高可用性:不保證資料高可用。本機快取資料可能存在丟失情況,重要訓練資料請及時備份。
工作機制:在多輪訓練時,第一輪需要從儲存執行個體(例如: OSS、 智算CPFS)讀取資料,效能與直讀儲存執行個體一致。但在後續多輪訓練中,將從本機快取中讀取資料,可以提升讀取速度。
使用方法
開啟資源配額(Quota)本機快取。在左側導覽列單擊資源配額(Quota)> 靈駿智算資源,找到並單擊目標Quota名稱進入管理頁面。開啟本機快取,並設定需要緩衝的儲存路徑。
如果是多級嵌套的資源配額,需保證第一級資源配額(Quota)已開啟本機快取。

使用目標資源配額的靈駿資源建立DLC任務,並開啟使用緩衝。當掛載的儲存地址命中步驟1中填寫的緩衝地址時,預設加速(使用者可選擇關閉)。
