全部產品
Search
文件中心

Container Service for Kubernetes:GPU拓撲感知調度概述

更新時間:Apr 10, 2025

本文簡要描述了GPU拓撲分布情況,以及GPU拓撲感知調度的優勢。

GPU拓撲分布

圖示為通過NVLink串連的8塊Tesla V100 GPU的混合立體網路拓撲。由於每塊GPU僅有6條NVLink通道,8塊GPU無法實現全互聯,任意兩塊GPU之間的NVLink串連最多為2條。

具體串連方式如下:GPU0與GPU3、GPU4各通過2條NVLink實現直連;GPU0與GPU1、GPU2之間通過1條NVLink串連。相比之下,GPU0與GPU6之間未建立NVLink串連,其通訊需依賴PCIe匯流排完成。

GPU拓撲感知調度優勢

NVLink串連的單向通訊頻寬為25 GB/s,雙向通訊頻寬為50 GB/s,而PCIe串連的通訊頻寬為16 GB/s。在訓練過程中,不同的GPU組合會導致訓練速度的差異,因此選擇最優的GPU組合能夠實現最佳的訓練效能。

Kubernetes對節點的GPU拓撲資訊缺乏感知,這導致調度過程中的GPU選擇較為隨機,不同組合的訓練速度差異顯著。為瞭解決這一問題,ACK基於Scheduling Framework機制,實現了GPU拓撲感知調度,從而在節點的GPU組合中選取具有最佳訓練速度的配置。