全部产品
Search
文档中心

容器服务 Kubernetes 版 ACK:GPU拓扑感知调度概述

更新时间:Apr 09, 2025

本文简要描述了GPU拓扑分布情况,以及GPU拓扑感知调度的优势。

GPU拓扑分布

图示为通过NVLink连接的8块Tesla V100 GPU的混合立体网络拓扑。由于每块GPU仅有6条NVLink通道,8块GPU无法实现全互联,任意两块GPU之间的NVLink连接最多为2条。

具体连接方式如下:GPU0与GPU3、GPU4各通过2条NVLink实现直连;GPU0与GPU1、GPU2之间通过1条NVLink连接。相比之下,GPU0与GPU6之间未建立NVLink连接,其通信需依赖PCIe总线完成。

image

GPU拓扑感知调度优势

NVLink连接的单向通信带宽为25 GB/s,双向通信带宽为50 GB/s,而PCIe连接的通信带宽为16 GB/s。在训练过程中,不同的GPU组合会导致训练速度的差异,因此选择最优的GPU组合能够实现最佳的训练性能。

Kubernetes对节点的GPU拓扑信息缺乏感知,这导致调度过程中的GPU选择较为随机,不同组合的训练速度差异显著。为了解决这一问题,ACK基于Scheduling Framework机制,实现了GPU拓扑感知调度,从而在节点的GPU组合中选取具有最佳训练速度的配置。