Penjadwalan GPU yang Sadar Topologi - Container Service for Kubernetes

Tema ini menjelaskan topologi GPU dan manfaat penjadwalan GPU yang sadar topologi.

Topologi GPU

Gambar berikut menunjukkan topologi hybrid cube mesh dari delapan GPU Tesla V100 yang saling berkomunikasi melalui NVLink. Setiap GPU Tesla V100 memiliki enam NVLink, tetapi delapan GPU Tesla V100 tidak dapat sepenuhnya saling terhubung. Maksimal dua koneksi NVLink dapat dibentuk antara dua GPU Tesla V100.

Dalam contoh ini, GPU0 terhubung ke GPU3 dan GPU4 melalui dua NVLink. GPU0 juga terhubung ke GPU1 dan GPU2 melalui satu NVLink. Namun, tidak ada koneksi NVLink antara GPU0 dan GPU6, sehingga komunikasi mereka bergantung pada Peripheral Component Interconnect Express (PCIe).

Manfaat Penjadwalan GPU yang Sadar Topologi

Bandwidth satu arah dan dua arah setiap NVLink adalah 25 GB/s dan 50 GB/s, sedangkan bandwidth tautan PCIe adalah 16 GB/s. Selama pelatihan, kombinasi GPU yang berbeda dapat menyebabkan variasi dalam kecepatan pelatihan. Oleh karena itu, Anda dapat menggabungkan model GPU yang berbeda untuk mencapai performa pelatihan terbaik.

Kubernetes tidak memahami topologi sumber daya GPU pada node, sehingga penjadwalan sumber daya GPU dilakukan secara acak. Hal ini menyebabkan variasi kecepatan pelatihan di antara kombinasi yang berbeda. Untuk mengatasi masalah ini, Container Service for Kubernetes (ACK) mendukung penjadwalan GPU yang sadar topologi berdasarkan kerangka penjadwalan. Dengan dukungan ini, ACK dapat memilih konfigurasi dengan kecepatan pelatihan terbaik dari kombinasi GPU pada node.