Sebelum mengaktifkan penjadwalan GPU yang sadar topologi, Anda harus menginstal dan mengonfigurasi komponen tersebut. Topik ini menjelaskan cara menginstal komponen penjadwalan GPU yang sadar topologi dan mengaktifkannya untuk kluster Anda.
Prasyarat
Kluster ACK dikelola dibuat di konsol Container Service for Kubernetes (ACK) dengan tipe instans diatur ke Elastic GPU Service.
File kubeconfig kluster diperoleh dan klien kubectl terhubung ke kluster.
Versi komponen sistem memenuhi persyaratan berikut:
Komponen
Versi
Kubernetes
1.18.8 dan yang lebih baru
Nvidia
418.87.01 dan yang lebih baru
NVIDIA Collective Communications Library (NCCL)
2.7+
Sistem operasi
CentOS 7.6
CentOS 7.7
Ubuntu 16.04
Ubuntu 18.04
Alibaba Cloud Linux 2
Alibaba Cloud Linux 3
GPU
V100
Prosedur
Masuk ke konsol ACK. Di panel navigasi sebelah kiri, klik Clusters.
Di halaman Clusters, temukan kluster yang diinginkan dan klik namanya. Di panel navigasi sebelah kiri, pilih .
Di halaman Cloud-native AI Suite, klik Deploy.
Di bagian Scheduling dari halaman yang muncul, pilih Scheduling Policy Extension (Batch Task Scheduling, GPU Sharing, Topology-aware GPU Scheduling) dan klik Deploy Cloud-native AI Suite di bagian bawah. Untuk informasi lebih lanjut tentang parameter, lihat Instal suite AI berbasis cloud-native.
Setelah penyebaran, Anda dapat menemukan komponen penjadwalan GPU yang sadar topologi yang telah diinstal
ack-ai-installerdalam daftar Components.CatatanJika Anda telah menginstal komponen suite AI berbasis cloud-native, temukan ack-ai-installer dalam daftar komponen dan klik Deploy di kolom Actions untuk menginstal komponen tersebut.