Instal komponen ack-ai-installer di kluster ACK Anda untuk mengaktifkan penjadwalan GPU yang memperhatikan topologi. Fitur ini memilih kombinasi GPU pada suatu node yang memberikan kecepatan pelatihan optimal berdasarkan topologi fisik perangkat GPU.
Sebelum memulai
Sebelum memulai, pastikan Anda telah memiliki:
Kluster ACK yang dikelola dengan tipe instans diatur ke Elastic GPU Service.
File kubeconfig untuk kluster dan klien kubectl yang terhubung ke kluster.
Node kluster yang memenuhi persyaratan versi dan sistem operasi berikut.
Persyaratan versi
| Component | Required version |
|---|---|
| Kubernetes | 1.18.8 atau yang lebih baru |
| NVIDIA driver | 418.87.01 atau yang lebih baru |
| NVIDIA Collective Communications Library (NCCL) | 2.7 atau yang lebih baru |
| GPU | V100 |
Sistem operasi yang didukung
CentOS 7.6, CentOS 7.7
Ubuntu 16.04, Ubuntu 18.04
Alibaba Cloud Linux 2, Alibaba Cloud Linux 3
Instal komponen dari Cloud-native AI Suite
Masuk ke ACK console. Di panel navigasi sebelah kiri, klik Clusters.
Pada halaman Clusters, temukan kluster Anda dan klik namanya.
Di panel navigasi sebelah kiri, pilih Applications > Cloud-native AI Suite.
Pada halaman Cloud-native AI Suite, klik Deploy.
Pada bagian Scheduling, pilih Scheduling Policy Extension (Batch Task Scheduling, GPU Sharing, Topology-aware GPU Scheduling), lalu klik Deploy Cloud-native AI Suite. Untuk informasi selengkapnya mengenai parameter, lihat Install the cloud-native AI suite.
Verifikasi bahwa
ack-ai-installermuncul dalam daftar Components pada halaman Cloud-native AI Suite.
Note: Jika Anda telah menginstal komponen dari Cloud-native AI Suite, temukan ack-ai-installer dalam daftar Components dan klik Deploy di kolom Actions.Langkah selanjutnya
Setelah menginstal komponen tersebut, konfigurasikan kebijakan penjadwalan GPU yang memperhatikan topologi untuk beban kerja Anda. Untuk informasi selengkapnya, lihat GPU topology-aware scheduling.