Konfigurasikan auto scaling node untuk kluster E-HPC - Elastic High Performance Computing

Anda dapat mengonfigurasi penyesuaian otomatis untuk kluster Elastic High Performance Computing (E-HPC) guna secara dinamis mengalokasikan node komputasi tanpa intervensi manual. Sistem akan menambah atau menghapus node komputasi berdasarkan beban kerja real-time untuk meningkatkan ketersediaan kluster serta menghemat biaya. Topik ini menjelaskan cara mengonfigurasi penyesuaian otomatis.

Manfaat

Menambah node komputasi berdasarkan beban kerja real-time kluster untuk meningkatkan ketersediaan kluster.
Mengurangi jumlah node komputasi untuk menghemat biaya tanpa mengorbankan ketersediaan kluster.
Menghentikan node bermasalah dan membuat node baru untuk meningkatkan toleransi kesalahan.

Batasan

Penyesuaian otomatis hanya didukung untuk kluster di mana sistem operasi semua node adalah Linux.
Semua kluster kecuali kluster kustom mendukung konfigurasi penyesuaian otomatis.
Penyesuaian otomatis berbasis memori hanya didukung untuk kluster dengan penjadwal Slurm.

Penting

Disarankan untuk menentukan vCPU yang diperlukan saat mengirimkan pekerjaan agar penyesuaian otomatis berfungsi optimal. Selain itu, ukuran memori yang ditentukan oleh pekerjaan tidak boleh melebihi spesifikasi memori dari sumber daya ECS.

Catatan Penggunaan

Sebelum menggunakan layanan penyesuaian otomatis, pastikan bahwa layanan penjadwal dan layanan akun domain berfungsi dengan baik. Setelah mengaktifkan penyesuaian otomatis, node manajemen harus dalam keadaan berjalan.

Penting

Jika Anda perlu mematikan atau me-restart node manajemen, lakukan setelah node idle dilepaskan dan tidak ada pekerjaan yang berjalan pada node komputasi. Disarankan untuk menonaktifkan penyesuaian otomatis sebelum mematikan atau me-restart node manajemen, kemudian mengaktifkannya kembali setelah node manajemen di-restart.

Prosedur

Buka halaman Cluster List.
1. Masuk ke Konsol E-HPC.
2. Di bagian kiri bilah navigasi atas, pilih wilayah.
3. Di panel navigasi kiri, klik Cluster.
Di halaman Cluster List, temukan kluster yang ingin Anda kelola dan klik Auto Scale.

Di kotak dialog Cluster Auto Scaling, konfigurasikan parameter di bagian Cluster Global Configuration.

Parameter	Deskripsi
Auto Grow/Auto Shrink	Aktifkan Auto Grow dan Auto Shrink untuk semua antrian di kluster. Catatan Jika konfigurasi antrian berbeda dari konfigurasi global kluster, konfigurasi antrian akan lebih diprioritaskan.
Scale-out Waiting Time	Estimasi waktu yang dibutuhkan sistem untuk memulai operasi penambahan dari waktu ketika pekerjaan dikirimkan. Nilai defaultnya adalah 2 menit.
Scale-in Waiting Time	Ambang waktu selama node tetap idle tanpa menerima permintaan pekerjaan. Setelah waktu terlampaui, sistem secara otomatis melepaskan sumber daya node. Waktu tunggu default untuk pengurangan adalah 4 menit.
Maximum number of cluster nodes	Jumlah maksimum node yang dapat dibuat di kluster.
Maximum number of cores in the cluster	Jumlah maksimum core yang dapat dibuat di kluster.

Konfigurasikan penyesuaian otomatis di antrian.

Klik kluster target, lalu klik Nodes and Queues > Queue di panel navigasi kiri. Temukan antrian yang ingin Anda kelola, dan klik Edit di kolom Actions antrian. Di halaman Edit Queue, konfigurasikan parameter berikut.

Basic Settings

Parameter

Deskripsi

Automatic queue scaling

Automatic queue scaling dimatikan secara default. Setelah Anda menghidupkan sakelar, Anda dapat memilih Auto Grow dan Auto Shrink berdasarkan kebutuhan bisnis Anda.

Catatan

Jika konfigurasi antrian berbeda dari konfigurasi global kluster, konfigurasi antrian akan lebih diprioritaskan.

Queue Compute Nodes

Rentang jumlah node komputasi di antrian.

Minimum Nodes: Jumlah minimum node komputasi berkisar antara 0 hingga 1.000. Nilai ini mungkin mempengaruhi efek pengurangan.
Maximum Nodes: Jumlah maksimum node komputasi berkisar antara 0 hingga 5.000. Nilai ini mungkin mempengaruhi efek penambahan.

Penting

Jika Anda mengatur parameter Node Minimal ke nilai bukan nol, antrian akan mempertahankan jumlah node berdasarkan nilai yang Anda tentukan selama pengurangan kluster. Node idle tidak dilepaskan. Kami merekomendasikan Anda menentukan parameter Node Minimal dengan hati-hati untuk mencegah pemborosan sumber daya dan biaya tidak perlu karena node idle di antrian.
maximum number of nodes in the queue tidak boleh melebihi maximum number of nodes in the cluster.

Pilih Konfigurasi Node Antrian

Jika Anda mengaktifkan Penyesuaian otomatis antrian atau mengatur Jumlah Awal Node ke nilai lebih besar dari 0, Anda harus mengonfigurasi parameter berikut agar sistem dapat membuat node komputasi untuk antrian:

Parameter	Deskripsi
Inter-node interconnection	Pilih mode untuk menghubungkan node. Nilai valid: VPCNetwork: Node komputasi berkomunikasi satu sama lain melalui virtual private cloud (VPC). eRDMANetwork: Jika tipe instance node komputasi mendukung antarmuka eRDMA (ERI), node komputasi berkomunikasi satu sama lain melalui jaringan eRDMA. Catatan Hanya node komputasi dari tipe instance tertentu yang mendukung ERI. Untuk informasi lebih lanjut, lihat Ikhtisar dan Konfigurasikan eRDMA pada instance tingkat perusahaan.
Use Preset Node Pool	Pilih pool node cadangan yang telah dibuat. Sistem secara otomatis memilih alamat IP dan nama host dari node cadangan yang belum ditugaskan di pool untuk membuat node komputasi. Catatan Anda dapat dengan cepat menggunakan kembali sumber daya yang telah dialokasikan sebelumnya saat melakukan penambahan menggunakan pool node cadangan. Untuk informasi lebih lanjut, lihat Gunakan pool node cadangan di kluster.
Virtual Switch	Tentukan vSwitch untuk digunakan oleh node. Sistem secara otomatis menetapkan alamat IP ke node komputasi dari blok CIDR vSwitch yang tersedia.
Instance type Group	Klik Add Instance dan pilih tipe instance di panel yang muncul. Jika Anda tidak mengaktifkan Penyesuaian otomatis antrian, Anda hanya dapat menambahkan satu tipe instance. Jika Anda mengaktifkan Penyesuaian otomatis antrian, Anda dapat menambahkan beberapa tipe instance.

Penting

Anda dapat memilih beberapa vSwitch dan tipe instance sebagai alternatif jika pembuatan instance gagal karena masalah inventaris. Saat membuat node komputasi, sistem mencoba membuat node sesuai urutan tipe instance dan zona yang ditentukan. Misalnya, sistem pertama kali mencoba membuat node berdasarkan tipe instance yang Anda tentukan secara berurutan di zona tempat vSwitch pertama berada. Spesifikasi instance yang dibuat mungkin bervariasi berdasarkan inventaris.

Penyesuaian Otomatis

Parameter	Deskripsi
Scaling Policy	Pilih kebijakan penyesuaian. Saat ini, hanya Supply Priority Strategy yang didukung. Kebijakan ini menunjukkan bahwa node komputasi yang memenuhi persyaratan spesifikasi dibuat di zona yang ditentukan sesuai urutan vSwitch yang dikonfigurasi.
Maximum number of single expansion nodes	Tentukan jumlah node yang akan ditambahkan atau dihapus dalam setiap siklus penambahan atau pengurangan. Nilai default 0 menentukan bahwa jumlahnya tidak terbatas. Kami merekomendasikan Anda mengonfigurasi parameter ini untuk mengontrol biaya Anda pada node komputasi.
Prefix of Hostnames	Tentukan awalan nama host untuk node komputasi. Awalan digunakan untuk membedakan antara node dari antrian yang berbeda.
Hostname Suffix	Tentukan akhiran nama host untuk node komputasi. Akhiran digunakan untuk membedakan antara node dari antrian yang berbeda.
Instance RAM role	Ikat Peran Manajemen Akses Sumber Daya (RAM) ke node untuk memungkinkan node mengakses layanan Alibaba Cloud. Kami merekomendasikan Anda memilih peran default AliyunECSInstanceForEHPCRole.

Konfirmasikan konfigurasi, lalu klik Save.

Kebijakan Penyesuaian

Jika beberapa tipe instance dikonfigurasi di antrian, kluster diperbesar berdasarkan tipe instance yang tersedia, jumlah tugas, dan jumlah GPU secara berurutan. Sebagai contoh, setiap node di antrian harus memiliki setidaknya 16 core untuk memenuhi persyaratan bisnis Anda. Antrian memiliki node dengan 8 core, 16 core, dan 32 core. Instance ECS dengan 16 core secara otomatis ditambahkan ke antrian. Jika tidak ada instance ECS dengan 16 core yang tersedia, instance dengan 32 core secara otomatis ditambahkan ke antrian.

Referensi

Setelah mengonfigurasi penyesuaian otomatis, disarankan untuk memeriksa status kesehatan dan penggunaan sumber daya kluster yang dipantau untuk mengevaluasi apakah konfigurasi penyesuaian otomatis sudah sesuai. Untuk informasi lebih lanjut, lihat Lihat Informasi Pemantauan.

FAQ

Instance telah dilepaskan, tapi kenapa saya tidak bisa menghapus node di konsol?

Deskripsi Masalah: Anda ingin menggunakan instance spot untuk penyesuaian otomatis. Jika instance ditarik kembali saat kedaluwarsa sementara masih memiliki tugas komputasi yang belum selesai, penjadwal mungkin gagal menghapus instance, sehingga menyebabkan kegagalan penghapusan node.

Solusi: Dalam skenario penyesuaian otomatis, node akan dibersihkan setelah tetap ada selama periode waktu tertentu. Setelah status penjadwal diperbarui, node akan keluar dari status BusyNodes dan dapat dihapus secara normal.