Anda dapat mengonfigurasi penyesuaian otomatis untuk kluster Elastic High Performance Computing (E-HPC) guna secara dinamis mengalokasikan node komputasi tanpa intervensi manual. Sistem akan menambah atau menghapus node komputasi berdasarkan beban kerja real-time untuk meningkatkan ketersediaan kluster serta menghemat biaya. Topik ini menjelaskan cara mengonfigurasi penyesuaian otomatis.
Manfaat
Menambah node komputasi berdasarkan beban kerja real-time kluster untuk meningkatkan ketersediaan kluster.
Mengurangi jumlah node komputasi untuk menghemat biaya tanpa mengorbankan ketersediaan kluster.
Menghentikan node bermasalah dan membuat node baru untuk meningkatkan toleransi kesalahan.
Batasan
Penyesuaian otomatis hanya didukung untuk kluster di mana sistem operasi semua node adalah Linux.
Semua kluster kecuali kluster kustom mendukung konfigurasi penyesuaian otomatis.
Penyesuaian otomatis berbasis memori hanya didukung untuk kluster dengan penjadwal Slurm.
Disarankan untuk menentukan vCPU yang diperlukan saat mengirimkan pekerjaan agar penyesuaian otomatis berfungsi optimal. Selain itu, ukuran memori yang ditentukan oleh pekerjaan tidak boleh melebihi spesifikasi memori dari sumber daya ECS.
Catatan Penggunaan
Sebelum menggunakan layanan penyesuaian otomatis, pastikan bahwa layanan penjadwal dan layanan akun domain berfungsi dengan baik. Setelah mengaktifkan penyesuaian otomatis, node manajemen harus dalam keadaan berjalan.
Jika Anda perlu mematikan atau me-restart node manajemen, lakukan setelah node idle dilepaskan dan tidak ada pekerjaan yang berjalan pada node komputasi. Disarankan untuk menonaktifkan penyesuaian otomatis sebelum mematikan atau me-restart node manajemen, kemudian mengaktifkannya kembali setelah node manajemen di-restart.
Prosedur
Buka halaman Cluster List.
Masuk ke Konsol E-HPC.
Di bagian kiri bilah navigasi atas, pilih wilayah.
Di panel navigasi kiri, klik Cluster.
Di halaman Cluster List, temukan kluster yang ingin Anda kelola dan klik Auto Scale.
Di kotak dialog Cluster Auto Scaling, konfigurasikan parameter di bagian Cluster Global Configuration.
Parameter
Deskripsi
Auto Grow/Auto Shrink
Aktifkan Auto Grow dan Auto Shrink untuk semua antrian di kluster.
CatatanJika konfigurasi antrian berbeda dari konfigurasi global kluster, konfigurasi antrian akan lebih diprioritaskan.
Scale-out Waiting Time
Estimasi waktu yang dibutuhkan sistem untuk memulai operasi penambahan dari waktu ketika pekerjaan dikirimkan. Nilai defaultnya adalah 2 menit.
Scale-in Waiting Time
Ambang waktu selama node tetap idle tanpa menerima permintaan pekerjaan. Setelah waktu terlampaui, sistem secara otomatis melepaskan sumber daya node. Waktu tunggu default untuk pengurangan adalah 4 menit.
Maximum number of cluster nodes
Jumlah maksimum node yang dapat dibuat di kluster.
Maximum number of cores in the cluster
Jumlah maksimum core yang dapat dibuat di kluster.
Konfigurasikan penyesuaian otomatis di antrian.
Klik kluster target, lalu klik di panel navigasi kiri. Temukan antrian yang ingin Anda kelola, dan klik Edit di kolom Actions antrian. Di halaman Edit Queue, konfigurasikan parameter berikut.
Basic Settings
Parameter
Deskripsi
Automatic queue scaling
Automatic queue scaling dimatikan secara default. Setelah Anda menghidupkan sakelar, Anda dapat memilih Auto Grow dan Auto Shrink berdasarkan kebutuhan bisnis Anda.
CatatanJika konfigurasi antrian berbeda dari konfigurasi global kluster, konfigurasi antrian akan lebih diprioritaskan.
Queue Compute Nodes
Rentang jumlah node komputasi di antrian.
Minimum Nodes: Jumlah minimum node komputasi berkisar antara 0 hingga 1.000. Nilai ini mungkin mempengaruhi efek pengurangan.
Maximum Nodes: Jumlah maksimum node komputasi berkisar antara 0 hingga 5.000. Nilai ini mungkin mempengaruhi efek penambahan.
PentingJika Anda mengatur parameter Node Minimal ke nilai bukan nol, antrian akan mempertahankan jumlah node berdasarkan nilai yang Anda tentukan selama pengurangan kluster. Node idle tidak dilepaskan. Kami merekomendasikan Anda menentukan parameter Node Minimal dengan hati-hati untuk mencegah pemborosan sumber daya dan biaya tidak perlu karena node idle di antrian.
maximum number of nodes in the queue tidak boleh melebihi maximum number of nodes in the cluster.
Pilih Konfigurasi Node Antrian
Jika Anda mengaktifkan Penyesuaian otomatis antrian atau mengatur Jumlah Awal Node ke nilai lebih besar dari 0, Anda harus mengonfigurasi parameter berikut agar sistem dapat membuat node komputasi untuk antrian:
Parameter
Deskripsi
Inter-node interconnection
Pilih mode untuk menghubungkan node. Nilai valid:
VPCNetwork: Node komputasi berkomunikasi satu sama lain melalui virtual private cloud (VPC).
eRDMANetwork: Jika tipe instance node komputasi mendukung antarmuka eRDMA (ERI), node komputasi berkomunikasi satu sama lain melalui jaringan eRDMA.
CatatanHanya node komputasi dari tipe instance tertentu yang mendukung ERI. Untuk informasi lebih lanjut, lihat Ikhtisar dan Konfigurasikan eRDMA pada instance tingkat perusahaan.
Use Preset Node Pool
Pilih pool node cadangan yang telah dibuat. Sistem secara otomatis memilih alamat IP dan nama host dari node cadangan yang belum ditugaskan di pool untuk membuat node komputasi.
CatatanAnda dapat dengan cepat menggunakan kembali sumber daya yang telah dialokasikan sebelumnya saat melakukan penambahan menggunakan pool node cadangan. Untuk informasi lebih lanjut, lihat Gunakan pool node cadangan di kluster.
Virtual Switch
Tentukan vSwitch untuk digunakan oleh node. Sistem secara otomatis menetapkan alamat IP ke node komputasi dari blok CIDR vSwitch yang tersedia.
Instance type Group
Klik Add Instance dan pilih tipe instance di panel yang muncul.
Jika Anda tidak mengaktifkan Penyesuaian otomatis antrian, Anda hanya dapat menambahkan satu tipe instance. Jika Anda mengaktifkan Penyesuaian otomatis antrian, Anda dapat menambahkan beberapa tipe instance.
PentingAnda dapat memilih beberapa vSwitch dan tipe instance sebagai alternatif jika pembuatan instance gagal karena masalah inventaris. Saat membuat node komputasi, sistem mencoba membuat node sesuai urutan tipe instance dan zona yang ditentukan. Misalnya, sistem pertama kali mencoba membuat node berdasarkan tipe instance yang Anda tentukan secara berurutan di zona tempat vSwitch pertama berada. Spesifikasi instance yang dibuat mungkin bervariasi berdasarkan inventaris.
Penyesuaian Otomatis
Parameter
Deskripsi
Scaling Policy
Pilih kebijakan penyesuaian. Saat ini, hanya Supply Priority Strategy yang didukung. Kebijakan ini menunjukkan bahwa node komputasi yang memenuhi persyaratan spesifikasi dibuat di zona yang ditentukan sesuai urutan vSwitch yang dikonfigurasi.
Maximum number of single expansion nodes
Tentukan jumlah node yang akan ditambahkan atau dihapus dalam setiap siklus penambahan atau pengurangan. Nilai default 0 menentukan bahwa jumlahnya tidak terbatas.
Kami merekomendasikan Anda mengonfigurasi parameter ini untuk mengontrol biaya Anda pada node komputasi.
Prefix of Hostnames
Tentukan awalan nama host untuk node komputasi. Awalan digunakan untuk membedakan antara node dari antrian yang berbeda.
Hostname Suffix
Tentukan akhiran nama host untuk node komputasi. Akhiran digunakan untuk membedakan antara node dari antrian yang berbeda.
Instance RAM role
Ikat Peran Manajemen Akses Sumber Daya (RAM) ke node untuk memungkinkan node mengakses layanan Alibaba Cloud.
Kami merekomendasikan Anda memilih peran default AliyunECSInstanceForEHPCRole.
Konfirmasikan konfigurasi, lalu klik Save.
Kebijakan Penyesuaian
Jika beberapa tipe instance dikonfigurasi di antrian, kluster diperbesar berdasarkan tipe instance yang tersedia, jumlah tugas, dan jumlah GPU secara berurutan. Sebagai contoh, setiap node di antrian harus memiliki setidaknya 16 core untuk memenuhi persyaratan bisnis Anda. Antrian memiliki node dengan 8 core, 16 core, dan 32 core. Instance ECS dengan 16 core secara otomatis ditambahkan ke antrian. Jika tidak ada instance ECS dengan 16 core yang tersedia, instance dengan 32 core secara otomatis ditambahkan ke antrian.
Referensi
Setelah mengonfigurasi penyesuaian otomatis, disarankan untuk memeriksa status kesehatan dan penggunaan sumber daya kluster yang dipantau untuk mengevaluasi apakah konfigurasi penyesuaian otomatis sudah sesuai. Untuk informasi lebih lanjut, lihat Lihat Informasi Pemantauan.