Buat kluster terkelola Elastic High Performance Computing (E-HPC) untuk menjalankan workload HPC di Alibaba Cloud. Pada kluster terkelola, E-HPC menyediakan dan memelihara node manajemen. Anda hanya perlu mengelola node komputasi dan antrian pekerjaan.
Pembuatan kluster E-HPC secara otomatis menyediakan resource seperti Instance ECS, yang dikenai biaya. Untuk detailnya, lihat Ikhtisar penagihan.
Arsitektur kluster
Kluster terkelola terdiri dari tiga komponen:
Compute nodes: Instance ECS yang menjalankan pekerjaan. Node komputasi termasuk dalam antrian yang dapat diskalakan. Jumlah node komputasi dapat bertambah atau berkurang sesuai permintaan workload.
Logon node: Satu Instance ECS dengan addon Login yang diterapkan dan alamat IP elastis (EIP) yang ditautkan untuk akses remote.
Shared file system: Sistem file Apsara File Storage NAS atau Cloud Parallel File Storage (CPFS) yang dibagikan di seluruh node untuk data pekerjaan dan aplikasi.
Jangan gunakan ECS console untuk mengelola node dalam kluster E-HPC kecuali benar-benar diperlukan. Gunakan E-HPC console sebagai gantinya.
Untuk informasi lebih lanjut, lihat Ikhtisar kluster.
Prasyarat
Sebelum memulai, pastikan Anda telah memiliki:
Peran terkait layanan E-HPC (dibuat otomatis saat login pertama kali ke konsol E-HPC)
VPC dan vSwitch. Lihat Buat dan kelola VPC dan Buat vSwitch
Apsara File Storage NAS (NAS) yang diaktifkan, dengan sistem file dan titik pemasangan yang telah dibuat. Lihat Buat sistem file dan Buat titik pemasangan
Prosedur
Langkah 1: Buka halaman Create Cluster
Buka halaman Create Cluster di konsol E-HPC.
Langkah 2: Konfigurasikan kluster
Pada langkah Cluster Configuration, konfigurasikan pengaturan jaringan, tipe kluster, dan penjadwal.
Pengaturan dasar
| Parameter | Deskripsi |
|---|---|
| Region | Region tempat kluster dibuat. |
| Network and Availability Zone | VPC dan vSwitch untuk kluster. Node menggunakan alamat IP dari vSwitch. Pastikan vSwitch memiliki lebih banyak alamat IP yang tersedia daripada jumlah node kluster. |
| Security group | Mengontrol traffic inbound dan outbound untuk node kluster. Pilih salah satu opsi berikut: Automatically create a normal security group, Automatically create enterprise security groups, atau Select Existing Security Group. Sistem secara otomatis membuat aturan untuk komunikasi antar-node. Satu kelompok keamanan dasar dapat berisi hingga 2.000 node. Untuk kluster yang lebih besar, gunakan kelompok keamanan tingkat lanjut. Lihat Basic security groups and advanced security groups. |
Tipe kluster
Kluster terkelola memisahkan node manajemen dari node komputasi. E-HPC membuat dan memelihara node manajemen.
| Parameter | Deskripsi |
|---|---|
| Series | Pilih Managed Edition. |
| Deployment Mode | Pilih Public cloud cluster. |
| Cluster Type | Pilih Slurm (satu-satunya opsi yang didukung). |
Opsi kustom
| Parameter | Deskripsi |
|---|---|
| Scheduler | Perangkat lunak penjadwal yang akan diterapkan. Hanya Slurm 22 yang didukung. |
| Domain Account | Layanan akun domain untuk kluster. Hanya NIS (Network Information Service) yang didukung untuk kluster terkelola. |
| Domain name resolution | Gunakan nilai default. |
| Maximum number of cluster nodes | Jumlah maksimum node yang dapat dimiliki kluster. Bekerja sama dengan Maximum number of cores in the cluster untuk mengontrol ukuran kluster. |
| Maximum number of cores in the cluster | Jumlah maksimum vCPU yang tersedia untuk node komputasi. Bekerja sama dengan Maximum number of cluster nodes untuk mengontrol ukuran kluster. |
| Cluster Deletion Protection | Mencegah penghapusan kluster secara tidak sengaja. Saat diaktifkan, kluster tidak dapat dirilis hingga Anda menonaktifkan pengaturan ini. |
Resource group
Tetapkan kluster ke resource group. Secara default, kluster termasuk dalam resource group default. Untuk informasi lebih lanjut, lihat Resource groups.
Langkah 3: Konfigurasikan node komputasi dan antrian
Pada langkah Compute Node and Queue, siapkan antrian dan node komputasi.
Node komputasi dikelompokkan ke dalam antrian. Saat Anda mengirim pekerjaan, tentukan antrian target. Setiap kluster memiliki antrian default bernama comp. Untuk menambahkan antrian, klik Add more queues.
Konfigurasikan parameter berikut untuk setiap antrian:
Pengaturan dasar
| Parameter | Deskripsi |
|---|---|
| Automatic queue scaling | Aktifkan atau nonaktifkan skalabilitas otomatis. Setelah fitur ini diaktifkan, pilih Auto Grow dan/atau Auto Shrink untuk secara otomatis menambah atau menghapus node komputasi berdasarkan workload. |
| Queue Compute Nodes | Tentukan jumlah node awal, maksimum, dan minimum. Tanpa auto-scaling: tetapkan jumlah awal. Dengan auto-scaling: tetapkan jumlah minimum dan maksimum. |
Menetapkan Minimal Nodes ke nilai bukan nol akan mempertahankan jumlah node tersebut selama scale-in, bahkan saat idle. Tetapkan nilai ini dengan hati-hati untuk menghindari biaya yang tidak perlu.
Konfigurasi node antrian
Konfigurasikan spesifikasi node jika auto-scaling diaktifkan atau jumlah node awal lebih dari 0.
| Parameter | Deskripsi |
|---|---|
| Inter-node interconnection | Mode komunikasi antar node komputasi. Opsi: VPC Network (jaringan VPC standar) atau eRDMA Network (jaringan eRDMA (elastic Remote Direct Memory Access), untuk tipe instans yang mendukung Elastic RDMA Interfaces (ERIs)). Lihat eRDMA overview dan Configure eRDMA on an enterprise-level instance. |
| Use Preset Node Pool | Pilih node pool yang telah dipesan untuk menggunakan kembali resource yang telah dialokasikan sebelumnya selama scale-out. Lihat Use reserved node pools in clusters. |
| Virtual Switch | vSwitch untuk node komputasi. Sistem menetapkan alamat IP dari blok CIDR vSwitch. |
| Instance type Group | Klik Add Instance untuk memilih tipe instans. Tanpa auto-scaling: satu tipe instans. Dengan auto-scaling: beberapa tipe instans. |
Tentukan beberapa vSwitch dan tipe instans sebagai cadangan untuk mengantisipasi kekurangan inventaris. Sistem mencoba membuat node sesuai urutan tipe instans dan zona yang ditentukan. vSwitch pertama menentukan zona awal.
Auto scale
Konfigurasikan parameter berikut saat automatic scaling diaktifkan.
| Parameter | Deskripsi |
|---|---|
| Scaling Policy | Hanya Supply Priority Strategy yang didukung. Node dibuat di zona yang ditentukan sesuai urutan vSwitch yang dikonfigurasi. |
| Maximum number of single expansion nodes | Jumlah node yang ditambahkan atau dihapus per siklus scaling. Default 99. Konfigurasikan parameter ini untuk mengontrol biaya pada node komputasi. |
| Prefix of Hostnames | Awalan hostname yang membedakan node di antrian berbeda. |
| Hostname Suffix | Akhiran hostname yang membedakan node di antrian berbeda. |
| Instance RAM role | Peran RAM yang memberikan akses node ke layanan Alibaba Cloud. Pilih peran dari dropdown. Disarankan menggunakan peran default AliyunECSInstanceForEHPCRole. |
Langkah 4: Konfigurasikan penyimpanan file bersama
Pada langkah Shared File Storage, konfigurasikan sistem file yang dibagikan di seluruh node kluster.
Secara default, sistem file dipasang ke direktori /home dan /opt node manajemen sebagai penyimpanan bersama. Untuk memasang sistem file ke direktori lain, klik Add more storage.
Anda tidak dapat memasang direktori sistem file yang berbeda ke /home dan /opt.
| Parameter | Deskripsi |
|---|---|
| Type | Tipe sistem file: General-purpose NAS, Extreme NAS, atau Parallel file CPFS. |
| File System | ID dan titik pemasangan sistem file. Pastikan sistem file memiliki cukup titik pemasangan. |
| File System Directory | Direktori sistem file yang akan dipasang. |
| Mount Options | Pengaturan protokol pemasangan. |
Langkah 5: Konfigurasikan perangkat lunak dan addon
Pada langkah Software and Service Component, instal perangkat lunak dan konfigurasikan addon.
Klik Add software. Di kotak dialog, pilih aplikasi HPC yang akan diinstal.
Klik Add Service Component. Di kotak dialog, pilih dan konfigurasikan addon.
Hanya addon Login yang didukung. Addon ini diaktifkan secara default untuk kluster cloud publik agar memungkinkan akses remote melalui internet.
Addon Login memiliki parameter berikut:
| Kategori | Parameter | Deskripsi |
|---|---|---|
| Custom parameters | SSH | Nomor port, protokol, dan blok CIDR yang diizinkan untuk koneksi SSH. |
| Custom parameters | VNC | Nomor port, protokol, dan blok CIDR yang diizinkan untuk koneksi VNC. |
| Custom parameters | Web Portal | Nomor port, protokol, dan blok CIDR yang diizinkan untuk koneksi client. |
| Addon deployment resources | EIP | EIP yang ditautkan ke instance ECS addon Login untuk akses internet. Pilih EIP yang sudah ada atau buat yang baru. |
| Addon deployment resources | ECS Instance | Tipe instans untuk instance ECS yang menjalankan addon Login. |
Langkah 6: Konfirmasi dan buat
Pada langkah Confirm configuration, verifikasi pengaturan kluster dan tentukan nama serta kredensial.
| Parameter | Deskripsi |
|---|---|
| Cluster Name | Nama yang ditampilkan di halaman Cluster untuk identifikasi. |
| Login Credentials | Metode autentikasi. Hanya Custom Password yang didukung. |
| Set Password dan Repeat Password | Kata sandi untuk pengguna root guna login ke semua node dalam kluster. |
Baca perjanjian layanan, konfirmasi biaya, lalu klik Create Cluster.
Langkah selanjutnya
Setelah kluster dibuat, buat pengguna kluster untuk mengirim pekerjaan. Lihat Manage users dan Job overview.