All Products
Search
Document Center

Elastic High Performance Computing:Buat kluster terkelola cloud publik

Last Updated:Mar 01, 2026

Buat kluster terkelola Elastic High Performance Computing (E-HPC) untuk menjalankan workload HPC di Alibaba Cloud. Pada kluster terkelola, E-HPC menyediakan dan memelihara node manajemen. Anda hanya perlu mengelola node komputasi dan antrian pekerjaan.

Penting

Pembuatan kluster E-HPC secara otomatis menyediakan resource seperti Instance ECS, yang dikenai biaya. Untuk detailnya, lihat Ikhtisar penagihan.

Arsitektur kluster

Kluster terkelola terdiri dari tiga komponen:

  • Compute nodes: Instance ECS yang menjalankan pekerjaan. Node komputasi termasuk dalam antrian yang dapat diskalakan. Jumlah node komputasi dapat bertambah atau berkurang sesuai permintaan workload.

  • Logon node: Satu Instance ECS dengan addon Login yang diterapkan dan alamat IP elastis (EIP) yang ditautkan untuk akses remote.

  • Shared file system: Sistem file Apsara File Storage NAS atau Cloud Parallel File Storage (CPFS) yang dibagikan di seluruh node untuk data pekerjaan dan aplikasi.

Penting

Jangan gunakan ECS console untuk mengelola node dalam kluster E-HPC kecuali benar-benar diperlukan. Gunakan E-HPC console sebagai gantinya.

Untuk informasi lebih lanjut, lihat Ikhtisar kluster.

Prasyarat

Sebelum memulai, pastikan Anda telah memiliki:

Prosedur

Langkah 1: Buka halaman Create Cluster

Buka halaman Create Cluster di konsol E-HPC.

Langkah 2: Konfigurasikan kluster

Pada langkah Cluster Configuration, konfigurasikan pengaturan jaringan, tipe kluster, dan penjadwal.

Pengaturan dasar

ParameterDeskripsi
RegionRegion tempat kluster dibuat.
Network and Availability ZoneVPC dan vSwitch untuk kluster. Node menggunakan alamat IP dari vSwitch. Pastikan vSwitch memiliki lebih banyak alamat IP yang tersedia daripada jumlah node kluster.
Security groupMengontrol traffic inbound dan outbound untuk node kluster. Pilih salah satu opsi berikut: Automatically create a normal security group, Automatically create enterprise security groups, atau Select Existing Security Group. Sistem secara otomatis membuat aturan untuk komunikasi antar-node. Satu kelompok keamanan dasar dapat berisi hingga 2.000 node. Untuk kluster yang lebih besar, gunakan kelompok keamanan tingkat lanjut. Lihat Basic security groups and advanced security groups.

Tipe kluster

Kluster terkelola memisahkan node manajemen dari node komputasi. E-HPC membuat dan memelihara node manajemen.

ParameterDeskripsi
SeriesPilih Managed Edition.
Deployment ModePilih Public cloud cluster.
Cluster TypePilih Slurm (satu-satunya opsi yang didukung).

Opsi kustom

ParameterDeskripsi
SchedulerPerangkat lunak penjadwal yang akan diterapkan. Hanya Slurm 22 yang didukung.
Domain AccountLayanan akun domain untuk kluster. Hanya NIS (Network Information Service) yang didukung untuk kluster terkelola.
Domain name resolutionGunakan nilai default.
Maximum number of cluster nodesJumlah maksimum node yang dapat dimiliki kluster. Bekerja sama dengan Maximum number of cores in the cluster untuk mengontrol ukuran kluster.
Maximum number of cores in the clusterJumlah maksimum vCPU yang tersedia untuk node komputasi. Bekerja sama dengan Maximum number of cluster nodes untuk mengontrol ukuran kluster.
Cluster Deletion ProtectionMencegah penghapusan kluster secara tidak sengaja. Saat diaktifkan, kluster tidak dapat dirilis hingga Anda menonaktifkan pengaturan ini.

Resource group

Tetapkan kluster ke resource group. Secara default, kluster termasuk dalam resource group default. Untuk informasi lebih lanjut, lihat Resource groups.

Langkah 3: Konfigurasikan node komputasi dan antrian

Pada langkah Compute Node and Queue, siapkan antrian dan node komputasi.

Node komputasi dikelompokkan ke dalam antrian. Saat Anda mengirim pekerjaan, tentukan antrian target. Setiap kluster memiliki antrian default bernama comp. Untuk menambahkan antrian, klik Add more queues.

Konfigurasikan parameter berikut untuk setiap antrian:

Pengaturan dasar

ParameterDeskripsi
Automatic queue scalingAktifkan atau nonaktifkan skalabilitas otomatis. Setelah fitur ini diaktifkan, pilih Auto Grow dan/atau Auto Shrink untuk secara otomatis menambah atau menghapus node komputasi berdasarkan workload.
Queue Compute NodesTentukan jumlah node awal, maksimum, dan minimum. Tanpa auto-scaling: tetapkan jumlah awal. Dengan auto-scaling: tetapkan jumlah minimum dan maksimum.
Penting

Menetapkan Minimal Nodes ke nilai bukan nol akan mempertahankan jumlah node tersebut selama scale-in, bahkan saat idle. Tetapkan nilai ini dengan hati-hati untuk menghindari biaya yang tidak perlu.

Konfigurasi node antrian

Konfigurasikan spesifikasi node jika auto-scaling diaktifkan atau jumlah node awal lebih dari 0.

ParameterDeskripsi
Inter-node interconnectionMode komunikasi antar node komputasi. Opsi: VPC Network (jaringan VPC standar) atau eRDMA Network (jaringan eRDMA (elastic Remote Direct Memory Access), untuk tipe instans yang mendukung Elastic RDMA Interfaces (ERIs)). Lihat eRDMA overview dan Configure eRDMA on an enterprise-level instance.
Use Preset Node PoolPilih node pool yang telah dipesan untuk menggunakan kembali resource yang telah dialokasikan sebelumnya selama scale-out. Lihat Use reserved node pools in clusters.
Virtual SwitchvSwitch untuk node komputasi. Sistem menetapkan alamat IP dari blok CIDR vSwitch.
Instance type GroupKlik Add Instance untuk memilih tipe instans. Tanpa auto-scaling: satu tipe instans. Dengan auto-scaling: beberapa tipe instans.
Penting

Tentukan beberapa vSwitch dan tipe instans sebagai cadangan untuk mengantisipasi kekurangan inventaris. Sistem mencoba membuat node sesuai urutan tipe instans dan zona yang ditentukan. vSwitch pertama menentukan zona awal.

Auto scale

Konfigurasikan parameter berikut saat automatic scaling diaktifkan.

ParameterDeskripsi
Scaling PolicyHanya Supply Priority Strategy yang didukung. Node dibuat di zona yang ditentukan sesuai urutan vSwitch yang dikonfigurasi.
Maximum number of single expansion nodesJumlah node yang ditambahkan atau dihapus per siklus scaling. Default 99. Konfigurasikan parameter ini untuk mengontrol biaya pada node komputasi.
Prefix of HostnamesAwalan hostname yang membedakan node di antrian berbeda.
Hostname SuffixAkhiran hostname yang membedakan node di antrian berbeda.
Instance RAM rolePeran RAM yang memberikan akses node ke layanan Alibaba Cloud. Pilih peran dari dropdown. Disarankan menggunakan peran default AliyunECSInstanceForEHPCRole.

Langkah 4: Konfigurasikan penyimpanan file bersama

Pada langkah Shared File Storage, konfigurasikan sistem file yang dibagikan di seluruh node kluster.

Secara default, sistem file dipasang ke direktori /home dan /opt node manajemen sebagai penyimpanan bersama. Untuk memasang sistem file ke direktori lain, klik Add more storage.

Catatan

Anda tidak dapat memasang direktori sistem file yang berbeda ke /home dan /opt.

ParameterDeskripsi
TypeTipe sistem file: General-purpose NAS, Extreme NAS, atau Parallel file CPFS.
File SystemID dan titik pemasangan sistem file. Pastikan sistem file memiliki cukup titik pemasangan.
File System DirectoryDirektori sistem file yang akan dipasang.
Mount OptionsPengaturan protokol pemasangan.

Langkah 5: Konfigurasikan perangkat lunak dan addon

Pada langkah Software and Service Component, instal perangkat lunak dan konfigurasikan addon.

  1. Klik Add software. Di kotak dialog, pilih aplikasi HPC yang akan diinstal.

  2. Klik Add Service Component. Di kotak dialog, pilih dan konfigurasikan addon.

Catatan

Hanya addon Login yang didukung. Addon ini diaktifkan secara default untuk kluster cloud publik agar memungkinkan akses remote melalui internet.

Addon Login memiliki parameter berikut:

KategoriParameterDeskripsi
Custom parametersSSHNomor port, protokol, dan blok CIDR yang diizinkan untuk koneksi SSH.
Custom parametersVNCNomor port, protokol, dan blok CIDR yang diizinkan untuk koneksi VNC.
Custom parametersWeb PortalNomor port, protokol, dan blok CIDR yang diizinkan untuk koneksi client.
Addon deployment resourcesEIPEIP yang ditautkan ke instance ECS addon Login untuk akses internet. Pilih EIP yang sudah ada atau buat yang baru.
Addon deployment resourcesECS InstanceTipe instans untuk instance ECS yang menjalankan addon Login.

Langkah 6: Konfirmasi dan buat

Pada langkah Confirm configuration, verifikasi pengaturan kluster dan tentukan nama serta kredensial.

ParameterDeskripsi
Cluster NameNama yang ditampilkan di halaman Cluster untuk identifikasi.
Login CredentialsMetode autentikasi. Hanya Custom Password yang didukung.
Set Password dan Repeat PasswordKata sandi untuk pengguna root guna login ke semua node dalam kluster.

Baca perjanjian layanan, konfirmasi biaya, lalu klik Create Cluster.

Langkah selanjutnya

Setelah kluster dibuat, buat pengguna kluster untuk mengirim pekerjaan. Lihat Manage users dan Job overview.