Kluster Lingjun adalah kumpulan node komputasi Lingjun berkinerja tinggi yang dilengkapi dengan suite optimisasi Lingjun. Setiap node Lingjun berkorespondensi dengan server komputasi GPU yang dapat Anda gunakan untuk men-deploy layanan komputasi heterogen. Topik ini menjelaskan cara mengelola kluster dan node Lingjun, termasuk melihat informasinya dan memperluas kapasitasnya.
Kelola kluster Lingjun
Kluster Lingjun dapat berada dalam salah satu status berikut:
Initialization failed.: Inisialisasi kluster gagal. Untuk melihat detail tugas yang gagal, lihat O&M Task Center.
Initializing: Sistem sedang mengonfigurasi jaringan Lingjun dan menginisialisasi node komputasi Lingjun.
Running: Anda hanya dapat melakukan skala keluar (scale-out), skala-masuk (scale-in), menginstal ulang, atau me-restart node ketika kluster berada dalam status Running.
PentingAnda dapat menjalankan tugas skala keluar, skala-masuk, instal ulang, dan restart secara paralel selama targetnya adalah node komputasi Lingjun yang berbeda.
Informasi kluster
Login ke Intelligent Computing Lingjun console.
Pada panel navigasi di sebelah kiri, pilih Resources and Nodes > Cluster Management.
Klik Details di samping ID kluster untuk membuka halaman Cluster Details.
Lihat informasi dasar tentang kluster, seperti nama, jumlah kelompok node, dan detail pembuatan.
Lihat detail kluster pada tab Node Group, Monitoring and Alerting, Basic Metrics, RDMA, dan GPU.
Skala keluar kluster
Saat melakukan skala keluar kluster, Anda harus men-deploy client CPFS pada node GPU baru dan menambahkannya ke kluster CPFS.
Anda juga harus menambahkan tag pada node baru tersebut.
Login ke Intelligent Computing Lingjun console.
Pada panel navigasi di sebelah kiri, pilih Resources and Nodes > Cluster Management.
Klik Scale out di samping ID kluster target.
Pada area Original Group Details:, klik Scale out di samping nama kelompok node yang sesuai.
Pada kotak dialog yang muncul, masukkan awalan nama node, lalu masukkan dan konfirmasi kata sandi logon.
Pilih kotak centang untuk instans node yang belum digunakan atau beli node baru, lalu klik Yes.
Pada area Detailed configurations for scale-out, klik Confirm Submission.
Kembali ke halaman Cluster Management. Status kluster berubah menjadi Scaling out. Tunggu hingga proses selesai.
Scale in kluster
Skala-masuk kluster akan menghapus node dan kemudian menginstal ulang sistem operasinya, sehingga menghapus semua data lokal. Sebelum melanjutkan, pastikan Anda telah mem-backup data yang diperlukan dari node tersebut.
Saat melakukan skala-masuk kluster, node tersebut akan dihapus dari kluster CPFS terkait.
Login ke Intelligent Computing Lingjun console.
Pada panel navigasi di sebelah kiri, pilih Resources and Nodes > Cluster Management.
Klik Scale-in di samping ID kluster.
Pada area Original Group Details:, pilih kotak centang untuk node yang ingin dihapus, lalu klik Batch Remove from Cluster.
Pada area The following information displays the detailed configurations for scale-down:, klik Confirm Submission.
Pada halaman Confirm scale-in, masukkan
DELETEpada kotak teks, lalu klik Yes.Kembali ke halaman Cluster Management. Status kluster berubah menjadi Scaling in. Tunggu hingga proses selesai.
Hapus kluster
Sebelum menghapus kluster, Anda harus terlebih dahulu menghapus semua nodenya dengan melakukan skala-masuk.
Menghapus kluster tidak menghapus kluster CPFS terkait.
Login ke Intelligent Computing Lingjun console.
Pada panel navigasi di sebelah kiri, pilih Resources and Nodes > Cluster Management.
Klik Cluster ID/Name dari kluster yang ingin dihapus. Pada halaman Cluster Details, klik Delete di pojok kanan atas.
Pada kotak dialog yang muncul, klik OK untuk menghapus kluster.
Buat kelompok node
Anda dapat membuat kelompok node untuk kluster Lingjun dengan dua cara:
Buat kelompok node saat membuat kluster. Untuk informasi lebih lanjut, lihat Configure clusters and node groups.
Buat kelompok node untuk kluster yang sudah ada.
Login ke Intelligent Computing Lingjun console.
Pada panel navigasi di sebelah kiri, pilih Resources and Nodes>Cluster Management.
Klik Cluster ID/Name target.
Klik tab Node Group.
Klik Create Group. Masukkan nama kelompok, tipe node default, dan informasi lainnya.
(Opsional) Setelah kelompok node dibuat, Anda dapat mengedit namanya atau menghapusnya.
Kelola node Lingjun
Node komputasi Lingjun hanya dapat menjalankan satu operasi dalam satu waktu. Operasi tersebut mencakup skala keluar kluster, skala-masuk kluster, instal ulang node, dan restart node.
Beli node baru
Login ke Intelligent Computing Lingjun console.
Pada panel navigasi di sebelah kiri, pilih Resources and Nodes > Node Management.
Pada halaman Node Management, klik Purchase Node.
Ikuti petunjuk di layar untuk membeli node baru.
Lihat detail node
Login ke Intelligent Computing Lingjun console.
Pada panel navigasi di sebelah kiri, pilih Resources and Nodes > Node Management untuk membuka halaman Node Management.
Klik tab All untuk melihat semua node.
Lihat informasi dasar node, seperti Node ID/Name, Image Name, dan Zone.
Untuk mencari node, pilih kriteria seperti Image Name, Zone, atau IP Address dari daftar drop-down, lalu masukkan kata kunci di kotak pencarian.
Klik tab Unused untuk melihat node yang belum digunakan. Lihat informasi dasar node tersebut, seperti Node Model dan Resource Group.
Login ke node
Login ke Intelligent Computing Lingjun console.
Pada panel navigasi di sebelah kiri, pilih Resources and Nodes > Node Management.
Pada kolom Actions dari node target, klik Remote Logon.
Instal ulang node
Menginstal ulang node akan menghapus datanya. Lakukan dengan hati-hati.
Node hanya dapat diinstal ulang ketika kluster Lingjun berada dalam status Running.
Menginstal ulang node melibatkan penghapusan node lama dari kluster CPFS, lalu menambahkan informasi node baru ke kluster tersebut.
Instal ulang node dalam situasi berikut:
Untuk men-deploy ulang layanan.
Untuk mengubah versi sistem operasi.
Untuk keperluan O&M.
Prosedur
Login ke Intelligent Computing Lingjun console.
Pada panel navigasi di sebelah kiri, pilih Resources and Nodes > Node Management.
Pada halaman Node Management, klik Reinstall untuk ID instans target. Pada kotak dialog yang muncul, pilih versi gambar, ubah nama node, masukkan dan konfirmasi password root untuk node tersebut, lalu klik Reinstall.
Restart node
Me-restart node dapat memengaruhi kelangsungan bisnis.
Node hanya dapat di-restart ketika kluster Lingjun berada dalam status Running.
Restart node dalam situasi berikut:
Untuk men-deploy aplikasi atau layanan baru.
Untuk mengubah konfigurasi sistem.
Untuk keperluan O&M.
Prosedur
Login ke Intelligent Computing Lingjun console.
Pada panel navigasi di sebelah kiri, pilih Resources and Nodes > Node Management.
Pada halaman Node Management, klik Restart untuk ID instans target.