Topik ini menjelaskan cara menambahkan kelompok node LINGJUN ke ACK Managed Cluster Pro Edition.
Pengenalan kelompok node LINGJUN
Kelompok node LINGJUN dalam ACK Managed Cluster Pro Edition memiliki pemetaan satu-ke-satu dengan kelompok node dari Layanan Intelligent Computing LINGJUN (kluster bare metal LINGJUN). Artinya, satu kelompok node dari Kluster LINGJUN berkorespondensi dengan satu kelompok node LINGJUN dalam ACK Managed Cluster Pro Edition, dan satu instans Node Lingjun hanya dapat menjadi anggota satu kelompok node LINGJUN. Dengan membagi node ke dalam kelompok node LINGJUN, Anda dapat menerapkan kebijakan manajemen yang berbeda pada instans Node Lingjun dalam ACK Managed Cluster Pro Edition.
ACK Managed Cluster Pro Edition mengelola instans Node Lingjun menggunakan kelompok node LINGJUN. Layanan ini mendukung manajemen siklus hidup kelompok node serta penambahan dan penghapusan node secara batch. Layanan ini menyediakan kemampuan manajemen dan operasi & pemeliharaan (O&M) yang hampir identik dengan kelompok node ECS, termasuk konfigurasi node, O&M node, penjadwalan aplikasi ke kelompok node tertentu, pemantauan dan diagnostik, serta O&M otomatis.
Untuk menyediakan kemampuan AI cloud-native yang lebih baik bagi instans Node Lingjun, Anda dapat menginstal cloud-native AI suite. Kelompok node LINGJUN mendukung penjadwalan yang sadar topologi untuk beberapa GPU. Mereka menyediakan penjadwalan dan isolasi GPU bersama menggunakan solusi virtualisasi kontainer GPU. Untuk tugas seperti AI dan High-Performance Computing (HPC), mereka mendukung kebijakan penjadwalan seperti Gang, Capacity, dan Binpack. Mereka juga mendukung orkestrasi set data dan akselerasi akses.
Fitur kelompok node LINGJUN untuk ACK Managed Cluster Pro Edition diaktifkan melalui daftar putih. Untuk menggunakan fitur ini, hubungi tim Container Service melalui solution architect (SA) Anda.
Deskripsi penagihan
Saat Anda menggunakan kelompok node LINGJUN dalam ACK Managed Cluster Pro Edition, total biaya terdiri dari tiga bagian: biaya manajemen kluster, biaya manajemen node LINGJUN, dan biaya resource produk cloud.
Pratinjau undangan gratis untuk fitur manajemen node Lingjun berakhir pada 05 Agustus 2025, dan penagihan komersial akan dimulai. Untuk informasi selengkapnya, lihat [Pengumuman Penagihan] Pengumuman Penagihan Manajemen Node Lingjun. Selama periode pratinjau undangan, fitur kelompok node LINGJUN dapat digunakan secara gratis. Namun, biaya lain untuk kluster ACK managed Pro, seperti biaya manajemen kluster dan biaya resource produk cloud, tetap dikenakan seperti biasa. Untuk informasi selengkapnya, lihat Ikhtisar penagihan.
Prasyarat
Sebelum membuat kelompok node LINGJUN untuk ACK Managed Cluster Pro Edition, prasyarat berikut harus dipenuhi:
Buat Kluster LINGJUN dasar tipe Lite dan tambahkan skala node dalam kelompok node LINGJUN. Untuk informasi selengkapnya, lihat Buat kluster.
Buat ACK Managed Cluster Pro Edition yang memenuhi kondisi berikut:
ACK Managed Cluster Pro Edition dan kluster bare metal LINGJUN berada di wilayah dan VPC yang sama.
ACK Managed Cluster Pro Edition menggunakan versi 1.31 atau lebih baru. Hanya kluster single-stack IPv4 yang didukung. Kluster dual-stack IPv6 tidak didukung. Untuk meningkatkan versi kluster, lihat Tingkatkan kluster secara manual.
Plugin jaringan adalah Terway. Tipe instans Node Lingjun yang berbeda memerlukan versi Terway yang berbeda. Anda harus meningkatkan komponen terway-controlplane dan terway-eniip ke versi terbaru.
Komponen ack-rdma-device-plugin telah diinstal.
Saat menggunakan kelompok node LINGJUN, Anda harus menyediakan node ECS untuk men-deploy beberapa komponen lapisan kontrol ACK. Kami merekomendasikan penggunaan tiga node ECS atau lebih untuk memastikan ketersediaan tinggi (HA).
PentingUntuk mencegah pod komponen sistem dijadwalkan ke node LINGJUN dan mengonsumsi resource, node dalam kelompok node LINGJUN memiliki label dan taint berikut secara default. Jika Anda ingin menjalankan pod pada node LINGJUN, Anda dapat menambahkan toleransi terhadap taint ini atau menghapus taint tersebut setelah meningkatkan komponen. Namun, jangan hapus label default tersebut.
Label: alibabacloud.com/lingjun-worker:true Taint: Key:node-role.alibabacloud.com/lingjun Effect:NoScheduleKelompok node LINGJUN hanya mendukung instans Node Lingjun dengan versi kernel sistem operasi (OS) 5.10 atau lebih baru.
Titik masuk
Pada halaman Node Pools, Anda dapat membuat, mengedit, menghapus, dan melihat kelompok node dalam kluster Anda.
Masuk ke Konsol ACK. Di panel navigasi sebelah kiri, pilih Clusters.
Pada halaman Clusters, klik nama kluster target. Di panel navigasi sebelah kiri, pilih .
Buat kelompok node LINGJUN
Anda dapat mengonfigurasi kelompok node di Konsol. Konfigurasi mencakup pengaturan dasar, jaringan, dan penyimpanan. Perhatikan bahwa beberapa item konfigurasi, terutama yang terkait dengan ketersediaan dan jaringan kelompok node, tidak dapat diubah setelah kelompok node dibuat. Pembuatan kelompok node tidak memengaruhi node atau layanan di kelompok node lain yang sudah ada.
Pada halaman Node Pools, klik ... > Create LINGJUN Node Pool. Di kotak dialog Create LINGJUN Node Pool, lengkapi konfigurasi dan asosiasikan dengan Kluster LINGJUN dan kelompok LINGJUN yang sudah ada.
Setelah kelompok node dibuat, Anda dapat mengubah item konfigurasinya di halaman Edit Node Pool. Tabel berikut menunjukkan apakah suatu item konfigurasi dapat diubah setelah kelompok node dibuat.
Kelompok node LINGJUN saat ini hanya mendukung penyimpanan data runtime kontainer pada disk sistem.
Untuk instans Node Lingjun yang menggunakan LINGJUN Connection, Anda harus mengajukan permintaan untuk ditambahkan ke daftar putih komponen ACK VPD CNI. Sebelum membuat kelompok node LINGJUN, instal komponen ACK VPD CNI di halaman Component Management. Saat membuat kelompok node LINGJUN untuk kelompok node yang menggunakan LINGJUN Connection, ACK secara otomatis menambahkan Blok CIDR kelompok LINGJUN ke security group kluster dan mengizinkan akses inbound. ACK juga secara otomatis menambahkan label alibabacloud.com/lingjun-network-type: vpd ke kelompok node. Jangan hapus label ini.
Tambahkan instans Node Lingjun yang sudah ada
Untuk menambahkan instans Node Lingjun dari kelompok LINGJUN ke kluster ACK sebagai node pekerja, atau menambahkan kembali node pekerja yang sebelumnya dihapus, Anda dapat menambahkannya secara batch dari kelompok yang terkait ke kelompok node LINGJUN di Konsol ACK. Setelah node ditambahkan, Anda dapat mengelolanya di tingkat kelompok node.
Menambahkan instans Node Lingjun yang sudah ada tidak mengganti sistem operasi, disk sistem, atau disk data mereka, dan tidak memengaruhi data yang tersimpan di dalamnya. Instans Node Lingjun yang ingin Anda tambahkan harus termasuk dalam kelompok LINGJUN yang diasosiasikan dengan kelompok node dan belum ditambahkan ke kelompok node tersebut.
Masuk ke Konsol ACK. Di panel navigasi sebelah kiri, pilih Clusters.
Pada halaman Clusters, klik nama kluster target. Di panel navigasi sebelah kiri, pilih Node > Node Pools.
Pada halaman Node Pools, klik ⋮ > Add Existing Node.
CatatanSetelah instans Node Lingjun berhasil ditambahkan, ACK Managed Cluster Pro Edition secara otomatis menambahkan tag yang sesuai ke instans tersebut. Anda dapat melihat tag ini di Konsol Intelligent Computing LINGJUN.
ack.aliyun.com: ID ACK Managed Cluster Pro Edition yang mengelola instans Node Lingjun.
ack.alibabacloud.com/nodepool-id: ID kelompok node LINGJUN yang mengelola instans Node Lingjun.
Hapus instans Node Lingjun
Instans Node Lingjun yang ditambahkan ke kelompok node tidak akan dilepas saat Anda menghapus kluster ACK atau kelompok node LINGJUN. Instans tersebut tidak secara otomatis dihapus dari kelompok LINGJUN saat scaling in. Anda harus memantau status penagihan instans Node Lingjun Anda untuk menghindari biaya tambahan.
Menghapus instans Node Lingjun hanya menghapusnya dari kelompok node LINGJUN. Instans tersebut tidak dihapus dari kelompok LINGJUN. Untuk operasi manajemen lainnya pada instans dan kelompok Node Lingjun, buka Konsol Intelligent Computing LINGJUN.
Gunakan fitur RDMA
Untuk mengaktifkan komunikasi Remote Direct Memory Access (RDMA) untuk instans Node Lingjun, buka halaman detail kluster target di Konsol. Di panel navigasi sebelah kiri, pilih Operations > Add-ons dan instal komponen ack-rdma-device-plugin secara manual.
Mode jaringan yang tersedia untuk pod bergantung pada versi IP jaringan komputasi kluster bare metal LINGJUN yang diasosiasikan dengan kelompok node LINGJUN.
Versi IP jaringan komputasi | Mode jaringan RDMA yang didukung | Deskripsi konfigurasi |
IPv4 | Hanya mode | Pod hanya mendukung komunikasi RDMA dalam mode |
IPv6 |
|
|
Untuk informasi selengkapnya, lihat Gunakan jaringan RDMA pada instans Node Lingjun untuk pod.
Gunakan mode ENI eksklusif Terway
Saat menggunakan Terway, kelompok node LINGJUN hanya mendukung mode jaringan elastic network interface (ENI) eksklusif dan memerlukan Terway v1.14.4 atau lebih baru. Jika versi komponen Terway Anda lebih lama dari v1.14.4, tingkatkan komponen terway-eniip seperti dijelaskan dalam Tingkatkan komponen.
Saat membuat kelompok node LINGJUN, ACK secara otomatis menambahkan label k8s.aliyun.com/exclusive-mode-eni-type: eniOnly ke kelompok node untuk mengaktifkan mode ENI eksklusif. Jangan hapus label ini. Untuk informasi selengkapnya, lihat Konfigurasi mode jaringan ENI eksklusif untuk kelompok node.
Jika kelompok node LINGJUN Anda tidak memiliki label ini, maka menggunakan mode jaringan ENI bersama.
Saat instans Node Lingjun menggunakan mode ENI bersama untuk komunikasi jaringan VPC, kegagalan jaringan pod kadang-kadang terjadi. Anda dapat me-restart pod untuk sementara memulihkan layanan. Untuk menyelesaikan masalah ini sepenuhnya, tingkatkan komponen Terway ke versi terbaru selama jam sepi. Kemudian, buat ulang kelompok node LINGJUN dalam mode ENI eksklusif dan tambahkan instans Node Lingjun ke kelompok node baru tersebut.
Tingkatkan komponen
Saat membuat ACK Managed Cluster Pro Edition, versi komponen terbaru digunakan secara default. Saat membuat kelompok node LINGJUN dalam ACK Managed Cluster Pro Edition yang sudah ada, Anda harus meningkatkan komponen berikut ke versi yang ditentukan. Untuk meningkatkan komponen, buka halaman detail kluster target di Konsol dan pilih Operations > Add-ons di panel navigasi sebelah kiri.
Nama Komponen | Persyaratan Versi Minimum |
v1.31 | |
v1.14.4 | |
v1.11.3.5-5321daf49-aliyun | |
v1.11.4-aliyun.2 | |
v0.2.1 | |
v0.16.1.0-gea4d02f-aliyun | |
v1.8.4 | |
v1.1.31 | |
v2.1.6 | |
v1.32.2 | |
v1.32.2 | |
v0.2.10 | |
ack-ai-installer (Applications > Cloud-native AI Suite Installation) | v1.12.2 |
Operasi terkait
Gunakan penjadwalan GPU bersama.
Untuk menggunakan penjadwalan GPU bersama pada instans Node Lingjun dalam ACK Managed Cluster Pro Edition dan mengaktifkan pembagian serta isolasi GPU, Anda harus terlebih dahulu menginstal komponen ack-ai-installer dari cloud-native AI suite. Untuk informasi selengkapnya, lihat Gunakan penjadwalan GPU bersama.
Aktifkan kebijakan penjadwalan Binpack.
Saat menjalankan pekerjaan pelatihan model dalam kelompok node LINGJUN, Anda dapat mengaktifkan kebijakan Binpack untuk penjadwalan pod. Kebijakan ini memprioritaskan penjadwalan pod ke mesin yang sama untuk mengurangi latensi komunikasi antar-mesin selama pelatihan. Untuk informasi selengkapnya tentang cara mengaktifkan binpack dalam komponen Kube Scheduler, lihat Sesuaikan parameter penjadwal.
Gunakan penjadwalan yang sadar topologi dalam kelompok node LINGJUN.
Untuk menggunakan penjadwalan yang sadar topologi dalam kelompok node LINGJUN, Anda harus menginstal Kube Scheduler dan meningkatkannya ke v1.31 atau lebih baru. Untuk informasi selengkapnya, lihat Gunakan penjadwalan yang sadar topologi.
FAQ
Node tetap dalam status Not Ready setelah perbaikan
Latar Belakang: Instans Node Lingjun diambil offline untuk perbaikan karena masalah perangkat keras. Setelah perbaikan selesai, status node tetap Not Ready di kluster ACK.
Penyebab: Selama perbaikan offline, instans Node Lingjun diganti, dan data pada disk lokalnya tidak dipertahankan. Hal ini menghapus informasi runtime kontainer seperti kubelet dan containerd, sehingga menyebabkan node masuk ke status abnormal.
Solusi: Setelah perbaikan selesai, Anda harus menghapus node dari kelompok node secara manual, lalu menambahkannya kembali menggunakan fitur Add Existing Nodes.