Kegagalan pada node GPU-HPN dapat menyebabkan penundaan atau bahkan penghentian pekerjaan pelatihan AI. Klaster ACS menyediakan kemampuan pemecahan masalah untuk node GPU-HPN. Ketika sebuah node mengalami kegagalan, ACS menandai node tersebut dan menghasilkan event Kubernetes atau kondisi. Topik ini menjelaskan metrik pemantauan node GPU-HPN, metode pengumpulan metrik, serta prosedur untuk memperbaiki node GPU-HPN.
Prosedur pemecahan masalah node
ACS secara berkala melakukan pemeriksaan kesehatan pada node GPU-HPN. Jika terjadi kegagalan pada node, ikuti prosedur berikut dan bekerja sama dengan mekanisme pemulihan otomatis ACS untuk memperbaiki node tersebut.
ACS menghasilkan event atau kondisi node ketika terjadi kegagalan, serta menambahkan taint ke node tersebut sehingga pod tidak akan dijadwalkan ke node yang bermasalah.
Pengusiran Node
Setelah menerima notifikasi, segera usir pod dari node yang bermasalah.
Perbaikan Node
Setelah pod diusir, ACS secara otomatis akan memperbaiki node tersebut.
Pemulihan Node
Setelah ACS memperbaiki node, taint dan status node dipulihkan, sehingga pod baru dapat dijadwalkan ke node tersebut.
Notifikasi kegagalan
ACS mendeteksi informasi kegagalan node GPU-HPN melalui pod, kondisi, atau event.
Node
ACS menambahkan label ke node yang bermasalah untuk menandainya.
metadata: labels: alibabacloud.com/node-anomaly: "true"ACS menambahkan
alibabacloud.com/node-anomalytaint ke node sehingga pod tidak dijadwalkan ke node tersebut.spec: taints: - effect: NoSchedule key: alibabacloud.com/node-anomaly timeAdded: "2024-10-16T06:09:27Z"ACS mencatat informasi kegagalan terperinci di bagian
conditions(NodeAnomaly) dari node.status: conditions: - lastHeartbeatTime: "2024-10-16T06:09:31Z" lastTransitionTime: "2024-10-16T06:09:31Z" message: Node telah mengalami anomali. reason: NodeBroken status: "True" type: NodeAnomalyTabel berikut menjelaskan bidang-bidang di bagian
conditions.Bidang
Deskripsi
Waktu Pembaruan
typeNodeAnomaly, yang menunjukkan bahwa node tersebut abnormal.
Nilai tetap selama siklus hidup node.
statusMenunjukkan apakah node mengalami kegagalan:
True: mengalami kegagalan.False: tidak mengalami kegagalan.
Diperbarui ketika status node berubah.
reasonJenis kegagalan. Nilai valid:
NodeBroken: Node GPU-HPN mengalami kegagalan.GPUCardBroken: GPU mengalami kegagalan.
Diperbarui ketika status node berubah.
messageInformasi kegagalan terperinci.
Diperbarui ketika status node berubah.
lastTransitionTimeWaktu terjadinya kegagalan.
Diperbarui ketika status node berubah.
lastHeartbeatTimeWaktu heartbeat terakhir, yang diperbarui secara berkala.
Diperbarui ketika status node berubah atau setelah 5 menit dari pembaruan terakhir.
Informasi pemulihan otomatis terperinci dicatat di
conditions(FaultHealing) dari node. Diperbarui sesuai dengan kemajuan pemulihan otomatis.status: conditions: - lastHeartbeatTime: "2025-03-24T11:14:48Z" lastTransitionTime: "2025-03-24T11:14:48Z" message: pemulihan kegagalan node berhasil reason: Success status: "False" type: FaultHealingTabel berikut menjelaskan bidang-bidang di bagian
conditions.Bidang
Deskripsi
typeFaultHealing, yang menunjukkan bahwa pemulihan otomatis sedang berlangsung.
statusMenunjukkan apakah node sedang dalam pemulihan.
True: sedang memulihkan.False: sudah pulih.
reasonStatus pemulihan.
Success dan Finished: sudah pulih.
InProgress: sedang memulihkan.
Failed: pemulihan otomatis gagal.
messageKemajuan pemulihan otomatis terperinci.
lastTransitionTimeDiperbarui dengan kemajuan pemulihan otomatis.
lastHeartbeatTimeDiperbarui dengan kemajuan pemulihan otomatis.
Pod Event
Pod yang sudah di-hosting pada node yang bermasalah akan menerima event Peringatan.
Disarankan agar Anda segera mengusir pod pada node setelah menerima notifikasi. ACS mulai memperbaiki node setelah semua pod diusir.
reason: NodeBroken
type: Warning
message: 'Pod diusulkan untuk diusir pada 2024-10-16 07:21:54 +0000 UTC, alasan: xxx'Tabel berikut menjelaskan bidang-bidang di Event.
Bidang | Deskripsi |
| Tetap menjadi Peringatan. |
| Jenis kegagalan. Nilainya bervariasi berdasarkan sumber aturan:
|
| Kemajuan pemulihan otomatis terperinci. |