Selama pelatihan AI, titik kegagalan pada node GPU dapat menyebabkan tugas hang atau berhenti secara abnormal, yang berdampak pada efisiensi tugas. Alibaba Cloud Container Service for Kubernetes (ACS) menyediakan pemantauan titik kegagalan untuk node GPU-HPN. Jika suatu node mengalami anomali, ACS akan menandai node tersebut dan melaporkan masalahnya melalui event dan condition Kubernetes. Topik ini menjelaskan metrik titik kegagalan, metode pengambilan data, serta proses pemulihan untuk node GPU-HPN.
Proses penanganan titik kegagalan node
ACS secara terus-menerus menjalankan pemeriksaan kesehatan pada node GPU-HPN. Jika suatu node gagal, ikuti proses berikut untuk memperbaiki node yang bermasalah menggunakan mekanisme self-healing ACS.
ACS melaporkan penyebab titik kegagalan melalui event dan condition node. ACS juga menambahkan taint ke node tersebut untuk mencegah penjadwalan Pod baru ke node itu.
Drain Node yang Bermasalah
Setelah menerima notifikasi titik kegagalan, Anda harus segera mengosongkan Pod dari node yang bermasalah. Anda dapat menggunakan acs-instance-helper untuk mengosongkan Pod secara otomatis. Untuk informasi selengkapnya, lihat Konfigurasikan rotasi otomatis untuk instans dengan pengecualian perangkat keras.
Perbaiki Node yang Bermasalah
Setelah node yang bermasalah dikosongkan, ACS secara otomatis memulai proses perbaikan.
Self-Recovery Node
Setelah ACS memperbaiki node, taint dan condition terkait pada node tersebut secara otomatis dipulihkan ke kondisi normal. Pod baru kemudian dapat dijadwalkan ke node tersebut.
Notifikasi titik kegagalan
Untuk memastikan penanganan titik kegagalan yang cepat, konfigurasikan kondisi alert menggunakan kube-eventer. Untuk informasi selengkapnya, lihat kube-eventer.
Ketika node GPU-HPN mengalami titik kegagalan, ACS menyediakan informasi titik kegagalan melalui condition pada objek Node dan event pada Pod terkait.
Node
Label anomali ditambahkan ke node untuk keperluan penyaringan dan peninjauan.
metadata: labels: alibabacloud.com/node-anomaly: "true"Taint bernama
alibabacloud.com/node-anomalyditambahkan ke node. Secara default, Pod yang baru diajukan tidak dijadwalkan ke node ini.spec: taints: - effect: NoSchedule key: alibabacloud.com/node-anomaly timeAdded: "2024-10-16T06:09:27Z"Informasi titik kegagalan detail dicatat dalam bidang
conditionsnode pada condition bertipe `NodeAnomaly`.status: conditions: - lastHeartbeatTime: "2024-10-16T06:09:31Z" lastTransitionTime: "2024-10-16T06:09:31Z" message: The node has encountered an anomaly. reason: NodeBroken status: "True" type: NodeAnomalyBidang-bidang dalam
conditionsadalah sebagai berikut:Bidang
Deskripsi
Kapan Diperbarui
type`NodeAnomaly`. Menunjukkan adanya anomali pada node.
Bidang statis. Tidak berubah selama siklus hidup node.
statusMenunjukkan apakah terdapat titik kegagalan.
True: Terdapat titik kegagalan.False: Tidak terdapat titik kegagalan.
Diperbarui saat status titik kegagalan node berubah.
reasonJenis titik kegagalan. Dapat berupa salah satu dari berikut:
NodeBroken: Seluruh node GPU-HPN mengalami kegagalan.GPUCardBroken: Terjadi kegagalan pada level kartu GPU.NodeMaintenance: Node GPU-HPN sedang menjalani peningkatan sistem atau O&M.
Diperbarui saat status titik kegagalan node berubah.
messageMencatat informasi detail mengenai titik kegagalan.
Diperbarui saat status titik kegagalan node berubah.
lastTransitionTimeWaktu terakhir status titik kegagalan berubah.
Diperbarui saat status titik kegagalan node berubah.
lastHeartbeatTimeWaktu heartbeat yang diperbarui secara berkala.
Diperbarui saat status titik kegagalan node berubah atau jika telah berlalu lebih dari lima menit sejak pembaruan terakhir.
Informasi self-healing detail dicatat dalam bidang
conditionsnode pada condition bertipe `FaultHealing`. Condition ini diperbarui seiring perkembangan proses self-healing.status: conditions: - lastHeartbeatTime: "2025-03-24T11:14:48Z" lastTransitionTime: "2025-03-24T11:14:48Z" message: node fault healing success reason: Success status: "False" type: FaultHealingBagian ini menjelaskan bidang-bidang dalam
conditions:Bidang
Deskripsi
type`FaultHealing`. Menunjukkan bahwa node sedang dalam proses self-healing.
statusMenunjukkan apakah node sedang dalam proses self-healing.
True: Self-healing sedang berlangsung.False: Self-healing telah selesai.
reasonStatus self-healing node.
`Success`, `Finished`: Self-healing telah selesai.
`InProgress`: Self-healing sedang berlangsung.
`Failed`: Self-healing gagal.
messageMencatat informasi detail mengenai progres self-healing.
lastTransitionTimeDiperbarui saat progres self-healing berubah.
lastHeartbeatTimeDiperbarui saat progres self-healing berubah.
Pod Event
Event bertipe Warning dihasilkan untuk Pod yang sedang berjalan pada node yang bermasalah.
Setelah menerima informasi titik kegagalan, segera kosongkan Pod dari node yang bermasalah. ACS secara otomatis memulai proses perbaikan dan self-healing node setelah semua Pod dikosongkan. Anda dapat menggunakan acs-instance-helper untuk mengosongkan Pod secara otomatis. Untuk informasi selengkapnya, lihat Konfigurasikan rotasi otomatis untuk instans dengan pengecualian perangkat keras.
reason: NodeBroken
type: Warning
message: 'The pod is proposed to be evicted at 2024-10-16 07:21:54 +0000 UTC, reason: xxx'Tabel berikut menjelaskan bidang-bidang dalam event tersebut.
Bidang | Deskripsi |
| Bidang statis. Nilainya adalah `Warning`. |
| Jenis titik kegagalan. Dapat berupa salah satu dari berikut:
|
| Mencatat informasi detail mengenai progres self-healing. |