All Products
Search
Document Center

Container Compute Service:Memantau dan memulihkan dari titik kegagalan node GPU-HPN

Last Updated:Feb 12, 2026

Selama pelatihan AI, titik kegagalan pada node GPU dapat menyebabkan tugas hang atau berhenti secara abnormal, yang berdampak pada efisiensi tugas. Alibaba Cloud Container Service for Kubernetes (ACS) menyediakan pemantauan titik kegagalan untuk node GPU-HPN. Jika suatu node mengalami anomali, ACS akan menandai node tersebut dan melaporkan masalahnya melalui event dan condition Kubernetes. Topik ini menjelaskan metrik titik kegagalan, metode pengambilan data, serta proses pemulihan untuk node GPU-HPN.

Proses penanganan titik kegagalan node

ACS secara terus-menerus menjalankan pemeriksaan kesehatan pada node GPU-HPN. Jika suatu node gagal, ikuti proses berikut untuk memperbaiki node yang bermasalah menggunakan mekanisme self-healing ACS.

image
  1. Notifikasi Gangguan

    ACS melaporkan penyebab titik kegagalan melalui event dan condition node. ACS juga menambahkan taint ke node tersebut untuk mencegah penjadwalan Pod baru ke node itu.

  2. Drain Node yang Bermasalah

    Setelah menerima notifikasi titik kegagalan, Anda harus segera mengosongkan Pod dari node yang bermasalah. Anda dapat menggunakan acs-instance-helper untuk mengosongkan Pod secara otomatis. Untuk informasi selengkapnya, lihat Konfigurasikan rotasi otomatis untuk instans dengan pengecualian perangkat keras.

  3. Perbaiki Node yang Bermasalah

    Setelah node yang bermasalah dikosongkan, ACS secara otomatis memulai proses perbaikan.

  4. Self-Recovery Node

    Setelah ACS memperbaiki node, taint dan condition terkait pada node tersebut secara otomatis dipulihkan ke kondisi normal. Pod baru kemudian dapat dijadwalkan ke node tersebut.

Notifikasi titik kegagalan

Penting

Untuk memastikan penanganan titik kegagalan yang cepat, konfigurasikan kondisi alert menggunakan kube-eventer. Untuk informasi selengkapnya, lihat kube-eventer.

Ketika node GPU-HPN mengalami titik kegagalan, ACS menyediakan informasi titik kegagalan melalui condition pada objek Node dan event pada Pod terkait.

Node

  • Label anomali ditambahkan ke node untuk keperluan penyaringan dan peninjauan.

    metadata:
      labels:
        alibabacloud.com/node-anomaly: "true"
  • Taint bernama alibabacloud.com/node-anomaly ditambahkan ke node. Secara default, Pod yang baru diajukan tidak dijadwalkan ke node ini.

    spec:
      taints:
      - effect: NoSchedule
        key: alibabacloud.com/node-anomaly
        timeAdded: "2024-10-16T06:09:27Z"
  • Informasi titik kegagalan detail dicatat dalam bidang conditions node pada condition bertipe `NodeAnomaly`.

    status:
      conditions:
      - lastHeartbeatTime: "2024-10-16T06:09:31Z"
        lastTransitionTime: "2024-10-16T06:09:31Z"
        message: The node has encountered an anomaly.
        reason: NodeBroken
        status: "True"
        type: NodeAnomaly

    Bidang-bidang dalam conditions adalah sebagai berikut:

    Bidang

    Deskripsi

    Kapan Diperbarui

    type

    `NodeAnomaly`. Menunjukkan adanya anomali pada node.

    Bidang statis. Tidak berubah selama siklus hidup node.

    status

    Menunjukkan apakah terdapat titik kegagalan.

    • True: Terdapat titik kegagalan.

    • False: Tidak terdapat titik kegagalan.

    Diperbarui saat status titik kegagalan node berubah.

    reason

    Jenis titik kegagalan. Dapat berupa salah satu dari berikut:

    • NodeBroken: Seluruh node GPU-HPN mengalami kegagalan.

    • GPUCardBroken: Terjadi kegagalan pada level kartu GPU.

    • NodeMaintenance: Node GPU-HPN sedang menjalani peningkatan sistem atau O&M.

    Diperbarui saat status titik kegagalan node berubah.

    message

    Mencatat informasi detail mengenai titik kegagalan.

    Diperbarui saat status titik kegagalan node berubah.

    lastTransitionTime

    Waktu terakhir status titik kegagalan berubah.

    Diperbarui saat status titik kegagalan node berubah.

    lastHeartbeatTime

    Waktu heartbeat yang diperbarui secara berkala.

    Diperbarui saat status titik kegagalan node berubah atau jika telah berlalu lebih dari lima menit sejak pembaruan terakhir.

  • Informasi self-healing detail dicatat dalam bidang conditions node pada condition bertipe `FaultHealing`. Condition ini diperbarui seiring perkembangan proses self-healing.

    status:
      conditions:
      - lastHeartbeatTime: "2025-03-24T11:14:48Z"
        lastTransitionTime: "2025-03-24T11:14:48Z"
        message: node fault healing success
        reason: Success
        status: "False"
        type: FaultHealing

    Bagian ini menjelaskan bidang-bidang dalam conditions:

    Bidang

    Deskripsi

    type

    `FaultHealing`. Menunjukkan bahwa node sedang dalam proses self-healing.

    status

    Menunjukkan apakah node sedang dalam proses self-healing.

    • True: Self-healing sedang berlangsung.

    • False: Self-healing telah selesai.

    reason

    Status self-healing node.

    • `Success`, `Finished`: Self-healing telah selesai.

    • `InProgress`: Self-healing sedang berlangsung.

    • `Failed`: Self-healing gagal.

    message

    Mencatat informasi detail mengenai progres self-healing.

    lastTransitionTime

    Diperbarui saat progres self-healing berubah.

    lastHeartbeatTime

    Diperbarui saat progres self-healing berubah.

Pod Event

Event bertipe Warning dihasilkan untuk Pod yang sedang berjalan pada node yang bermasalah.

Penting

Setelah menerima informasi titik kegagalan, segera kosongkan Pod dari node yang bermasalah. ACS secara otomatis memulai proses perbaikan dan self-healing node setelah semua Pod dikosongkan. Anda dapat menggunakan acs-instance-helper untuk mengosongkan Pod secara otomatis. Untuk informasi selengkapnya, lihat Konfigurasikan rotasi otomatis untuk instans dengan pengecualian perangkat keras.

reason: NodeBroken
type: Warning
message: 'The pod is proposed to be evicted at 2024-10-16 07:21:54 +0000 UTC, reason: xxx'

Tabel berikut menjelaskan bidang-bidang dalam event tersebut.

Bidang

Deskripsi

type

Bidang statis. Nilainya adalah `Warning`.

reason

Jenis titik kegagalan. Dapat berupa salah satu dari berikut:

  • NodeBroken: Seluruh node GPU-HPN mengalami kegagalan.

  • GPUCardBroken: Terjadi kegagalan pada level kartu GPU.

  • NodeMaintenance: Node GPU-HPN sedang menjalani peningkatan sistem atau O&M.

message

Mencatat informasi detail mengenai progres self-healing.