全部产品
Search
文档中心

Container Compute Service:Pemantauan dan perbaikan node GPU-HPN

更新时间:Jun 28, 2025

Kegagalan pada node GPU-HPN dapat menyebabkan penundaan atau bahkan penghentian pekerjaan pelatihan AI. Klaster ACS menyediakan kemampuan pemecahan masalah untuk node GPU-HPN. Ketika sebuah node mengalami kegagalan, ACS menandai node tersebut dan menghasilkan event Kubernetes atau kondisi. Topik ini menjelaskan metrik pemantauan node GPU-HPN, metode pengumpulan metrik, serta prosedur untuk memperbaiki node GPU-HPN.

Prosedur pemecahan masalah node

ACS secara berkala melakukan pemeriksaan kesehatan pada node GPU-HPN. Jika terjadi kegagalan pada node, ikuti prosedur berikut dan bekerja sama dengan mekanisme pemulihan otomatis ACS untuk memperbaiki node tersebut.

  1. Notifikasi Kegagalan

    ACS menghasilkan event atau kondisi node ketika terjadi kegagalan, serta menambahkan taint ke node tersebut sehingga pod tidak akan dijadwalkan ke node yang bermasalah.

  2. Pengusiran Node

    Setelah menerima notifikasi, segera usir pod dari node yang bermasalah.

  3. Perbaikan Node

    Setelah pod diusir, ACS secara otomatis akan memperbaiki node tersebut.

  4. Pemulihan Node

    Setelah ACS memperbaiki node, taint dan status node dipulihkan, sehingga pod baru dapat dijadwalkan ke node tersebut.

Notifikasi kegagalan

ACS mendeteksi informasi kegagalan node GPU-HPN melalui pod, kondisi, atau event.

Node

  • ACS menambahkan label ke node yang bermasalah untuk menandainya.

    metadata:
      labels:
        alibabacloud.com/node-anomaly: "true"
  • ACS menambahkan alibabacloud.com/node-anomaly taint ke node sehingga pod tidak dijadwalkan ke node tersebut.

    spec:
      taints:
      - effect: NoSchedule
        key: alibabacloud.com/node-anomaly
        timeAdded: "2024-10-16T06:09:27Z"
  • ACS mencatat informasi kegagalan terperinci di bagian conditions (NodeAnomaly) dari node.

    status:
      conditions:
      - lastHeartbeatTime: "2024-10-16T06:09:31Z"
        lastTransitionTime: "2024-10-16T06:09:31Z"
        message: Node telah mengalami anomali.
        reason: NodeBroken
        status: "True"
        type: NodeAnomaly

    Tabel berikut menjelaskan bidang-bidang di bagian conditions.

    Bidang

    Deskripsi

    Waktu Pembaruan

    type

    NodeAnomaly, yang menunjukkan bahwa node tersebut abnormal.

    Nilai tetap selama siklus hidup node.

    status

    Menunjukkan apakah node mengalami kegagalan:

    • True: mengalami kegagalan.

    • False: tidak mengalami kegagalan.

    Diperbarui ketika status node berubah.

    reason

    Jenis kegagalan. Nilai valid:

    • NodeBroken: Node GPU-HPN mengalami kegagalan.

    • GPUCardBroken: GPU mengalami kegagalan.

    Diperbarui ketika status node berubah.

    message

    Informasi kegagalan terperinci.

    Diperbarui ketika status node berubah.

    lastTransitionTime

    Waktu terjadinya kegagalan.

    Diperbarui ketika status node berubah.

    lastHeartbeatTime

    Waktu heartbeat terakhir, yang diperbarui secara berkala.

    Diperbarui ketika status node berubah atau setelah 5 menit dari pembaruan terakhir.

  • Informasi pemulihan otomatis terperinci dicatat di conditions (FaultHealing) dari node. Diperbarui sesuai dengan kemajuan pemulihan otomatis.

    status:
      conditions:
      - lastHeartbeatTime: "2025-03-24T11:14:48Z"
        lastTransitionTime: "2025-03-24T11:14:48Z"
        message: pemulihan kegagalan node berhasil
        reason: Success
        status: "False"
        type: FaultHealing

    Tabel berikut menjelaskan bidang-bidang di bagian conditions.

    Bidang

    Deskripsi

    type

    FaultHealing, yang menunjukkan bahwa pemulihan otomatis sedang berlangsung.

    status

    Menunjukkan apakah node sedang dalam pemulihan.

    • True: sedang memulihkan.

    • False: sudah pulih.

    reason

    Status pemulihan.

    • Success dan Finished: sudah pulih.

    • InProgress: sedang memulihkan.

    • Failed: pemulihan otomatis gagal.

    message

    Kemajuan pemulihan otomatis terperinci.

    lastTransitionTime

    Diperbarui dengan kemajuan pemulihan otomatis.

    lastHeartbeatTime

    Diperbarui dengan kemajuan pemulihan otomatis.

Pod Event

Pod yang sudah di-hosting pada node yang bermasalah akan menerima event Peringatan.

Penting

Disarankan agar Anda segera mengusir pod pada node setelah menerima notifikasi. ACS mulai memperbaiki node setelah semua pod diusir.

reason: NodeBroken
type: Warning
message: 'Pod diusulkan untuk diusir pada 2024-10-16 07:21:54 +0000 UTC, alasan: xxx'

Tabel berikut menjelaskan bidang-bidang di Event.

Bidang

Deskripsi

type

Tetap menjadi Peringatan.

reason

Jenis kegagalan. Nilainya bervariasi berdasarkan sumber aturan:

  • NodeBroken: Node GPU-HPN mengalami kegagalan.

  • GPUCardBroken: GPU mengalami kegagalan.

message

Kemajuan pemulihan otomatis terperinci.