全部产品
Search
文档中心

Platform For AI:SanityCheck: Pemeriksaan kesehatan daya komputasi

更新时间:Feb 12, 2026

Topik ini menjelaskan cara menggunakan fitur pemeriksaan kesehatan daya komputasi yang disediakan oleh DLC.

Pengenalan fungsi

Dalam skenario pelatihan AI, Anda mungkin menghadapi permasalahan berikut:

  • Kegagalan sumber daya yang mengganggu pekerjaan dan membuang sumber daya GPU: Setelah pekerjaan menghabiskan waktu untuk memuat checkpoint model atau melakukan operasi inisialisasi lainnya, pelatihan mungkin gagal dimulai karena adanya sumber daya yang rusak. Anda kemudian harus menyelidiki masalah tersebut, mengidentifikasi sumber daya bermasalah, lalu mengirim ulang pekerjaan. Proses ini menyia-nyiakan sumber daya GPU.

  • Kesulitan dalam melokalisasi masalah performa dan kurangnya alat pengujian: Selama eksekusi pekerjaan, penurunan performa pelatihan model dapat disebabkan oleh node yang lambat. Namun, tidak tersedia metode cepat dan efektif untuk mengidentifikasi masalah tersebut. Selain itu, tidak tersedia program benchmark yang nyaman dan andal untuk menguji daya komputasi GPU dan performa komunikasi mesin dalam suatu kelompok sumber daya.

Untuk mengatasi permasalahan tersebut, DLC menyediakan fitur pemeriksaan kesehatan daya komputasi (SanityCheck). Fitur ini memeriksa kesehatan dan performa sumber daya daya komputasi untuk pekerjaan pelatihan terdistribusi. Anda dapat mengaktifkan fitur ini saat membuat pekerjaan pelatihan DLC. Pemeriksaan kesehatan melakukan inspeksi menyeluruh terhadap sumber daya yang digunakan untuk pelatihan, secara otomatis mengisolasi node bermasalah, dan memicu proses O&M otomatis di latar belakang. Hal ini mengurangi kemungkinan terjadinya masalah di awal pekerjaan pelatihan serta meningkatkan tingkat keberhasilan. Setelah pemeriksaan selesai, sistem menghasilkan laporan mengenai daya komputasi GPU dan performa komunikasi, yang membantu Anda mengidentifikasi serta melokalisasi faktor-faktor yang dapat menurunkan performa pelatihan, sehingga meningkatkan efisiensi diagnosis secara keseluruhan.

Batasan

Saat ini, fitur ini hanya tersedia untuk pekerjaan pelatihan PyTorch yang dibuat menggunakan Sumber daya komputasi cerdas Lingjun. Jumlah GPU untuk pekerjaan harus sesuai dengan konfigurasi mesin penuh. Sumber daya Lingjun hanya tersedia bagi pengguna yang termasuk dalam daftar putih. Untuk menggunakan fitur ini, hubungi account manager Anda.

Aktifkan pemeriksaan kesehatan

Gunakan Konsol

Saat Anda membuat pekerjaan pelatihan DLC di PAI console, Anda dapat mengaktifkan fitur pemeriksaan kesehatan dengan mengonfigurasi parameter kunci berikut. Setelah pekerjaan dibuat, sistem memerlukan waktu untuk memeriksa kesehatan dan ketersediaan sumber daya serta memberikan hasilnya.

BE93F56F-FDC5-4ECF-B4D2-FCF7D7E486C1

Parameter kunci dijelaskan sebagai berikut:

  • Konfigurasi Resource Information:

    Parameter

    Deskripsi

    Resource Type

    Pilih Lingjun Intelligence Resources.

    Source

    Pilih Resource Quota.

    Resource Quota

    Pilih kuota sumber daya yang telah dibuat untuk Sumber daya Lingjun. Untuk informasi selengkapnya tentang cara membuat kuota sumber daya, lihat Create a resource quota.

    Framework

    Pilih PyTorch.

    Job Resource

    Jumlah GPU harus sesuai dengan konfigurasi mesin penuh.

  • Konfigurasi Fault Tolerance and Diagnostics: Aktifkan sakelar Health Check dan konfigurasikan parameter berikut:

    Parameter

    Deskripsi

    Check Time

    • Before Job Runs (Default): Setelah pekerjaan mendapatkan resource, pemeriksaan awal dilakukan pada node daya komputasi pekerjaan pelatihan sebelum kode Anda dieksekusi.

    • After Job Restarts: Saat pekerjaan berjalan tidak normal, AIMaster automatic fault tolerance akan merestart pekerjaan lalu melakukan pemeriksaan kesehatan daya komputasi.

      Catatan

      Jika Anda memilih opsi ini, Anda harus mengaktifkan fitur Automatic Fault Tolerance. Untuk informasi selengkapnya, lihat AIMaster: An elastic and automatic fault tolerance engine.

    Check Items

    Item pemeriksaan mencakup empat kategori utama: pemeriksaan performa komputasi, pemeriksaan komunikasi node, cross-check antara komputasi dan komunikasi, serta validasi simulasi model. Untuk informasi selengkapnya mengenai item pemeriksaan dan skenario yang direkomendasikan, lihat Appendix: Check item descriptions.

    • Secara default, pemeriksaan GPU GEMM (untuk memeriksa performa GEMM GPU) dan pemeriksaan All-Reduce (untuk memeriksa performa komunikasi node serta mengidentifikasi node komunikasi yang lambat atau rusak) diaktifkan.

    • Cari atau pilih item pemeriksaan. Atau, gunakan konfigurasi cepat untuk memilih templat item pemeriksaan dengan satu klik.

    Maximum Check Duration

    Waktu proses maksimum untuk pemeriksaan kesehatan. Nilai default adalah 60 menit. Jika pemeriksaan timeout, kebijakan penanganan exception akan dipicu.

    Exception Handling Policy

    Jika pemeriksaan kesehatan gagal, sistem akan melakukan operasi terhadap pekerjaan berdasarkan kebijakan yang Anda pilih:

    • End Job: Jika node yang rusak atau mencurigakan terdeteksi, pekerjaan dihentikan dan ditandai sebagai "Check Failed".

    • Blacklist and Rerun: Jika node yang rusak atau mencurigakan terdeteksi, sistem secara otomatis memasukkan node tersebut ke dalam blacklist, merestart pekerjaan, dan menjalankan ulang pemeriksaan hingga berhasil.

    Maximum Restart Count

    Saat kebijakan penanganan exception diatur ke "Blacklist and Rerun", Anda dapat mengonfigurasi jumlah maksimum restart. Nilai default adalah 10. Jika jumlah restart melebihi batas ini, pekerjaan secara otomatis gagal.

    Other Configurations

    Secara default kosong. Mendukung pengaturan parameter lanjutan.

Lihat hasil pemeriksaan

Status pemeriksaan kesehatan

Berikut adalah status pemeriksaan kesehatan untuk pekerjaan DLC:

  • Checking: Pemeriksaan kesehatan daya komputasi sedang berlangsung.

  • Check Failed: Jika node abnormal terdeteksi atau pemeriksaan timeout selama proses pemeriksaan kesehatan, status berubah menjadi "Check Failed".

  • Check Passed: Setelah pemeriksaan kesehatan berhasil, pekerjaan masuk ke status "Running".

Lihat hasil pemeriksaan kesehatan

Gunakan Konsol

Pada halaman detail pekerjaan DLC, klik tab Event, lalu klik Health Check untuk melihat progres dan hasil pemeriksaan.

image

Klik tab Restart Records untuk melihat informasi seperti jumlah restart, alasan restart, dan hasil restart.

image

Konfigurasi notifikasi pesan

Buat aturan notifikasi pesan di pengaturan notifikasi event untuk ruang kerja PAI Anda. Atur parameter Event Type ke DLC Job > Automatic Fault Tolerance. Untuk informasi selengkapnya mengenai parameter lainnya, lihat Message notifications. Konfigurasi ini mengirimkan notifikasi jika pemeriksaan kesehatan daya komputasi gagal.

Catatan

Untuk informasi selengkapnya tentang pembuatan notifikasi pesan di ruang kerja, lihat Event notification settings.

image

Lampiran: Deskripsi item pemeriksaan

Catatan

Durasi perkiraan pemeriksaan didasarkan pada dua mesin. Nilai ini hanya sebagai referensi, dan durasi aktual dapat berbeda.

Item Pemeriksaan

Deskripsi (Skenario yang Direkomendasikan)

Durasi Perkiraan Pemeriksaan

Compute performance check

GPU GEMM

Memeriksa performa GEMM GPU. Dapat mengidentifikasi:

  • GPU rusak: error komputasi atau hang.

  • Node lambat: TFLOPS komputasi rendah.

1 menit

GPU Kernel Launch

Memeriksa latensi peluncuran kernel GPU. Dapat mengidentifikasi:

  • Node rusak: error peluncuran kernel atau hang.

  • Node lambat: waktu peluncuran kernel lama.

1 menit

Node communication check

All-Reduce

Memeriksa performa komunikasi node untuk mengidentifikasi node komunikasi yang lambat atau rusak. Dalam pola komunikasi yang berbeda, dapat mengidentifikasi:

  • Node komunikasi rusak: error komunikasi atau hang.

  • Node komunikasi lambat: bandwidth komunikasi rendah.

Single collective communication check

5 menit

All-to-All

All-Gather

Multi-All-Reduce

Network Connectivity

Memeriksa konektivitas jaringan node head atau tail untuk mengidentifikasi node dengan konektivitas komunikasi abnormal.

2 menit

Cross-check for computing and communication

MatMul/All-Reduce Overlap

Memeriksa performa node tunggal saat kernel komunikasi dan komputasi tumpang tindih. Dapat mengidentifikasi:

  • Node rusak: error komputasi tumpang tindih atau hang.

  • Node lambat: waktu komputasi tumpang tindih lama.

1 menit

Model simulation validation

Mini GPT

Menggunakan simulasi model untuk memvalidasi keandalan sistem AI. Dapat mengidentifikasi:

  • Node rusak: loss pelatihan abnormal, pelatihan hang, atau error pelatihan.

  • Node lambat: waktu pelatihan per langkah lama.

1 menit

Megatron GPT

5 menit

ResNet

2 menit