全部产品
Search
文档中心

Platform For AI:SanityCheck: Pemeriksaan kesehatan daya komputasi

更新时间:Jan 14, 2026

Topik ini menjelaskan cara menggunakan fitur pemeriksaan kesehatan daya komputasi yang disediakan oleh Deep Learning Containers (DLC).

Pengenalan fungsi

Dalam skenario pelatihan AI, masalah berikut dapat terjadi:

  • Kegagalan sumber daya yang mengganggu pekerjaan dan membuang sumber daya GPU: Sebuah pekerjaan mungkin gagal memulai pelatihan karena sumber daya yang rusak, meskipun telah menghabiskan waktu untuk operasi inisialisasi seperti memuat checkpoint model. Hal ini mengharuskan Anda menyelidiki masalah tersebut dan mengirim ulang pekerjaan, yang berakibat pada pemborosan sumber daya GPU.

  • Kurangnya metode efektif untuk mendeteksi masalah performa dan pengujian: Jika performa pelatihan model menurun selama pekerjaan berjalan, node yang lambat mungkin menjadi penyebabnya. Namun, metode cepat dan efektif untuk mengidentifikasi masalah tersebut seringkali tidak tersedia. Diperlukan juga program benchmark yang nyaman dan andal untuk menguji daya komputasi GPU dan performa komunikasi antar mesin dalam kelompok sumber daya.

Untuk mengatasi masalah tersebut, DLC menyediakan fitur pemeriksaan kesehatan daya komputasi (SanityCheck). Fitur ini memeriksa kesehatan dan performa sumber daya komputasi untuk pekerjaan pelatihan terdistribusi. Anda dapat mengaktifkan fitur ini saat membuat pekerjaan pelatihan DLC. Pemeriksaan kesehatan akan memindai semua sumber daya yang digunakan untuk pelatihan, secara otomatis mengisolasi node yang rusak, dan memicu proses Operations and Maintenance (O&M) otomatis di latar belakang. Proses ini mengurangi kemungkinan terjadinya masalah di awal pelatihan dan meningkatkan tingkat keberhasilan pekerjaan. Setelah pemeriksaan selesai, sistem menyediakan laporan mengenai daya komputasi GPU dan performa komunikasi. Laporan ini membantu Anda mengidentifikasi faktor-faktor yang dapat menurunkan performa pelatihan serta meningkatkan efisiensi diagnosis.

Batasan

Fitur ini hanya mendukung pekerjaan pelatihan PyTorch yang dibuat menggunakan sumber daya Lingjun. Sumber daya pekerjaan harus mencakup setidaknya satu GPU. Sumber daya Lingjun hanya tersedia bagi pengguna dalam daftar putih. Untuk meminta akses, hubungi account manager Anda.

Aktifkan pemeriksaan kesehatan

Menggunakan Konsol

Saat Anda membuat pekerjaan DLC di Konsol PAI, Anda dapat mengaktifkan fitur pemeriksaan kesehatan dengan mengonfigurasi parameter kunci berikut. Setelah pekerjaan berhasil dibuat, sistem akan memeriksa status kesehatan dan ketersediaan sumber daya serta memberikan hasilnya. Proses ini mungkin memerlukan waktu.

image

Pengaturan parameter kunci dijelaskan sebagai berikut:

  • Konfigurasi Resource Information:

    Parameter

    Deskripsi

    Resource Type

    Pilih Lingjun AI Computing.

    Source

    Pilih Resource Quota.

    Resource Quota

    Pilih kuota sumber daya Lingjun yang sudah ada. Untuk informasi lebih lanjut tentang cara membuat kuota sumber daya, lihat Buat kuota sumber daya.

    Framework

    Pilih PyTorch.

    Job Resource

    Jumlah GPU harus lebih besar dari 0.

  • Konfigurasi Fault Tolerance and Diagnosis: Aktifkan sakelar Health Check dan konfigurasikan parameter berikut:

    Parameter

    Description

    Check timing

    • Before job runs (Default): Setelah pekerjaan mendapatkan sumber daya, sistem terlebih dahulu melakukan pemeriksaan awal pada node komputasi untuk pekerjaan pelatihan, lalu mengeksekusi kode Anda.

    • After job restart: Ketika pekerjaan berjalan tidak normal dan di-restart oleh mesin toleransi kesalahan otomatis AIMaster, dilakukan pemeriksaan kesehatan.

      Catatan

      Untuk memilih opsi ini, Anda harus mengaktifkan fitur Automatic Fault Tolerance. Untuk informasi selengkapnya, lihat AIMaster: Elastic automatic fault tolerance engine.

    Check items

    Secara default, pemeriksaan GPU GEMM (untuk mendeteksi performa GPU GEMM) dan pemeriksaan All-Reduce (untuk mendeteksi performa komunikasi antar-node serta mengidentifikasi node komunikasi yang lambat atau rusak) diaktifkan.

    Anda dapat mencari atau memilih item pemeriksaan dari empat kategori: pemeriksaan performa komputasi, pemeriksaan komunikasi node, pemeriksaan silang komputasi dan komunikasi, serta validasi simulasi model. Untuk informasi selengkapnya mengenai item pemeriksaan dan skenario yang direkomendasikan, lihat Appendix: Check item descriptions.

    Maximum check duration

    Waktu proses maksimum untuk pemeriksaan kesehatan. Nilai default-nya adalah 60 menit. Jika pemeriksaan melebihi batas waktu tersebut, kebijakan penanganan eksepsi akan dipicu.

    Exception handling policy

    Ketika pemeriksaan kesehatan gagal, sistem menangani pekerjaan berdasarkan kebijakan yang Anda pilih:

    • End job: Jika terdeteksi node yang rusak atau mencurigakan, pekerjaan dihentikan dan ditandai sebagai Check failed.

    • Block and rerun: Jika terdeteksi node yang rusak atau mencurigakan, sistem secara otomatis memblokir node tersebut, me-restart pekerjaan, dan menjalankan ulang pemeriksaan hingga berhasil.

    Maximum number of restarts

    Ketika kebijakan penanganan eksepsi diatur ke "Block and rerun", Anda dapat mengonfigurasi jumlah maksimum restart. Nilai default-nya adalah 10. Jika jumlah restart melebihi batas ini, pekerjaan akan gagal secara otomatis.

    Other check configurations

    Kosong secara default. Mendukung pengaturan parameter advanced.

Lihat hasil pemeriksaan

Status pemeriksaan kesehatan

Pekerjaan DLC dapat memiliki status berikut selama pemeriksaan kesehatan:

  • Checking: Pemeriksaan kesehatan daya komputasi sedang berlangsung.

  • Check failed: Jika node abnormal terdeteksi atau pemeriksaan melebihi batas waktu, status berubah menjadi Check failed.

  • Check passed: Setelah pemeriksaan kesehatan berhasil, pekerjaan memasuki status Running.

Lihat hasil pemeriksaan kesehatan

Menggunakan Konsol

Pada halaman detail pekerjaan DLC, buka tab Events dan klik Health Check untuk melihat progres dan hasil pemeriksaan.

image

Klik tab Restart Records untuk melihat informasi seperti jumlah pemulai ulang, alasan pemulai ulang, dan hasil pemulai ulang.

image

Konfigurasi notifikasi

Anda dapat membuat aturan notifikasi di pengaturan notifikasi event ruang kerja PAI Anda. Atur Event Type ke DLC Job > Job Automatic Fault Tolerance. Untuk informasi lebih lanjut tentang parameter lainnya, lihat Notifikasi. Notifikasi dikirim saat pemeriksaan kesehatan daya komputasi gagal.

Catatan

Untuk petunjuk membuat aturan notifikasi di ruang kerja, lihat Pengaturan notifikasi event.

image

Lampiran: Deskripsi item pemeriksaan

Catatan

Durasi perkiraan pemeriksaan didasarkan pada dua mesin dan hanya sebagai referensi. Durasi aktual dapat bervariasi.

Item pemeriksaan

Deskripsi (Skenario yang direkomendasikan)

Durasi perkiraan

Computing performance check

GPU GEMM

Mendeteksi performa GPU GEMM. Dapat mengidentifikasi:

  • GPU rusak: error komputasi atau hang.

  • Node lambat: TFLOPS komputasi rendah.

1 menit

GPU Kernel Launch

Mendeteksi latensi peluncuran kernel GPU. Dapat mengidentifikasi:

  • Node rusak: error peluncuran kernel atau hang.

  • Node lambat: waktu peluncuran kernel lama.

1 menit

Node communication check

All-Reduce

Mendeteksi performa komunikasi node dan mengidentifikasi node komunikasi yang lambat atau rusak. Dalam mode komunikasi berbeda, dapat mengidentifikasi:

  • Node gangguan komunikasi: error komunikasi atau hang.

  • Node komunikasi lambat: bandwidth komunikasi rendah.

Single collective communication check

5 menit

All-to-All

All-Gather

Multi-All-Reduce

Network Connectivity

Mendeteksi konektivitas jaringan node head atau tail. Mengidentifikasi node dengan konektivitas komunikasi abnormal.

2 menit

Computing and communication cross-check

MatMul/All-Reduce Overlap

Mendeteksi performa node tunggal saat kernel komunikasi dan komputasi tumpang tindih. Dapat mengidentifikasi:

  • Node rusak: error komputasi overlap atau hang.

  • Node lambat: waktu komputasi overlap lama.

1 menit

Model simulation validation

Mini GPT

Menggunakan simulasi model untuk memverifikasi keandalan sistem AI. Dapat mengidentifikasi:

  • Node rusak: loss pelatihan abnormal, pelatihan hang, atau error pelatihan.

  • Node lambat: waktu lama untuk satu langkah pelatihan.

1 menit

Megatron GPT

5 menit

ResNet

2 menit