Topik ini menjelaskan cara menggunakan fitur pemeriksaan kesehatan daya komputasi yang disediakan oleh DLC.
Pengenalan fungsi
Dalam skenario pelatihan AI, Anda mungkin menghadapi permasalahan berikut:
Kegagalan sumber daya yang mengganggu pekerjaan dan membuang sumber daya GPU: Setelah pekerjaan menghabiskan waktu untuk memuat checkpoint model atau melakukan operasi inisialisasi lainnya, pelatihan mungkin gagal dimulai karena adanya sumber daya yang rusak. Anda kemudian harus menyelidiki masalah tersebut, mengidentifikasi sumber daya bermasalah, lalu mengirim ulang pekerjaan. Proses ini menyia-nyiakan sumber daya GPU.
Kesulitan dalam melokalisasi masalah performa dan kurangnya alat pengujian: Selama eksekusi pekerjaan, penurunan performa pelatihan model dapat disebabkan oleh node yang lambat. Namun, tidak tersedia metode cepat dan efektif untuk mengidentifikasi masalah tersebut. Selain itu, tidak tersedia program benchmark yang nyaman dan andal untuk menguji daya komputasi GPU dan performa komunikasi mesin dalam suatu kelompok sumber daya.
Untuk mengatasi permasalahan tersebut, DLC menyediakan fitur pemeriksaan kesehatan daya komputasi (SanityCheck). Fitur ini memeriksa kesehatan dan performa sumber daya daya komputasi untuk pekerjaan pelatihan terdistribusi. Anda dapat mengaktifkan fitur ini saat membuat pekerjaan pelatihan DLC. Pemeriksaan kesehatan melakukan inspeksi menyeluruh terhadap sumber daya yang digunakan untuk pelatihan, secara otomatis mengisolasi node bermasalah, dan memicu proses O&M otomatis di latar belakang. Hal ini mengurangi kemungkinan terjadinya masalah di awal pekerjaan pelatihan serta meningkatkan tingkat keberhasilan. Setelah pemeriksaan selesai, sistem menghasilkan laporan mengenai daya komputasi GPU dan performa komunikasi, yang membantu Anda mengidentifikasi serta melokalisasi faktor-faktor yang dapat menurunkan performa pelatihan, sehingga meningkatkan efisiensi diagnosis secara keseluruhan.
Batasan
Saat ini, fitur ini hanya tersedia untuk pekerjaan pelatihan PyTorch yang dibuat menggunakan Sumber daya komputasi cerdas Lingjun. Jumlah GPU untuk pekerjaan harus sesuai dengan konfigurasi mesin penuh. Sumber daya Lingjun hanya tersedia bagi pengguna yang termasuk dalam daftar putih. Untuk menggunakan fitur ini, hubungi account manager Anda.
Aktifkan pemeriksaan kesehatan
Gunakan Konsol
Saat Anda membuat pekerjaan pelatihan DLC di PAI console, Anda dapat mengaktifkan fitur pemeriksaan kesehatan dengan mengonfigurasi parameter kunci berikut. Setelah pekerjaan dibuat, sistem memerlukan waktu untuk memeriksa kesehatan dan ketersediaan sumber daya serta memberikan hasilnya.

Parameter kunci dijelaskan sebagai berikut:
Konfigurasi Resource Information:
Parameter
Deskripsi
Resource Type
Pilih Lingjun Intelligence Resources.
Source
Pilih Resource Quota.
Resource Quota
Pilih kuota sumber daya yang telah dibuat untuk Sumber daya Lingjun. Untuk informasi selengkapnya tentang cara membuat kuota sumber daya, lihat Create a resource quota.
Framework
Pilih PyTorch.
Job Resource
Jumlah GPU harus sesuai dengan konfigurasi mesin penuh.
Konfigurasi Fault Tolerance and Diagnostics: Aktifkan sakelar Health Check dan konfigurasikan parameter berikut:
Parameter
Deskripsi
Check Time
Before Job Runs (Default): Setelah pekerjaan mendapatkan resource, pemeriksaan awal dilakukan pada node daya komputasi pekerjaan pelatihan sebelum kode Anda dieksekusi.
After Job Restarts: Saat pekerjaan berjalan tidak normal, AIMaster automatic fault tolerance akan merestart pekerjaan lalu melakukan pemeriksaan kesehatan daya komputasi.
CatatanJika Anda memilih opsi ini, Anda harus mengaktifkan fitur Automatic Fault Tolerance. Untuk informasi selengkapnya, lihat AIMaster: An elastic and automatic fault tolerance engine.
Check Items
Item pemeriksaan mencakup empat kategori utama: pemeriksaan performa komputasi, pemeriksaan komunikasi node, cross-check antara komputasi dan komunikasi, serta validasi simulasi model. Untuk informasi selengkapnya mengenai item pemeriksaan dan skenario yang direkomendasikan, lihat Appendix: Check item descriptions.
Secara default, pemeriksaan GPU GEMM (untuk memeriksa performa GEMM GPU) dan pemeriksaan All-Reduce (untuk memeriksa performa komunikasi node serta mengidentifikasi node komunikasi yang lambat atau rusak) diaktifkan.
Cari atau pilih item pemeriksaan. Atau, gunakan konfigurasi cepat untuk memilih templat item pemeriksaan dengan satu klik.
Maximum Check Duration
Waktu proses maksimum untuk pemeriksaan kesehatan. Nilai default adalah 60 menit. Jika pemeriksaan timeout, kebijakan penanganan exception akan dipicu.
Exception Handling Policy
Jika pemeriksaan kesehatan gagal, sistem akan melakukan operasi terhadap pekerjaan berdasarkan kebijakan yang Anda pilih:
End Job: Jika node yang rusak atau mencurigakan terdeteksi, pekerjaan dihentikan dan ditandai sebagai "Check Failed".
Blacklist and Rerun: Jika node yang rusak atau mencurigakan terdeteksi, sistem secara otomatis memasukkan node tersebut ke dalam blacklist, merestart pekerjaan, dan menjalankan ulang pemeriksaan hingga berhasil.
Maximum Restart Count
Saat kebijakan penanganan exception diatur ke "Blacklist and Rerun", Anda dapat mengonfigurasi jumlah maksimum restart. Nilai default adalah 10. Jika jumlah restart melebihi batas ini, pekerjaan secara otomatis gagal.
Other Configurations
Secara default kosong. Mendukung pengaturan parameter lanjutan.
Lihat hasil pemeriksaan
Status pemeriksaan kesehatan
Berikut adalah status pemeriksaan kesehatan untuk pekerjaan DLC:
Checking: Pemeriksaan kesehatan daya komputasi sedang berlangsung.
Check Failed: Jika node abnormal terdeteksi atau pemeriksaan timeout selama proses pemeriksaan kesehatan, status berubah menjadi "Check Failed".
Check Passed: Setelah pemeriksaan kesehatan berhasil, pekerjaan masuk ke status "Running".
Lihat hasil pemeriksaan kesehatan
Gunakan Konsol
Pada halaman detail pekerjaan DLC, klik tab Event, lalu klik Health Check untuk melihat progres dan hasil pemeriksaan.

Klik tab Restart Records untuk melihat informasi seperti jumlah restart, alasan restart, dan hasil restart.

Konfigurasi notifikasi pesan
Buat aturan notifikasi pesan di pengaturan notifikasi event untuk ruang kerja PAI Anda. Atur parameter Event Type ke DLC Job > Automatic Fault Tolerance. Untuk informasi selengkapnya mengenai parameter lainnya, lihat Message notifications. Konfigurasi ini mengirimkan notifikasi jika pemeriksaan kesehatan daya komputasi gagal.
Untuk informasi selengkapnya tentang pembuatan notifikasi pesan di ruang kerja, lihat Event notification settings.

Lampiran: Deskripsi item pemeriksaan
Durasi perkiraan pemeriksaan didasarkan pada dua mesin. Nilai ini hanya sebagai referensi, dan durasi aktual dapat berbeda.
Item Pemeriksaan | Deskripsi (Skenario yang Direkomendasikan) | Durasi Perkiraan Pemeriksaan | |
Compute performance check | GPU GEMM | Memeriksa performa GEMM GPU. Dapat mengidentifikasi:
| 1 menit |
GPU Kernel Launch | Memeriksa latensi peluncuran kernel GPU. Dapat mengidentifikasi:
| 1 menit | |
Node communication check | All-Reduce | Memeriksa performa komunikasi node untuk mengidentifikasi node komunikasi yang lambat atau rusak. Dalam pola komunikasi yang berbeda, dapat mengidentifikasi:
| Single collective communication check 5 menit |
All-to-All | |||
All-Gather | |||
Multi-All-Reduce | |||
Network Connectivity | Memeriksa konektivitas jaringan node head atau tail untuk mengidentifikasi node dengan konektivitas komunikasi abnormal. | 2 menit | |
Cross-check for computing and communication | MatMul/All-Reduce Overlap | Memeriksa performa node tunggal saat kernel komunikasi dan komputasi tumpang tindih. Dapat mengidentifikasi:
| 1 menit |
Model simulation validation | Mini GPT | Menggunakan simulasi model untuk memvalidasi keandalan sistem AI. Dapat mengidentifikasi:
| 1 menit |
Megatron GPT | 5 menit | ||
ResNet | 2 menit | ||