Aktifkan fitur pemeriksaan kesehatan saat membuat pekerjaan DLC - Platform For AI

Topik ini menjelaskan cara menggunakan fitur pemeriksaan kesehatan daya komputasi yang disediakan oleh DLC.

Pengenalan fungsi

Dalam skenario pelatihan AI, Anda mungkin menghadapi permasalahan berikut:

Kegagalan sumber daya yang mengganggu pekerjaan dan membuang sumber daya GPU: Setelah pekerjaan menghabiskan waktu untuk memuat checkpoint model atau melakukan operasi inisialisasi lainnya, pelatihan mungkin gagal dimulai karena adanya sumber daya yang rusak. Anda kemudian harus menyelidiki masalah tersebut, mengidentifikasi sumber daya bermasalah, lalu mengirim ulang pekerjaan. Proses ini menyia-nyiakan sumber daya GPU.
Kesulitan dalam melokalisasi masalah performa dan kurangnya alat pengujian: Selama eksekusi pekerjaan, penurunan performa pelatihan model dapat disebabkan oleh node yang lambat. Namun, tidak tersedia metode cepat dan efektif untuk mengidentifikasi masalah tersebut. Selain itu, tidak tersedia program benchmark yang nyaman dan andal untuk menguji daya komputasi GPU dan performa komunikasi mesin dalam suatu kelompok sumber daya.

Untuk mengatasi permasalahan tersebut, DLC menyediakan fitur pemeriksaan kesehatan daya komputasi (SanityCheck). Fitur ini memeriksa kesehatan dan performa sumber daya daya komputasi untuk pekerjaan pelatihan terdistribusi. Anda dapat mengaktifkan fitur ini saat membuat pekerjaan pelatihan DLC. Pemeriksaan kesehatan melakukan inspeksi menyeluruh terhadap sumber daya yang digunakan untuk pelatihan, secara otomatis mengisolasi node bermasalah, dan memicu proses O&M otomatis di latar belakang. Hal ini mengurangi kemungkinan terjadinya masalah di awal pekerjaan pelatihan serta meningkatkan tingkat keberhasilan. Setelah pemeriksaan selesai, sistem menghasilkan laporan mengenai daya komputasi GPU dan performa komunikasi, yang membantu Anda mengidentifikasi serta melokalisasi faktor-faktor yang dapat menurunkan performa pelatihan, sehingga meningkatkan efisiensi diagnosis secara keseluruhan.

Batasan

Saat ini, fitur ini hanya tersedia untuk pekerjaan pelatihan PyTorch yang dibuat menggunakan Sumber daya komputasi cerdas Lingjun. Jumlah GPU untuk pekerjaan harus sesuai dengan konfigurasi mesin penuh. Sumber daya Lingjun hanya tersedia bagi pengguna yang termasuk dalam daftar putih. Untuk menggunakan fitur ini, hubungi account manager Anda.

Aktifkan pemeriksaan kesehatan

Gunakan Konsol

Saat Anda membuat pekerjaan pelatihan DLC di PAI console, Anda dapat mengaktifkan fitur pemeriksaan kesehatan dengan mengonfigurasi parameter kunci berikut. Setelah pekerjaan dibuat, sistem memerlukan waktu untuk memeriksa kesehatan dan ketersediaan sumber daya serta memberikan hasilnya.

BE93F56F-FDC5-4ECF-B4D2-FCF7D7E486C1

Parameter kunci dijelaskan sebagai berikut:

Konfigurasi Resource Information:

Parameter	Deskripsi
Resource Type	Pilih Lingjun Intelligence Resources.
Source	Pilih Resource Quota.
Resource Quota	Pilih kuota sumber daya yang telah dibuat untuk Sumber daya Lingjun. Untuk informasi selengkapnya tentang cara membuat kuota sumber daya, lihat Create a resource quota.
Framework	Pilih PyTorch.
Job Resource	Jumlah GPU harus sesuai dengan konfigurasi mesin penuh.

Konfigurasi Fault Tolerance and Diagnostics: Aktifkan sakelar Health Check dan konfigurasikan parameter berikut:

Parameter	Deskripsi
Check Time	Before Job Runs (Default): Setelah pekerjaan mendapatkan resource, pemeriksaan awal dilakukan pada node daya komputasi pekerjaan pelatihan sebelum kode Anda dieksekusi. After Job Restarts: Saat pekerjaan berjalan tidak normal, AIMaster automatic fault tolerance akan merestart pekerjaan lalu melakukan pemeriksaan kesehatan daya komputasi. Catatan Jika Anda memilih opsi ini, Anda harus mengaktifkan fitur Automatic Fault Tolerance. Untuk informasi selengkapnya, lihat AIMaster: An elastic and automatic fault tolerance engine.
Check Items	Item pemeriksaan mencakup empat kategori utama: pemeriksaan performa komputasi, pemeriksaan komunikasi node, cross-check antara komputasi dan komunikasi, serta validasi simulasi model. Untuk informasi selengkapnya mengenai item pemeriksaan dan skenario yang direkomendasikan, lihat Appendix: Check item descriptions. Secara default, pemeriksaan GPU GEMM (untuk memeriksa performa GEMM GPU) dan pemeriksaan All-Reduce (untuk memeriksa performa komunikasi node serta mengidentifikasi node komunikasi yang lambat atau rusak) diaktifkan. Cari atau pilih item pemeriksaan. Atau, gunakan konfigurasi cepat untuk memilih templat item pemeriksaan dengan satu klik.
Maximum Check Duration	Waktu proses maksimum untuk pemeriksaan kesehatan. Nilai default adalah 60 menit. Jika pemeriksaan timeout, kebijakan penanganan exception akan dipicu.
Exception Handling Policy	Jika pemeriksaan kesehatan gagal, sistem akan melakukan operasi terhadap pekerjaan berdasarkan kebijakan yang Anda pilih: End Job: Jika node yang rusak atau mencurigakan terdeteksi, pekerjaan dihentikan dan ditandai sebagai "Check Failed". Blacklist and Rerun: Jika node yang rusak atau mencurigakan terdeteksi, sistem secara otomatis memasukkan node tersebut ke dalam blacklist, merestart pekerjaan, dan menjalankan ulang pemeriksaan hingga berhasil.
Maximum Restart Count	Saat kebijakan penanganan exception diatur ke "Blacklist and Rerun", Anda dapat mengonfigurasi jumlah maksimum restart. Nilai default adalah 10. Jika jumlah restart melebihi batas ini, pekerjaan secara otomatis gagal.
Other Configurations	Secara default kosong. Mendukung pengaturan parameter lanjutan.

Lihat hasil pemeriksaan

Status pemeriksaan kesehatan

Berikut adalah status pemeriksaan kesehatan untuk pekerjaan DLC:

Checking: Pemeriksaan kesehatan daya komputasi sedang berlangsung.
Check Failed: Jika node abnormal terdeteksi atau pemeriksaan timeout selama proses pemeriksaan kesehatan, status berubah menjadi "Check Failed".
Check Passed: Setelah pemeriksaan kesehatan berhasil, pekerjaan masuk ke status "Running".

Lihat hasil pemeriksaan kesehatan

Gunakan Konsol

Pada halaman detail pekerjaan DLC, klik tab Event, lalu klik Health Check untuk melihat progres dan hasil pemeriksaan.

Klik tab Restart Records untuk melihat informasi seperti jumlah restart, alasan restart, dan hasil restart.

Konfigurasi notifikasi pesan

Buat aturan notifikasi pesan di pengaturan notifikasi event untuk ruang kerja PAI Anda. Atur parameter Event Type ke DLC Job > Automatic Fault Tolerance. Untuk informasi selengkapnya mengenai parameter lainnya, lihat Message notifications. Konfigurasi ini mengirimkan notifikasi jika pemeriksaan kesehatan daya komputasi gagal.

Catatan

Untuk informasi selengkapnya tentang pembuatan notifikasi pesan di ruang kerja, lihat Event notification settings.

Lampiran: Deskripsi item pemeriksaan

Catatan

Durasi perkiraan pemeriksaan didasarkan pada dua mesin. Nilai ini hanya sebagai referensi, dan durasi aktual dapat berbeda.

Item Pemeriksaan		Deskripsi (Skenario yang Direkomendasikan)	Durasi Perkiraan Pemeriksaan
Compute performance check	GPU GEMM	Memeriksa performa GEMM GPU. Dapat mengidentifikasi: GPU rusak: error komputasi atau hang. Node lambat: TFLOPS komputasi rendah.	1 menit
Compute performance check	GPU Kernel Launch	Memeriksa latensi peluncuran kernel GPU. Dapat mengidentifikasi: Node rusak: error peluncuran kernel atau hang. Node lambat: waktu peluncuran kernel lama.	1 menit
Node communication check	All-Reduce	Memeriksa performa komunikasi node untuk mengidentifikasi node komunikasi yang lambat atau rusak. Dalam pola komunikasi yang berbeda, dapat mengidentifikasi: Node komunikasi rusak: error komunikasi atau hang. Node komunikasi lambat: bandwidth komunikasi rendah.	Single collective communication check 5 menit
	All-to-All
	All-Gather
	Multi-All-Reduce
	Network Connectivity	Memeriksa konektivitas jaringan node head atau tail untuk mengidentifikasi node dengan konektivitas komunikasi abnormal.	2 menit
Cross-check for computing and communication	MatMul/All-Reduce Overlap	Memeriksa performa node tunggal saat kernel komunikasi dan komputasi tumpang tindih. Dapat mengidentifikasi: Node rusak: error komputasi tumpang tindih atau hang. Node lambat: waktu komputasi tumpang tindih lama.	1 menit
Model simulation validation	Mini GPT	Menggunakan simulasi model untuk memvalidasi keandalan sistem AI. Dapat mengidentifikasi: Node rusak: loss pelatihan abnormal, pelatihan hang, atau error pelatihan. Node lambat: waktu pelatihan per langkah lama.	1 menit
	Megatron GPT		5 menit
	ResNet		2 menit