Topik ini menjelaskan cara menggunakan fitur pemeriksaan kesehatan daya komputasi yang disediakan oleh Deep Learning Containers (DLC).
Pengenalan fungsi
Dalam skenario pelatihan AI, masalah berikut dapat terjadi:
Kegagalan sumber daya yang mengganggu pekerjaan dan membuang sumber daya GPU: Sebuah pekerjaan mungkin gagal memulai pelatihan karena sumber daya yang rusak, meskipun telah menghabiskan waktu untuk operasi inisialisasi seperti memuat checkpoint model. Hal ini mengharuskan Anda menyelidiki masalah tersebut dan mengirim ulang pekerjaan, yang berakibat pada pemborosan sumber daya GPU.
Kurangnya metode efektif untuk mendeteksi masalah performa dan pengujian: Jika performa pelatihan model menurun selama pekerjaan berjalan, node yang lambat mungkin menjadi penyebabnya. Namun, metode cepat dan efektif untuk mengidentifikasi masalah tersebut seringkali tidak tersedia. Diperlukan juga program benchmark yang nyaman dan andal untuk menguji daya komputasi GPU dan performa komunikasi antar mesin dalam kelompok sumber daya.
Untuk mengatasi masalah tersebut, DLC menyediakan fitur pemeriksaan kesehatan daya komputasi (SanityCheck). Fitur ini memeriksa kesehatan dan performa sumber daya komputasi untuk pekerjaan pelatihan terdistribusi. Anda dapat mengaktifkan fitur ini saat membuat pekerjaan pelatihan DLC. Pemeriksaan kesehatan akan memindai semua sumber daya yang digunakan untuk pelatihan, secara otomatis mengisolasi node yang rusak, dan memicu proses Operations and Maintenance (O&M) otomatis di latar belakang. Proses ini mengurangi kemungkinan terjadinya masalah di awal pelatihan dan meningkatkan tingkat keberhasilan pekerjaan. Setelah pemeriksaan selesai, sistem menyediakan laporan mengenai daya komputasi GPU dan performa komunikasi. Laporan ini membantu Anda mengidentifikasi faktor-faktor yang dapat menurunkan performa pelatihan serta meningkatkan efisiensi diagnosis.
Batasan
Fitur ini hanya mendukung pekerjaan pelatihan PyTorch yang dibuat menggunakan sumber daya Lingjun. Sumber daya pekerjaan harus mencakup setidaknya satu GPU. Sumber daya Lingjun hanya tersedia bagi pengguna dalam daftar putih. Untuk meminta akses, hubungi account manager Anda.
Aktifkan pemeriksaan kesehatan
Menggunakan Konsol
Saat Anda membuat pekerjaan DLC di Konsol PAI, Anda dapat mengaktifkan fitur pemeriksaan kesehatan dengan mengonfigurasi parameter kunci berikut. Setelah pekerjaan berhasil dibuat, sistem akan memeriksa status kesehatan dan ketersediaan sumber daya serta memberikan hasilnya. Proses ini mungkin memerlukan waktu.

Pengaturan parameter kunci dijelaskan sebagai berikut:
Konfigurasi Resource Information:
Parameter
Deskripsi
Resource Type
Pilih Lingjun AI Computing.
Source
Pilih Resource Quota.
Resource Quota
Pilih kuota sumber daya Lingjun yang sudah ada. Untuk informasi lebih lanjut tentang cara membuat kuota sumber daya, lihat Buat kuota sumber daya.
Framework
Pilih PyTorch.
Job Resource
Jumlah GPU harus lebih besar dari 0.
Konfigurasi Fault Tolerance and Diagnosis: Aktifkan sakelar Health Check dan konfigurasikan parameter berikut:
Parameter
Description
Check timing
Before job runs (Default): Setelah pekerjaan mendapatkan sumber daya, sistem terlebih dahulu melakukan pemeriksaan awal pada node komputasi untuk pekerjaan pelatihan, lalu mengeksekusi kode Anda.
After job restart: Ketika pekerjaan berjalan tidak normal dan di-restart oleh mesin toleransi kesalahan otomatis AIMaster, dilakukan pemeriksaan kesehatan.
CatatanUntuk memilih opsi ini, Anda harus mengaktifkan fitur Automatic Fault Tolerance. Untuk informasi selengkapnya, lihat AIMaster: Elastic automatic fault tolerance engine.
Check items
Secara default, pemeriksaan GPU GEMM (untuk mendeteksi performa GPU GEMM) dan pemeriksaan All-Reduce (untuk mendeteksi performa komunikasi antar-node serta mengidentifikasi node komunikasi yang lambat atau rusak) diaktifkan.
Anda dapat mencari atau memilih item pemeriksaan dari empat kategori: pemeriksaan performa komputasi, pemeriksaan komunikasi node, pemeriksaan silang komputasi dan komunikasi, serta validasi simulasi model. Untuk informasi selengkapnya mengenai item pemeriksaan dan skenario yang direkomendasikan, lihat Appendix: Check item descriptions.
Maximum check duration
Waktu proses maksimum untuk pemeriksaan kesehatan. Nilai default-nya adalah 60 menit. Jika pemeriksaan melebihi batas waktu tersebut, kebijakan penanganan eksepsi akan dipicu.
Exception handling policy
Ketika pemeriksaan kesehatan gagal, sistem menangani pekerjaan berdasarkan kebijakan yang Anda pilih:
End job: Jika terdeteksi node yang rusak atau mencurigakan, pekerjaan dihentikan dan ditandai sebagai Check failed.
Block and rerun: Jika terdeteksi node yang rusak atau mencurigakan, sistem secara otomatis memblokir node tersebut, me-restart pekerjaan, dan menjalankan ulang pemeriksaan hingga berhasil.
Maximum number of restarts
Ketika kebijakan penanganan eksepsi diatur ke "Block and rerun", Anda dapat mengonfigurasi jumlah maksimum restart. Nilai default-nya adalah 10. Jika jumlah restart melebihi batas ini, pekerjaan akan gagal secara otomatis.
Other check configurations
Kosong secara default. Mendukung pengaturan parameter advanced.
Lihat hasil pemeriksaan
Status pemeriksaan kesehatan
Pekerjaan DLC dapat memiliki status berikut selama pemeriksaan kesehatan:
Checking: Pemeriksaan kesehatan daya komputasi sedang berlangsung.
Check failed: Jika node abnormal terdeteksi atau pemeriksaan melebihi batas waktu, status berubah menjadi Check failed.
Check passed: Setelah pemeriksaan kesehatan berhasil, pekerjaan memasuki status Running.
Lihat hasil pemeriksaan kesehatan
Menggunakan Konsol
Pada halaman detail pekerjaan DLC, buka tab Events dan klik Health Check untuk melihat progres dan hasil pemeriksaan.

Klik tab Restart Records untuk melihat informasi seperti jumlah pemulai ulang, alasan pemulai ulang, dan hasil pemulai ulang.

Konfigurasi notifikasi
Anda dapat membuat aturan notifikasi di pengaturan notifikasi event ruang kerja PAI Anda. Atur Event Type ke DLC Job > Job Automatic Fault Tolerance. Untuk informasi lebih lanjut tentang parameter lainnya, lihat Notifikasi. Notifikasi dikirim saat pemeriksaan kesehatan daya komputasi gagal.
Untuk petunjuk membuat aturan notifikasi di ruang kerja, lihat Pengaturan notifikasi event.

Lampiran: Deskripsi item pemeriksaan
Durasi perkiraan pemeriksaan didasarkan pada dua mesin dan hanya sebagai referensi. Durasi aktual dapat bervariasi.
Item pemeriksaan | Deskripsi (Skenario yang direkomendasikan) | Durasi perkiraan | |
Computing performance check | GPU GEMM | Mendeteksi performa GPU GEMM. Dapat mengidentifikasi:
| 1 menit |
GPU Kernel Launch | Mendeteksi latensi peluncuran kernel GPU. Dapat mengidentifikasi:
| 1 menit | |
Node communication check | All-Reduce | Mendeteksi performa komunikasi node dan mengidentifikasi node komunikasi yang lambat atau rusak. Dalam mode komunikasi berbeda, dapat mengidentifikasi:
| Single collective communication check 5 menit |
All-to-All | |||
All-Gather | |||
Multi-All-Reduce | |||
Network Connectivity | Mendeteksi konektivitas jaringan node head atau tail. Mengidentifikasi node dengan konektivitas komunikasi abnormal. | 2 menit | |
Computing and communication cross-check | MatMul/All-Reduce Overlap | Mendeteksi performa node tunggal saat kernel komunikasi dan komputasi tumpang tindih. Dapat mengidentifikasi:
| 1 menit |
Model simulation validation | Mini GPT | Menggunakan simulasi model untuk memverifikasi keandalan sistem AI. Dapat mengidentifikasi:
| 1 menit |
Megatron GPT | 5 menit | ||
ResNet | 2 menit | ||