Topik ini menjelaskan cara menggunakan fitur pemeriksaan sanity yang disediakan oleh Deep Learning Containers (DLC).
Ikhtisar
Anda mungkin mengalami masalah berikut saat menjalankan pekerjaan DLC di Platform for AI (PAI):
Kegagalan pekerjaan dan pemborosan sumber daya GPU akibat kegagalan sumber daya: Pekerjaan gagal setelah memuat checkpoint model atau melakukan operasi inisialisasi lainnya karena kegagalan sumber daya. Proses pemecahan masalah sebelum menyerahkan ulang pekerjaan menyebabkan pemborosan sumber daya GPU.
Metode identifikasi masalah kinerja dan pengujian yang tidak mencukupi: Kinerja model menurun selama pelatihan karena node lambat, tetapi sulit untuk mendeteksi masalah tersebut dengan cepat dan efektif. Selain itu, benchmark yang andal untuk menguji kemampuan komputasi GPU dan kinerja komunikasi dalam grup sumber daya juga terbatas.
Untuk mengatasi masalah-masalah ini, DLC menyediakan fitur pemeriksaan sanity untuk memeriksa status kesehatan dan kinerja sumber daya komputasi yang digunakan dalam pekerjaan pelatihan terdistribusi. Anda dapat mengaktifkan pemeriksaan sanity saat membuat pekerjaan DLC. Sistem akan mendeteksi sumber daya terkait pelatihan, mengisolasi node bermasalah secara otomatis, dan memicu proses O&M di latar belakang. Fitur ini mengurangi kegagalan pada tahap awal pelatihan dan meningkatkan kemungkinan keberhasilan pekerjaan. Setelah pemeriksaan selesai, sistem menghasilkan laporan pengujian tentang kemampuan komputasi dan kinerja komunikasi GPU. Laporan ini membantu mengidentifikasi risiko potensial yang dapat menurunkan kinerja pelatihan dan menyelesaikan masalah secara efisien.
Batasan
Fitur ini hanya mendukung pekerjaan pelatihan PyTorch yang dibuat menggunakan sumber daya Lingjun dan mensyaratkan bahwa sumber daya tersebut mencakup setidaknya satu GPU.
Aktifkan pemeriksaan sanity
Aktifkan pemeriksaan sanity di konsol PAI
Saat membuat pekerjaan DLC di konsol PAI, Anda dapat mengonfigurasi parameter utama seperti yang ditunjukkan pada gambar berikut untuk mengaktifkan fitur pemeriksaan sanity. Setelah menyerahkan pekerjaan pelatihan, sistem akan memeriksa status kesehatan dan ketersediaan sumber daya serta menghasilkan laporan pemeriksaan.

Tabel berikut menjelaskan parameter utama:
Informasi Sumber Daya:
Parameter
Deskripsi
Resource Type
Pilih Lingjun AI Computing Service.
Source
Pilih Resource Quota.
Resource Quota
Pilih kuota sumber daya Lingjun. Untuk informasi tentang cara membuat kuota sumber daya, lihat kuota sumber daya Lingjun.
Framework
Pilih PyTorch.
Job Resource
Atur parameter GPU menjadi nilai lebih besar dari 0.
Toleransi Kesalahan dan Diagnosis: Aktifkan fitur pemeriksaan sanity dan konfigurasikan parameter yang dijelaskan dalam tabel berikut.
Parameter
Deskripsi
Check Time
Before Job Runs: Setelah pekerjaan mendapatkan sumber daya, sistem memeriksa status kesehatan dari kemampuan komputasi dan kemudian menjalankan pekerjaan. Ini adalah pengaturan default.
After Job Runs: Setelah sistem memulai ulang pekerjaan yang gagal, sistem menjalankan pemeriksaan sanity terlebih dahulu.
CatatanOpsi ini tersedia jika Anda mengaktifkan fitur Automatic Fault Tolerance. Untuk informasi lebih lanjut, lihat AIMaster: Mesin toleransi kesalahan elastis.
Check Item
Secara default, item pemeriksaan terkait GPU GEMM dan All-Reduce dipilih. GPU GEMM digunakan untuk memeriksa kinerja GPU GEMM. Item pemeriksaan terkait All-Reduce digunakan untuk memeriksa kinerja komunikasi node dengan mengidentifikasi node lambat atau bermasalah. Anda dapat memilih Pemeriksaan Kinerja Komputasi, Pemeriksaan Komunikasi Node, Pemeriksaan Silang Komputasi dan Komunikasi, dan Pemeriksaan Simulasi Model. Untuk informasi lebih lanjut tentang item pemeriksaan dan skenario yang direkomendasikan, lihat Lampiran: Item pemeriksaan.
Maximum Check Duration (Minutes)
Durasi maksimum untuk menjalankan pemeriksaan sanity. Nilai default: 30 menit. Jika pemeriksaan sanity berjalan lebih lama daripada durasi pemeriksaan maksimum yang ditentukan, tindakan yang dikonfigurasi akan dipicu.
Timeout Action
Tentukan status pekerjaan setelah pemeriksaan sanity habis waktu:
Hentikan Pekerjaan (default): Sistem menghentikan pekerjaan. Status pekerjaan berubah menjadi Pemeriksaan Gagal.
Tangguhkan Pekerjaan: Sistem menangguhkan pekerjaan. Pekerjaan tetap dalam status Memeriksa dan menunggu intervensi manual atau instruksi sistem pada operasi berikutnya.
Other Configurations
Parameter ini kosong secara default.
Lihat hasil pemeriksaan
Status pemeriksaan sanity
Pekerjaan DLC dapat berada dalam salah satu status berikut selama pemeriksaan sanity:
Memeriksa: Pemeriksaan kemampuan komputasi sedang berlangsung.
Pemeriksaan Gagal: Pemeriksaan gagal jika masalah terdeteksi atau waktu habis.
Pemeriksaan Berhasil: Setelah pekerjaan lolos pemeriksaan, pekerjaan masuk ke status berjalan.
Lihat hasil pemeriksaan sanity
Lihat hasil di konsol PAI
Di tab Events halaman detail pekerjaan DLC, klik Pemeriksaan Sanity untuk melihat hasil pemeriksaan.
Konfigurasikan aturan notifikasi peristiwa
Anda dapat membuat aturan notifikasi peristiwa di tab Configure Event Notification ruang kerja PAI. Atur Event Type ke DLC Job dan Automatic Fault Tolerance. Untuk informasi lebih lanjut tentang parameter lainnya, lihat Aturan Notifikasi. Jika pekerjaan gagal dalam pemeriksaan sanity, sistem akan mengirimkan notifikasi.
Untuk informasi lebih lanjut tentang cara mengonfigurasi notifikasi, lihat Konfigurasi Notifikasi Peristiwa.

Lampiran: Item pemeriksaan
Estimasi waktu didasarkan pada dua instance dan hanya untuk referensi Anda.
Item pemeriksaan | Deskripsi (skenario) | Estimasi waktu | |
Pemeriksaan Kinerja Komputasi | GPU GEMM | Digunakan untuk memeriksa kinerja GPU GEMM.
| 1 menit |
GPU Kernel Launch | Digunakan untuk memeriksa latensi startup kernel GPU.
| 1 menit | |
Pemeriksaan Komunikasi Node | All-Reduce | Digunakan untuk memeriksa kinerja komunikasi node dan mengidentifikasi node komunikasi lambat atau bermasalah. Di bawah mode komunikasi yang berbeda, node berikut dapat dideteksi:
| 5 menit untuk satu kali pemeriksaan |
All-to-All | |||
All-Gather | |||
Multi-All-Reduce | |||
Konektivitas Jaringan | Digunakan untuk memeriksa konektivitas jaringan antara bagian depan dan belakang serta mengidentifikasi node dengan komunikasi abnormal. | 2 menit | |
Pemeriksaan Silang Komputasi dan Komunikasi | MatMul/All-Reduce Overlap | Digunakan untuk memeriksa kinerja node tunggal saat kernel komunikasi dan kernel komputasi tumpang tindih.
| 1 menit |
Pemeriksaan Simulasi Model | Mini GPT | Gunakan simulasi model untuk memverifikasi keandalan sistem AI.
| 1 menit |
Megatron GPT | 5 menit | ||
ResNet | 2 menit | ||