全部产品
Search
文档中心

Platform For AI:Pemeriksaan Sanity

更新时间:Jul 02, 2025

Topik ini menjelaskan cara menggunakan fitur pemeriksaan sanity yang disediakan oleh Deep Learning Containers (DLC).

Ikhtisar

Anda mungkin mengalami masalah berikut saat menjalankan pekerjaan DLC di Platform for AI (PAI):

  • Kegagalan pekerjaan dan pemborosan sumber daya GPU akibat kegagalan sumber daya: Pekerjaan gagal setelah memuat checkpoint model atau melakukan operasi inisialisasi lainnya karena kegagalan sumber daya. Proses pemecahan masalah sebelum menyerahkan ulang pekerjaan menyebabkan pemborosan sumber daya GPU.

  • Metode identifikasi masalah kinerja dan pengujian yang tidak mencukupi: Kinerja model menurun selama pelatihan karena node lambat, tetapi sulit untuk mendeteksi masalah tersebut dengan cepat dan efektif. Selain itu, benchmark yang andal untuk menguji kemampuan komputasi GPU dan kinerja komunikasi dalam grup sumber daya juga terbatas.

Untuk mengatasi masalah-masalah ini, DLC menyediakan fitur pemeriksaan sanity untuk memeriksa status kesehatan dan kinerja sumber daya komputasi yang digunakan dalam pekerjaan pelatihan terdistribusi. Anda dapat mengaktifkan pemeriksaan sanity saat membuat pekerjaan DLC. Sistem akan mendeteksi sumber daya terkait pelatihan, mengisolasi node bermasalah secara otomatis, dan memicu proses O&M di latar belakang. Fitur ini mengurangi kegagalan pada tahap awal pelatihan dan meningkatkan kemungkinan keberhasilan pekerjaan. Setelah pemeriksaan selesai, sistem menghasilkan laporan pengujian tentang kemampuan komputasi dan kinerja komunikasi GPU. Laporan ini membantu mengidentifikasi risiko potensial yang dapat menurunkan kinerja pelatihan dan menyelesaikan masalah secara efisien.

Batasan

Fitur ini hanya mendukung pekerjaan pelatihan PyTorch yang dibuat menggunakan sumber daya Lingjun dan mensyaratkan bahwa sumber daya tersebut mencakup setidaknya satu GPU.

Aktifkan pemeriksaan sanity

Aktifkan pemeriksaan sanity di konsol PAI

Saat membuat pekerjaan DLC di konsol PAI, Anda dapat mengonfigurasi parameter utama seperti yang ditunjukkan pada gambar berikut untuk mengaktifkan fitur pemeriksaan sanity. Setelah menyerahkan pekerjaan pelatihan, sistem akan memeriksa status kesehatan dan ketersediaan sumber daya serta menghasilkan laporan pemeriksaan.

image

Tabel berikut menjelaskan parameter utama:

  • Informasi Sumber Daya:

    Parameter

    Deskripsi

    Resource Type

    Pilih Lingjun AI Computing Service.

    Source

    Pilih Resource Quota.

    Resource Quota

    Pilih kuota sumber daya Lingjun. Untuk informasi tentang cara membuat kuota sumber daya, lihat kuota sumber daya Lingjun.

    Framework

    Pilih PyTorch.

    Job Resource

    Atur parameter GPU menjadi nilai lebih besar dari 0.

  • Toleransi Kesalahan dan Diagnosis: Aktifkan fitur pemeriksaan sanity dan konfigurasikan parameter yang dijelaskan dalam tabel berikut.

    Parameter

    Deskripsi

    Check Time

    • Before Job Runs: Setelah pekerjaan mendapatkan sumber daya, sistem memeriksa status kesehatan dari kemampuan komputasi dan kemudian menjalankan pekerjaan. Ini adalah pengaturan default.

    • After Job Runs: Setelah sistem memulai ulang pekerjaan yang gagal, sistem menjalankan pemeriksaan sanity terlebih dahulu.

      Catatan

      Opsi ini tersedia jika Anda mengaktifkan fitur Automatic Fault Tolerance. Untuk informasi lebih lanjut, lihat AIMaster: Mesin toleransi kesalahan elastis.

    Check Item

    Secara default, item pemeriksaan terkait GPU GEMM dan All-Reduce dipilih. GPU GEMM digunakan untuk memeriksa kinerja GPU GEMM. Item pemeriksaan terkait All-Reduce digunakan untuk memeriksa kinerja komunikasi node dengan mengidentifikasi node lambat atau bermasalah. Anda dapat memilih Pemeriksaan Kinerja Komputasi, Pemeriksaan Komunikasi Node, Pemeriksaan Silang Komputasi dan Komunikasi, dan Pemeriksaan Simulasi Model. Untuk informasi lebih lanjut tentang item pemeriksaan dan skenario yang direkomendasikan, lihat Lampiran: Item pemeriksaan.

    Maximum Check Duration (Minutes)

    Durasi maksimum untuk menjalankan pemeriksaan sanity. Nilai default: 30 menit. Jika pemeriksaan sanity berjalan lebih lama daripada durasi pemeriksaan maksimum yang ditentukan, tindakan yang dikonfigurasi akan dipicu.

    Timeout Action

    Tentukan status pekerjaan setelah pemeriksaan sanity habis waktu:

    • Hentikan Pekerjaan (default): Sistem menghentikan pekerjaan. Status pekerjaan berubah menjadi Pemeriksaan Gagal.

    • Tangguhkan Pekerjaan: Sistem menangguhkan pekerjaan. Pekerjaan tetap dalam status Memeriksa dan menunggu intervensi manual atau instruksi sistem pada operasi berikutnya.

    Other Configurations

    Parameter ini kosong secara default.

Lihat hasil pemeriksaan

Status pemeriksaan sanity

Pekerjaan DLC dapat berada dalam salah satu status berikut selama pemeriksaan sanity:

  • Memeriksa: Pemeriksaan kemampuan komputasi sedang berlangsung.

  • Pemeriksaan Gagal: Pemeriksaan gagal jika masalah terdeteksi atau waktu habis.

  • Pemeriksaan Berhasil: Setelah pekerjaan lolos pemeriksaan, pekerjaan masuk ke status berjalan.

Lihat hasil pemeriksaan sanity

Lihat hasil di konsol PAI

Di tab Events halaman detail pekerjaan DLC, klik Pemeriksaan Sanity untuk melihat hasil pemeriksaan.

Konfigurasikan aturan notifikasi peristiwa

Anda dapat membuat aturan notifikasi peristiwa di tab Configure Event Notification ruang kerja PAI. Atur Event Type ke DLC Job dan Automatic Fault Tolerance. Untuk informasi lebih lanjut tentang parameter lainnya, lihat Aturan Notifikasi. Jika pekerjaan gagal dalam pemeriksaan sanity, sistem akan mengirimkan notifikasi.

Catatan

Untuk informasi lebih lanjut tentang cara mengonfigurasi notifikasi, lihat Konfigurasi Notifikasi Peristiwa.

image

Lampiran: Item pemeriksaan

Catatan

Estimasi waktu didasarkan pada dua instance dan hanya untuk referensi Anda.

Item pemeriksaan

Deskripsi (skenario)

Estimasi waktu

Pemeriksaan Kinerja Komputasi

GPU GEMM

Digunakan untuk memeriksa kinerja GPU GEMM.

  • GPU bermasalah: kesalahan perhitungan dan hang perhitungan.

  • Node lambat: TFLOPS rendah selama komputasi.

1 menit

GPU Kernel Launch

Digunakan untuk memeriksa latensi startup kernel GPU.

  • Node bermasalah: kesalahan startup kernel dan hang startup kernel.

  • Node lambat: startup kernel membutuhkan waktu lama.

1 menit

Pemeriksaan Komunikasi Node

All-Reduce

Digunakan untuk memeriksa kinerja komunikasi node dan mengidentifikasi node komunikasi lambat atau bermasalah. Di bawah mode komunikasi yang berbeda, node berikut dapat dideteksi:

  • Node kegagalan komunikasi: kesalahan komunikasi dan hang.

  • Node komunikasi lambat: bandwidth komunikasi rendah.

5 menit untuk satu kali pemeriksaan

All-to-All

All-Gather

Multi-All-Reduce

Konektivitas Jaringan

Digunakan untuk memeriksa konektivitas jaringan antara bagian depan dan belakang serta mengidentifikasi node dengan komunikasi abnormal.

2 menit

Pemeriksaan Silang Komputasi dan Komunikasi

MatMul/All-Reduce Overlap

Digunakan untuk memeriksa kinerja node tunggal saat kernel komunikasi dan kernel komputasi tumpang tindih.

  • Node bermasalah: kesalahan komputasi overlap dan hang.

  • Node lambat: waktu komputasi overlap lama.

1 menit

Pemeriksaan Simulasi Model

Mini GPT

Gunakan simulasi model untuk memverifikasi keandalan sistem AI.

  • Node bermasalah: loss pelatihan abnormal, pelatihan hang, dan kesalahan pelatihan.

  • Node lambat: waktu konsumsi lama selama pelatihan satu langkah.

1 menit

Megatron GPT

5 menit

ResNet

2 menit