EAS menyediakan fitur pemeriksaan daya komputasi dan toleransi kesalahan yang secara otomatis memeriksa kesehatan sumber daya—seperti daya komputasi GPU dan komunikasi antarnode—untuk meningkatkan efisiensi pemecahan masalah serta memastikan ketersediaan dan stabilitas layanan dalam penerapan skala besar.
Kasus penggunaan
Fitur pemeriksaan daya komputasi dan toleransi kesalahan ditujukan untuk layanan inferensi terdistribusi multi-node yang diterapkan pada Sumber daya komputasi cerdas Lingjun.
Konsep inti
Waktu pemeriksaan:
Sebelum instans dimulai: Pemeriksaan dijalankan sebelum program dalam instans layanan (Pod) dimulai. Hal ini membantu mencegah kegagalan saat startup akibat gangguan sumber daya serta mengidentifikasi masalah perangkat keras atau jaringan lebih awal.
Saat instans berjalan: Pemeriksaan dijalankan sebagai proses latar belakang selama layanan berjalan.
Item pemeriksaan:
Sebelum instans dimulai: Mendukung pemeriksaan performa komputasi, pemeriksaan komunikasi node, dan pemeriksaan silang antara komputasi dan komunikasi.
Saat instans berjalan: Hanya mendukung C4D (memeriksa kesehatan GPU).
Untuk informasi lebih lanjut mengenai item pemeriksaan, lihat Lampiran: Deskripsi item pemeriksaan.
Penanganan kondisi tidak normal:
Kegagalan startup instans: Jika suatu masalah terdeteksi, sistem akan menghentikan proses startup instans saat ini.
Tidak ada tindakan: Jika suatu masalah terdeteksi, sistem hanya mencatat event tersebut tanpa melakukan tindakan lain.
Prosedur
Mengaktifkan dan mengonfigurasi pemeriksaan daya komputasi
Masuk ke Konsol PAI. Pilih wilayah di bagian atas halaman. Kemudian, pilih ruang kerja yang diinginkan dan klik Elastic Algorithm Service (EAS).
Klik Deploy Service dan pilih Custom Deployment di bagian Custom Model Deployment.
Pada bagian Features, di bawah Stability guarantee, aktifkan Compute monitoring & fault tolerance. Konfigurasikan parameter pemeriksaan di panel yang muncul di sebelah kanan. Untuk mengonfigurasi file JSON secara langsung, lihat Lampiran: Deskripsi parameter file JSON.
CatatanAnda dapat menambahkan pemeriksaan sebelum berjalan dan pemeriksaan Instance running.
Konfigurasi pemeriksaan sebelum instans dimulai (Opsional)
Detection timing: Pilih Before running.
Check item: Pilih item pemeriksaan sesuai kebutuhan, seperti Compute Performance Check dan Node Communication Check. Secara default, platform mengaktifkan pemeriksaan GPU GEMM, All-Reduce-Single node, dan All-Reduce-Node-Node.
Tetapkan durasi maksimum pemeriksaan: Berdasarkan item pemeriksaan yang dipilih, rujuk perkiraan durasi dalam deskripsi item pemeriksaan (pemeriksaan dijalankan dalam eksekusi sekuensial) untuk menetapkan periode timeout. Nilai default adalah 5 menit. Jika pemeriksaan tidak selesai dalam waktu tersebut, maka dianggap gagal.
Handle abnormal status: Default-nya adalah Instance Startup Failed.
Konfigurasi pemeriksaan saat instans berjalan (Opsional)
Detection timing: Pilih Instance running.
Check items: Saat ini, hanya C4D yang didukung.
Handle abnormal status: Saat ini, hanya Ignore yang didukung.
Menampilkan hasil pemeriksaan kesehatan daya komputasi
Setelah mengonfigurasi fitur ini, Anda dapat melihat laporan pemeriksaan dengan dua cara:
Metode 1: Dari daftar instans
Pada halaman detail layanan, klik tab Overview.
Pada bagian Service Instance, temukan instans target dan klik View results di kolom Action.

Metode 2: Dari event penerapan
Pada halaman detail layanan, klik tab Deployment Events.
Temukan event dengan tipe
SanityCheckSucceededatauSanityCheckFaileddan klik View results di kolom Action.
Laci Computing Power Health Check Result akan muncul di sebelah kanan. Anda dapat melihat laporan detail untuk setiap item pemeriksaan di laci ini.
FAQ
T: Apa penyebab umum kegagalan pemeriksaan All-Reduce?
Kegagalan pemeriksaan All-Reduce biasanya menunjukkan adanya masalah komunikasi jaringan antarnode. Masalah tersebut dapat mencakup latensi jaringan tinggi, kehilangan paket parah, atau konfigurasi Akses Memori Langsung Jarak Jauh (RDMA) yang salah antarnode. Anda dapat menggunakan data terperinci dalam laporan untuk fokus memperbaiki node dengan komunikasi lambat.
Lampiran: Deskripsi item pemeriksaan
Item pemeriksaan | Deskripsi (Skenario yang direkomendasikan) | Perkiraan durasi pemeriksaan | |
Sebelum instans dimulai | |||
Pemeriksaan performa komputasi | GPU GEMM | Mendeteksi performa GPU GEMM dan mengidentifikasi:
| 1 menit |
GPU Kernel Launch | Mendeteksi latensi peluncuran kernel GPU dan mengidentifikasi:
| 1 menit | |
Pemeriksaan komunikasi node | All-Reduce | Mendeteksi performa komunikasi node untuk mengidentifikasi node lambat atau rusak. Dalam pola komunikasi berbeda, pemeriksaan ini mengidentifikasi:
| Pemeriksaan komunikasi koleksi tunggal 5 menit |
All-to-All | |||
All-Gather | |||
Multi-All-Reduce | |||
PyTorch-Gloo | Menggunakan PyTorch Gloo untuk memeriksa komunikasi node dan mengidentifikasi node komunikasi rusak. | 1 menit | |
Network Connectivity | Memeriksa konektivitas jaringan node kepala atau ekor untuk mengidentifikasi node dengan konektivitas tidak normal. | 2 menit | |
Pemeriksaan silang antara komputasi dan komunikasi | MatMul/All-Reduce Overlap | Mendeteksi performa single-node saat kernel komunikasi dan komputasi tumpang tindih. Pemeriksaan ini mengidentifikasi:
| 1 menit |
Saat instans berjalan | |||
C4D | Memeriksa kesehatan kartu GPU saat instans sedang berjalan. | ||
Lampiran: Deskripsi parameter file JSON
Contoh konfigurasi
{
"aimaster": {
"runtime_check": {
"fail_action": "retain",
"micro_benchmarks": "c4d"
},
"sanity_check": {
"fail_action": "retain",
"micro_benchmarks": "gemm_flops,all_reduce_1,all_reduce_2,kernel_launch,all_reduce,all_to_all_2,all_gather_2,all_gather,multi_all_reduce_2,multi_all_reduce,pytorch_gloo_2,network_connectivity,comp_comm_overlap",
"timeout": 100
}
}
}Deskripsi parameter
Parameter | Deskripsi | ||
aimaster | runtime_check Saat instans berjalan | fail_action | Cara menangani kondisi tidak normal. |
micro_benchmarks | Item pemeriksaan. Nilai valid: c4d. | ||
sanity_check Sebelum instans dimulai | fail_action | Cara menangani kondisi tidak normal. | |
micro_benchmarks | Item pemeriksaan. Pisahkan beberapa item dengan koma. | ||
timeout | Durasi maksimum pemeriksaan, dalam menit. | ||