全部产品
Search
文档中心

Platform For AI:Pemeriksaan daya komputasi dan toleransi kesalahan

更新时间:Nov 13, 2025

EAS menyediakan fitur pemeriksaan daya komputasi dan toleransi kesalahan yang secara otomatis memeriksa kesehatan sumber daya—seperti daya komputasi GPU dan komunikasi antarnode—untuk meningkatkan efisiensi pemecahan masalah serta memastikan ketersediaan dan stabilitas layanan dalam penerapan skala besar.

Kasus penggunaan

Fitur pemeriksaan daya komputasi dan toleransi kesalahan ditujukan untuk layanan inferensi terdistribusi multi-node yang diterapkan pada Sumber daya komputasi cerdas Lingjun.

Konsep inti

  • Waktu pemeriksaan:

    • Sebelum instans dimulai: Pemeriksaan dijalankan sebelum program dalam instans layanan (Pod) dimulai. Hal ini membantu mencegah kegagalan saat startup akibat gangguan sumber daya serta mengidentifikasi masalah perangkat keras atau jaringan lebih awal.

    • Saat instans berjalan: Pemeriksaan dijalankan sebagai proses latar belakang selama layanan berjalan.

  • Item pemeriksaan:

    • Sebelum instans dimulai: Mendukung pemeriksaan performa komputasi, pemeriksaan komunikasi node, dan pemeriksaan silang antara komputasi dan komunikasi.

    • Saat instans berjalan: Hanya mendukung C4D (memeriksa kesehatan GPU).

    • Untuk informasi lebih lanjut mengenai item pemeriksaan, lihat Lampiran: Deskripsi item pemeriksaan.

  • Penanganan kondisi tidak normal:

    • Kegagalan startup instans: Jika suatu masalah terdeteksi, sistem akan menghentikan proses startup instans saat ini.

    • Tidak ada tindakan: Jika suatu masalah terdeteksi, sistem hanya mencatat event tersebut tanpa melakukan tindakan lain.

Prosedur

Mengaktifkan dan mengonfigurasi pemeriksaan daya komputasi

  1. Masuk ke Konsol PAI. Pilih wilayah di bagian atas halaman. Kemudian, pilih ruang kerja yang diinginkan dan klik Elastic Algorithm Service (EAS).

  2. Klik Deploy Service dan pilih Custom Deployment di bagian Custom Model Deployment.

  3. Pada bagian Features, di bawah Stability guarantee, aktifkan Compute monitoring & fault tolerance. Konfigurasikan parameter pemeriksaan di panel yang muncul di sebelah kanan. Untuk mengonfigurasi file JSON secara langsung, lihat Lampiran: Deskripsi parameter file JSON.

    Catatan

    Anda dapat menambahkan pemeriksaan sebelum berjalan dan pemeriksaan Instance running.

    • Konfigurasi pemeriksaan sebelum instans dimulai (Opsional)

      • Detection timing: Pilih Before running.

      • Check item: Pilih item pemeriksaan sesuai kebutuhan, seperti Compute Performance Check dan Node Communication Check. Secara default, platform mengaktifkan pemeriksaan GPU GEMM, All-Reduce-Single node, dan All-Reduce-Node-Node.

      • Tetapkan durasi maksimum pemeriksaan: Berdasarkan item pemeriksaan yang dipilih, rujuk perkiraan durasi dalam deskripsi item pemeriksaan (pemeriksaan dijalankan dalam eksekusi sekuensial) untuk menetapkan periode timeout. Nilai default adalah 5 menit. Jika pemeriksaan tidak selesai dalam waktu tersebut, maka dianggap gagal.

      • Handle abnormal status: Default-nya adalah Instance Startup Failed.

    • Konfigurasi pemeriksaan saat instans berjalan (Opsional)

      • Detection timing: Pilih Instance running.

      • Check items: Saat ini, hanya C4D yang didukung.

      • Handle abnormal status: Saat ini, hanya Ignore yang didukung.

Menampilkan hasil pemeriksaan kesehatan daya komputasi

Setelah mengonfigurasi fitur ini, Anda dapat melihat laporan pemeriksaan dengan dua cara:

  • Metode 1: Dari daftar instans

    1. Pada halaman detail layanan, klik tab Overview.

    2. Pada bagian Service Instance, temukan instans target dan klik View results di kolom Action.image

  • Metode 2: Dari event penerapan

    1. Pada halaman detail layanan, klik tab Deployment Events.

    2. Temukan event dengan tipe SanityCheckSucceeded atau SanityCheckFailed dan klik View results di kolom Action.image

Laci Computing Power Health Check Result akan muncul di sebelah kanan. Anda dapat melihat laporan detail untuk setiap item pemeriksaan di laci ini.

FAQ

T: Apa penyebab umum kegagalan pemeriksaan All-Reduce?

Kegagalan pemeriksaan All-Reduce biasanya menunjukkan adanya masalah komunikasi jaringan antarnode. Masalah tersebut dapat mencakup latensi jaringan tinggi, kehilangan paket parah, atau konfigurasi Akses Memori Langsung Jarak Jauh (RDMA) yang salah antarnode. Anda dapat menggunakan data terperinci dalam laporan untuk fokus memperbaiki node dengan komunikasi lambat.

Lampiran: Deskripsi item pemeriksaan

Item pemeriksaan

Deskripsi (Skenario yang direkomendasikan)

Perkiraan durasi pemeriksaan

Sebelum instans dimulai

Pemeriksaan performa komputasi

GPU GEMM

Mendeteksi performa GPU GEMM dan mengidentifikasi:

  • GPU rusak: kesalahan komputasi atau hang.

  • Node lambat: TFLOPS rendah.

1 menit

GPU Kernel Launch

Mendeteksi latensi peluncuran kernel GPU dan mengidentifikasi:

  • Node rusak: kesalahan atau hang saat peluncuran kernel.

  • Node lambat: waktu peluncuran kernel lama.

1 menit

Pemeriksaan komunikasi node

All-Reduce

Mendeteksi performa komunikasi node untuk mengidentifikasi node lambat atau rusak. Dalam pola komunikasi berbeda, pemeriksaan ini mengidentifikasi:

  • Node komunikasi rusak: kesalahan komunikasi atau hang.

  • Node komunikasi lambat: bandwidth rendah.

Pemeriksaan komunikasi koleksi tunggal

5 menit

All-to-All

All-Gather

Multi-All-Reduce

PyTorch-Gloo

Menggunakan PyTorch Gloo untuk memeriksa komunikasi node dan mengidentifikasi node komunikasi rusak.

1 menit

Network Connectivity

Memeriksa konektivitas jaringan node kepala atau ekor untuk mengidentifikasi node dengan konektivitas tidak normal.

2 menit

Pemeriksaan silang antara komputasi dan komunikasi

MatMul/All-Reduce Overlap

Mendeteksi performa single-node saat kernel komunikasi dan komputasi tumpang tindih. Pemeriksaan ini mengidentifikasi:

  • Node rusak: kesalahan komputasi tumpang tindih atau hang.

  • Node lambat: waktu komputasi tumpang tindih lama.

1 menit

Saat instans berjalan

C4D

Memeriksa kesehatan kartu GPU saat instans sedang berjalan.

Lampiran: Deskripsi parameter file JSON

Contoh konfigurasi

{
    "aimaster": {
        "runtime_check": {
            "fail_action": "retain",
            "micro_benchmarks": "c4d"
        },
        "sanity_check": {
            "fail_action": "retain",
            "micro_benchmarks": "gemm_flops,all_reduce_1,all_reduce_2,kernel_launch,all_reduce,all_to_all_2,all_gather_2,all_gather,multi_all_reduce_2,multi_all_reduce,pytorch_gloo_2,network_connectivity,comp_comm_overlap",
            "timeout": 100
        }
    }
}

Deskripsi parameter

Parameter

Deskripsi

aimaster

runtime_check

Saat instans berjalan

fail_action

Cara menangani kondisi tidak normal.

micro_benchmarks

Item pemeriksaan. Nilai valid: c4d.

sanity_check

Sebelum instans dimulai

fail_action

Cara menangani kondisi tidak normal.

micro_benchmarks

Item pemeriksaan. Pisahkan beberapa item dengan koma.

timeout

Durasi maksimum pemeriksaan, dalam menit.