Gunakan CNP untuk melakukan evaluasi kinerja - Platform For AI

Cloud Native Application Performance Optimizer (CNP) adalah platform all-in-one yang digunakan untuk mengevaluasi, menganalisis, dan mengoptimalkan kinerja aplikasi cloud-native. CNP bertujuan untuk meningkatkan kinerja aplikasi cloud, secara otomatis dan efisien mengevaluasi kinerja pelatihan kluster Lingjun, serta memberikan saran terkait optimasi kinerja. Topik ini menjelaskan cara menggunakan CNP untuk melakukan evaluasi kinerja.

Pergi ke platform CNP

Masuk ke Konsol Komputasi Cerdas Lingjun.
Di panel navigasi di sebelah kiri, pilih Evaluasi Kinerja > Evaluasi Kinerja CNP.
Di platform CNP, mulai evaluasi kinerja dan lihat hasil evaluasi.
Di pojok kiri bawah halaman, klik Kembali ke Konsol Lingjun untuk kembali ke Konsol Komputasi Cerdas Lingjun.

Mulai evaluasi kinerja

Langkah 1: Pilih kluster

Klik Mulai Evaluasi di halaman Selamat Datang atau klik Inisiasi Evaluasi di halaman Evaluasi Kinerja untuk pergi ke langkah Pilih Kluster.

Pilih salah satu kluster Anda yang ingin dievaluasi kinerjanya.

Otorisasi CNP untuk mengakses Deep Learning Containers (DLC). Setelah Anda mengonfigurasi parameter yang diperlukan, klik Klik Otorisasi dan Uji Konektivitas. Jika uji konektivitas berhasil, pesan akan dikembalikan untuk memberi tahu bahwa koneksi berhasil. Jika tidak, penyebab kegagalan koneksi akan dikembalikan. Tabel berikut menjelaskan penyebab kegagalan umum dan solusinya:

Penyebab Kegagalan	Solusi yang Direkomendasikan
Koneksi habis waktu.	Aktifkan daftar putih untuk akses ke CNP dan coba lagi.
Informasi yang ditentukan tidak valid.	Periksa nilai yang Anda tentukan untuk parameter AccessID, AccessKey, Workspace, dan Endpoint. Ubah nilai yang tidak valid dan coba lagi.
Kode kesalahan D3001 dikembalikan, yang menunjukkan bahwa Token Layanan Keamanan (STS) gagal diperoleh.
Kode kesalahan D3002 dikembalikan, yang menunjukkan bahwa peran layanan terkait untuk CNP gagal dibuat.
Kode kesalahan D3003 dikembalikan, yang menunjukkan bahwa instance Application Real-Time Monitoring Service (ARMS) gagal dibuat.
Kode kesalahan D3004 dikembalikan, yang menunjukkan bahwa ARMS belum diaktifkan.	Aktifkan ARMS.
Kode kesalahan D3005 dikembalikan, yang menunjukkan bahwa informasi ARMS gagal diperoleh.
Kode kesalahan D3006 dikembalikan, yang menunjukkan bahwa akun saat ini tidak memiliki izin untuk membuat peran layanan terkait untuk CNP.	Berikan akun tersebut izin untuk membuat peran layanan terkait untuk CNP.

Setelah uji konektivitas berhasil, klik Langkah Berikutnya untuk pergi ke langkah Pilih Rencana Tes.

Langkah 2: Pilih rencana tes

Pilih template rencana tes

Secara default, sistem menyediakan dua template rencana tes. Anda dapat memilih salah satu template rencana tes berdasarkan skenario bisnis Anda.

Rencana	Konten Tes	Skala Kluster yang Akan Diuji
Rencana Tes untuk Skenario Berbasis LLM	Tes GPU Tunggal: MatMul (operator matriks) Tes Mesin Tunggal: Bert-base Tes Model AI: LLaMA-7B	Tes GPU Tunggal: Secara default, tes dilakukan berdasarkan skala maksimum kluster Anda. Tes Mesin Tunggal: Secara default, tes dilakukan berdasarkan skala maksimum kluster Anda. Tes Model AI: Secara default, sistem membuat tugas evaluasi untuk 8 GPU, 16 GPU, 32 GPU, 64 GPU, 128 GPU, 256 GPU, dan 512 GPU berdasarkan skala maksimum kluster Anda. Jika skala maksimum kluster Anda adalah 100 GPU, sistem hanya membuat tugas evaluasi untuk 8 GPU, 16 GPU, 32 GPU, dan 64 GPU.
Rencana Tes untuk Skenario Pengenalan Gambar	Tes GPU Tunggal: MatMul (operator matriks) Tes Mesin Tunggal: Bert-base Tes Model AI: Swin Transformer dan Stable Diffusion	Tes GPU Tunggal: Secara default, tes dilakukan berdasarkan skala maksimum kluster Anda. Tes Mesin Tunggal: Secara default, tes dilakukan berdasarkan skala maksimum kluster Anda. Tes Model AI: Secara default, sistem membuat tugas evaluasi untuk 8 GPU, 16 GPU, 32 GPU, dan 64 GPU berdasarkan skala maksimum kluster Anda. Jika skala maksimum kluster Anda adalah 16 GPU, sistem hanya membuat tugas evaluasi untuk 8 GPU dan 16 GPU.

Buat rencana tes kustom

Jika template rencana tes yang disediakan oleh sistem tidak dapat memenuhi persyaratan tes Anda, Anda dapat membuat rencana tes kustom.

Tes GPU Tunggal: Jumlah node dapat disesuaikan. Secara default, MatMul digunakan dalam kasus tes ini.
Tes Mesin Tunggal: Jumlah node dapat disesuaikan. Secara default, Bert-base digunakan dalam kasus tes ini.
Tes Model AI: Model AI dan jumlah GPU yang akan dievaluasi untuk kluster dapat disesuaikan.

null

Model AI berikut didukung: LLaMA-7B, Stable Diffusion, Swin Transformer, Bert-base, dan UNet.
Secara default, pengaturan parameter dasar digunakan. Anda dapat melihat pengaturan parameter di halaman detail tes.

Estimasi durasi evaluasi

Setelah Anda memilih rencana tes, durasi evaluasi secara otomatis diestimasi berdasarkan konten tes yang terkandung dalam rencana tes. Durasi evaluasi diestimasi berdasarkan skala maksimum kluster yang Anda pilih di Langkah 1. Jika skala tersedia kluster Anda tidak mencapai skala maksimumnya, durasi evaluasi aktual lebih lama dari durasi estimasi.

Mulai evaluasi

Setelah Langkah 1 dan Langkah 2 selesai, klik Mulai Evaluasi untuk memulai evaluasi dan tunggu hasil evaluasi.

Lihat kemajuan dan hasil evaluasi

Setelah rencana tes dibuat, Anda dapat melihat status dan kemajuan rencana tes secara real-time di tab Rencana. Temukan rencana tes dan klik Detail di kolom Aksi untuk pergi ke halaman detail rencana tes dan melihat kemajuan setiap tes.

Tes GPU tunggal

Tes berhasil.
Jika tidak ada GPU rusak yang dicurigai atau GPU peringatan terdeteksi di antara GPU yang diuji, tes GPU tunggal berhasil.
null
- GPU Rusak yang Dicurigai: Tugas yang menguji GPU gagal, dan GPU mungkin rusak.
- GPU Peringatan: TFLOPS GPU melebihi rentang ambang batas normal lebih dari 5% dari jumlah iterasi.
- Logika untuk Menghitung Rentang Ambang Batas Normal: Ambil median TFLOPS semua GPU di setiap iterasi sebagai baseline, dan bandingkan 103% dan 97% dari baseline dengan sigma empat kali lipat (standar deviasi empat kali lipat). Nilai yang lebih besar digunakan sebagai ambang batas maksimum dan minimum rentang ambang batas normal.
Hasil tes abnormal.
Jika setidaknya satu GPU rusak yang dicurigai atau GPU peringatan terdeteksi di antara GPU yang diuji, tes GPU tunggal menghasilkan hasil abnormal.
Di daftar tugas evaluasi, Anda dapat mengklik ikon plus (+) untuk melihat detail GPU rusak yang dicurigai atau GPU peringatan. Anda dapat melaporkan node abnormal yang terdeteksi ke tim O&M untuk pemecahan masalah lebih lanjut. Klik Detail Evaluasi di kolom Aksi untuk melihat hasil tugas evaluasi.

Tes mesin tunggal

Tes berhasil.
Jika tidak ada node rusak yang dicurigai atau node peringatan terdeteksi di antara node yang diuji, tes mesin tunggal berhasil.
null
- Node Rusak yang Dicurigai: DLC job pada node gagal, dan node mungkin rusak.
- Node Peringatan: Throughput node melebihi rentang ambang batas normal lebih dari 5% dari jumlah iterasi.
- Logika untuk Menghitung Rentang Ambang Batas Normal: Ambil median throughput semua node di setiap iterasi sebagai baseline, dan bandingkan 103% dan 97% dari baseline dengan sigma empat kali lipat (standar deviasi empat kali lipat). Nilai yang lebih besar digunakan sebagai ambang batas maksimum dan minimum rentang ambang batas normal.
Hasil tes abnormal.
Jika setidaknya satu node rusak yang dicurigai atau node peringatan terdeteksi di antara node yang diuji, tes mesin tunggal menghasilkan hasil abnormal.
Di daftar tugas evaluasi, Anda dapat mengklik ikon plus (+) untuk melihat detail node rusak yang dicurigai atau node peringatan. Anda dapat melaporkan node abnormal yang terdeteksi ke tim O&M untuk pemecahan masalah lebih lanjut. Klik Detail Evaluasi di kolom Aksi untuk melihat hasil tugas evaluasi.

Tes model AI

Kemajuan tes
Tertunda: Semua tugas siap dijalankan.
Selesai: Semua tugas berhasil dijalankan, gagal, atau dihentikan.
Dihentikan: Semua tugas dihentikan.
Berjalan: Beberapa tugas selesai, dan beberapa tugas siap dijalankan atau sedang dijalankan.
Tugas evaluasi
Anda dapat melihat semua tugas yang termasuk dalam tes model AI dari rencana tes saat ini. Jika Anda ingin menghentikan tugas yang sedang berlangsung, Anda dapat mengklik Hentikan. Semua tugas dapat dihapus.
null
Data tugas yang dihapus atau gagal tidak dikumpulkan di dasbor kinerja. Lanjutkan dengan hati-hati saat Anda menghapus tugas.

Lihat hasil evaluasi di dasbor kinerja

Pergi ke dasbor kinerja rencana tes

Jika rencana tes berada dalam status Selesai, Anda dapat mengklik Laporan Kinerja di kolom Aksi untuk melihat hasil rencana tes di dasbor kinerja. Dasbor kinerja menampilkan tugas evaluasi yang berhasil dijalankan dalam tes model AI dari rencana tes.

Konten yang ditampilkan di dasbor kinerja

Skalabilitas model tes

Dasbor kinerja menampilkan tren throughput berdasarkan jumlah GPU yang diuji dalam rencana tes saat ini untuk setiap model, yang menunjukkan skalabilitas kinerja model dalam kluster. Hasil tidak dibandingkan antara model yang berbeda.

Rumus: Skor Skalabilitas = log₂(Throughput model/Throughput model spesifikasi terendah)