Cloud Native Application Performance Optimizer (CNP) adalah platform all-in-one yang digunakan untuk mengevaluasi, menganalisis, dan mengoptimalkan kinerja aplikasi cloud-native. CNP bertujuan untuk meningkatkan kinerja aplikasi cloud, secara otomatis dan efisien mengevaluasi kinerja pelatihan kluster Lingjun, serta memberikan saran terkait optimasi kinerja. Topik ini menjelaskan cara menggunakan CNP untuk melakukan evaluasi kinerja.
Pergi ke platform CNP
Masuk ke Konsol Komputasi Cerdas Lingjun.
Di panel navigasi di sebelah kiri, pilih Evaluasi Kinerja > Evaluasi Kinerja CNP.
Di platform CNP, mulai evaluasi kinerja dan lihat hasil evaluasi.
Di pojok kiri bawah halaman, klik Kembali ke Konsol Lingjun untuk kembali ke Konsol Komputasi Cerdas Lingjun.
Mulai evaluasi kinerja
Langkah 1: Pilih kluster
Klik Mulai Evaluasi di halaman Selamat Datang atau klik Inisiasi Evaluasi di halaman Evaluasi Kinerja untuk pergi ke langkah Pilih Kluster.
Pilih salah satu kluster Anda yang ingin dievaluasi kinerjanya.
Otorisasi CNP untuk mengakses Deep Learning Containers (DLC). Setelah Anda mengonfigurasi parameter yang diperlukan, klik Klik Otorisasi dan Uji Konektivitas. Jika uji konektivitas berhasil, pesan akan dikembalikan untuk memberi tahu bahwa koneksi berhasil. Jika tidak, penyebab kegagalan koneksi akan dikembalikan. Tabel berikut menjelaskan penyebab kegagalan umum dan solusinya:
Penyebab Kegagalan
Solusi yang Direkomendasikan
Koneksi habis waktu.
Aktifkan daftar putih untuk akses ke CNP dan coba lagi.
Informasi yang ditentukan tidak valid.
Periksa nilai yang Anda tentukan untuk parameter AccessID, AccessKey, Workspace, dan Endpoint. Ubah nilai yang tidak valid dan coba lagi.
Kode kesalahan D3001 dikembalikan, yang menunjukkan bahwa Token Layanan Keamanan (STS) gagal diperoleh.
Kode kesalahan D3002 dikembalikan, yang menunjukkan bahwa peran layanan terkait untuk CNP gagal dibuat.
Kode kesalahan D3003 dikembalikan, yang menunjukkan bahwa instance Application Real-Time Monitoring Service (ARMS) gagal dibuat.
Kode kesalahan D3004 dikembalikan, yang menunjukkan bahwa ARMS belum diaktifkan.
Aktifkan ARMS.
Kode kesalahan D3005 dikembalikan, yang menunjukkan bahwa informasi ARMS gagal diperoleh.
Kode kesalahan D3006 dikembalikan, yang menunjukkan bahwa akun saat ini tidak memiliki izin untuk membuat peran layanan terkait untuk CNP.
Berikan akun tersebut izin untuk membuat peran layanan terkait untuk CNP.
Setelah uji konektivitas berhasil, klik Langkah Berikutnya untuk pergi ke langkah Pilih Rencana Tes.
Langkah 2: Pilih rencana tes
Pilih template rencana tes
Secara default, sistem menyediakan dua template rencana tes. Anda dapat memilih salah satu template rencana tes berdasarkan skenario bisnis Anda.
Rencana | Konten Tes | Skala Kluster yang Akan Diuji |
Rencana Tes untuk Skenario Berbasis LLM |
|
|
Rencana Tes untuk Skenario Pengenalan Gambar |
|
|
Buat rencana tes kustom
Jika template rencana tes yang disediakan oleh sistem tidak dapat memenuhi persyaratan tes Anda, Anda dapat membuat rencana tes kustom.
Tes GPU Tunggal: Jumlah node dapat disesuaikan. Secara default, MatMul digunakan dalam kasus tes ini.
Tes Mesin Tunggal: Jumlah node dapat disesuaikan. Secara default, Bert-base digunakan dalam kasus tes ini.
Tes Model AI: Model AI dan jumlah GPU yang akan dievaluasi untuk kluster dapat disesuaikan.
Model AI berikut didukung: LLaMA-7B, Stable Diffusion, Swin Transformer, Bert-base, dan UNet.
Secara default, pengaturan parameter dasar digunakan. Anda dapat melihat pengaturan parameter di halaman detail tes.
Estimasi durasi evaluasi
Setelah Anda memilih rencana tes, durasi evaluasi secara otomatis diestimasi berdasarkan konten tes yang terkandung dalam rencana tes. Durasi evaluasi diestimasi berdasarkan skala maksimum kluster yang Anda pilih di Langkah 1. Jika skala tersedia kluster Anda tidak mencapai skala maksimumnya, durasi evaluasi aktual lebih lama dari durasi estimasi.
Mulai evaluasi
Setelah Langkah 1 dan Langkah 2 selesai, klik Mulai Evaluasi untuk memulai evaluasi dan tunggu hasil evaluasi.
Lihat kemajuan dan hasil evaluasi
Setelah rencana tes dibuat, Anda dapat melihat status dan kemajuan rencana tes secara real-time di tab Rencana. Temukan rencana tes dan klik Detail di kolom Aksi untuk pergi ke halaman detail rencana tes dan melihat kemajuan setiap tes.
Tes GPU tunggal
Tes berhasil.
Jika tidak ada GPU rusak yang dicurigai atau GPU peringatan terdeteksi di antara GPU yang diuji, tes GPU tunggal berhasil.
nullGPU Rusak yang Dicurigai: Tugas yang menguji GPU gagal, dan GPU mungkin rusak.
GPU Peringatan: TFLOPS GPU melebihi rentang ambang batas normal lebih dari 5% dari jumlah iterasi.
Logika untuk Menghitung Rentang Ambang Batas Normal: Ambil median TFLOPS semua GPU di setiap iterasi sebagai baseline, dan bandingkan 103% dan 97% dari baseline dengan sigma empat kali lipat (standar deviasi empat kali lipat). Nilai yang lebih besar digunakan sebagai ambang batas maksimum dan minimum rentang ambang batas normal.
Hasil tes abnormal.
Jika setidaknya satu GPU rusak yang dicurigai atau GPU peringatan terdeteksi di antara GPU yang diuji, tes GPU tunggal menghasilkan hasil abnormal.
Di daftar tugas evaluasi, Anda dapat mengklik ikon plus (+) untuk melihat detail GPU rusak yang dicurigai atau GPU peringatan. Anda dapat melaporkan node abnormal yang terdeteksi ke tim O&M untuk pemecahan masalah lebih lanjut. Klik Detail Evaluasi di kolom Aksi untuk melihat hasil tugas evaluasi.
Tes mesin tunggal
Tes berhasil.
Jika tidak ada node rusak yang dicurigai atau node peringatan terdeteksi di antara node yang diuji, tes mesin tunggal berhasil.
nullNode Rusak yang Dicurigai: DLC job pada node gagal, dan node mungkin rusak.
Node Peringatan: Throughput node melebihi rentang ambang batas normal lebih dari 5% dari jumlah iterasi.
Logika untuk Menghitung Rentang Ambang Batas Normal: Ambil median throughput semua node di setiap iterasi sebagai baseline, dan bandingkan 103% dan 97% dari baseline dengan sigma empat kali lipat (standar deviasi empat kali lipat). Nilai yang lebih besar digunakan sebagai ambang batas maksimum dan minimum rentang ambang batas normal.
Hasil tes abnormal.
Jika setidaknya satu node rusak yang dicurigai atau node peringatan terdeteksi di antara node yang diuji, tes mesin tunggal menghasilkan hasil abnormal.
Di daftar tugas evaluasi, Anda dapat mengklik ikon plus (+) untuk melihat detail node rusak yang dicurigai atau node peringatan. Anda dapat melaporkan node abnormal yang terdeteksi ke tim O&M untuk pemecahan masalah lebih lanjut. Klik Detail Evaluasi di kolom Aksi untuk melihat hasil tugas evaluasi.
Tes model AI
Kemajuan tes
Tertunda: Semua tugas siap dijalankan.
Selesai: Semua tugas berhasil dijalankan, gagal, atau dihentikan.
Dihentikan: Semua tugas dihentikan.
Berjalan: Beberapa tugas selesai, dan beberapa tugas siap dijalankan atau sedang dijalankan.
Tugas evaluasi
Anda dapat melihat semua tugas yang termasuk dalam tes model AI dari rencana tes saat ini. Jika Anda ingin menghentikan tugas yang sedang berlangsung, Anda dapat mengklik Hentikan. Semua tugas dapat dihapus.
nullData tugas yang dihapus atau gagal tidak dikumpulkan di dasbor kinerja. Lanjutkan dengan hati-hati saat Anda menghapus tugas.
Lihat hasil evaluasi di dasbor kinerja
Pergi ke dasbor kinerja rencana tes
Jika rencana tes berada dalam status Selesai, Anda dapat mengklik Laporan Kinerja di kolom Aksi untuk melihat hasil rencana tes di dasbor kinerja. Dasbor kinerja menampilkan tugas evaluasi yang berhasil dijalankan dalam tes model AI dari rencana tes.
Konten yang ditampilkan di dasbor kinerja
Skalabilitas model tes
Dasbor kinerja menampilkan tren throughput berdasarkan jumlah GPU yang diuji dalam rencana tes saat ini untuk setiap model, yang menunjukkan skalabilitas kinerja model dalam kluster. Hasil tidak dibandingkan antara model yang berbeda.
Rumus: Skor Skalabilitas = log₂(Throughput model/Throughput model spesifikasi terendah)
Dalam contoh ini, model GPT3-175B digunakan hanya untuk tujuan ilustrasi dan data Mock diproses.
Jumlah GPU | Throughput | Skor skalabilitas | Skor skalabilitas teoretis |
64 | 10 | ||
128 | 18 | log₂(18/10) | log₂2 |
256 | 35 | log₂(35/10) | log₂4 |
512 | 69 | log₂(69/10) | log₂8 |
1.024 | 137 | log₂(137/10) | log₂16 |
Catatan: Skalabilitas kinerja lebih baik jika skor skalabilitas mendekati skor skalabilitas teoretis.
Detail hasil evaluasi
Di detail hasil evaluasi, Anda dapat melihat metrik seperti throughput, MFU, dan latensi iterasi untuk setiap model berdasarkan jumlah GPU yang diuji dalam rencana tes saat ini. Sumbu-y menunjukkan jumlah GPU, dan sumbu-x menunjukkan nilai metrik.