Gunakan CNP untuk mengevaluasi kinerja kluster dan model AI-Platform For AI-Alibaba Cloud - Platform For AI

Cloud Native Application Performance Optimizer (CNP) adalah platform untuk mengevaluasi, menganalisis, dan mengoptimalkan kinerja aplikasi cloud-native. CNP mengotomatiskan evaluasi kinerja pelatihan untuk Kluster LINGJUN dan memberikan saran optimasi.

Akses platform CNP

Masuk ke Konsol Kluster LINGJUN.
Pada panel navigasi di sebelah kiri, klik Performance Evaluation > CNP Performance Evaluation.
Di platform CNP, Anda dapat memulai evaluasi kinerja dan melihat hasil evaluasi.
Di pojok kiri bawah halaman, klik Back untuk kembali ke Konsol Kluster LINGJUN.

Start an evaluation

Step 1: Select a cluster

Di halaman selamat datang, klik Start Evaluation. Atau, di halaman evaluasi kinerja, klik Start an Evaluation untuk memulai langkah pertama: Select a cluster.

Cluster Name: Pilih kluster yang ingin Anda evaluasi.

DLC access information: Masukkan informasi yang diperlukan dan klik Test Connectivity. Pesan sukses akan muncul jika koneksi berhasil. Jika tidak, alasan kegagalan akan ditampilkan. Tabel berikut mencantumkan alasan kegagalan umum:

Failure reasons	Recommended operation
Connection timeout	Tambahkan CNP ke daftar putih akses dan coba lagi.
Incorrect information	Setidaknya salah satu dari berikut ini salah: ID AccessKey, Rahasia AccessKey, ruang kerja, atau Endpoint. Periksa informasi tersebut dan coba lagi.
Failed to obtain an STS token (D3001)
Failed to create an SLR (D3002)
Failed to create an ARMS instance (D3003)
Failed to check the ARMS service (D3004)	Aktifkan ARMS.
Failed to obtain ARMS information (D3005)
No permission to create an SLR (D3006)	Berikan izin SLR.

Setelah pengujian konektivitas berhasil, klik Next untuk melanjutkan ke Step 2: Select a test plan.

Step 2: Select a test plan

Use a template

Tersedia dua templat rencana pengujian default. Pilih salah satu berdasarkan skenario bisnis Anda.

Plan	Test content	Tested cluster scale
Plan A: General plan for large language model scenarios	Single GPU test: MatMul (matrix operator) Single machine test: Bert-base AI model test: LLaMA-7B	Single GPU test: Menggunakan skala maksimum kluster secara default. Single machine test: Menggunakan skala maksimum kluster secara default. AI model test: Secara default, tugas evaluasi dibuat untuk kluster dengan 8, 16, 32, 64, 128, 256, dan 512 GPU. Tugas dibuat berdasarkan skala maksimum kluster Anda. Misalnya, jika skala maksimum kluster Anda adalah 100 GPU, tugas hanya dibuat untuk 8, 16, 32, dan 64 GPU.
Plan B: General plan for image recognition scenarios	Single GPU test: MatMul (matrix operator) Single machine test: Bert-base AI model test: Swin-Transformer, Stable Diffusion	Single GPU test: Menggunakan skala maksimum kluster secara default. Single machine test: Menggunakan skala maksimum kluster secara default. AI model test: Secara default, tugas evaluasi dibuat untuk 8, 16, 32, dan 64 GPU. Tugas dibuat berdasarkan skala maksimum kluster Anda. Misalnya, jika skala maksimum kluster Anda adalah 16 GPU, tugas hanya dibuat untuk 8 dan 16 GPU.

Custom plan

Jika templat tidak memenuhi kebutuhan Anda, buat rencana pengujian kustom.

Single GPU test: Anda dapat menyesuaikan jumlah node. Kasus uji default adalah MatMul.
Single machine test: Anda dapat menyesuaikan jumlah node. Kasus uji default adalah Bert-base.
AI model test: Anda dapat menyesuaikan model AI dan jumlah GPU yang akan dievaluasi.

Catatan

Model berikut saat ini didukung: LLaMA-7B, Stable Diffusion, Swin-Transformer, Bert-base, dan UNet.
Pengaturan parameter default menggunakan konfigurasi garis dasar. Anda dapat melihat konfigurasi spesifik di halaman tersebut.

Estimated evaluation time

Setelah Anda memilih rencana pengujian, sistem memperkirakan waktu evaluasi berdasarkan konten pengujian dan maximum scale kluster yang dipilih di Langkah 1. Jika jumlah node yang tersedia kurang dari maksimum, waktu evaluasi aktual akan melebihi perkiraan.

One-click start evaluation

Setelah Anda menyelesaikan Langkah 1 dan Langkah 2, klik One-click Start Evaluation untuk memulai evaluasi.

View evaluation progress and results

Setelah Anda membuat rencana pengujian, lihat status eksekusi dan progresnya secara real time di halaman daftar rencana pengujian. Klik Details untuk melihat progres setiap tahap.

Single GPU test

Test passed

Pengujian single GPU lolos jika tidak ditemukan suspected faulty GPUs atau warning GPUs.
Catatan
- Suspected faulty card: Menunjukkan bahwa sebuah tugas gagal pada kartu tersebut.
- Warning card: Menunjukkan bahwa variasi TFLOPS kartu tersebut berada di luar rentang ambang batas normal pada lebih dari 5% iterasi.
- Logika perhitungan ambang batas normal: Median TFLOPS semua GPU dalam setiap iterasi digunakan sebagai garis dasar. Sistem membandingkan garis dasar ±3% dengan 4 × sigma (4 × deviasi standar). Nilai yang lebih besar dari keduanya digunakan sebagai rentang ambang batas normal.
Abnormal test results

Hasil pengujian single GPU tidak normal jika ditemukan suspected faulty GPU atau warning GPU.

Di daftar tugas evaluasi, klik ikon plus untuk membuka dan melihat detail GPU yang dicurigai rusak atau GPU peringatan. Laporkan node tidak normal ke tim O&M untuk investigasi. Klik Evaluation Details untuk melihat hasil detail.

Single machine test progress

Test passed

Pengujian single machine lolos jika tidak ditemukan suspected faulty nodes atau warning nodes.
Catatan
- Suspected faulty node: Pekerjaan DLC pada node ini gagal, yang mengindikasikan bahwa node tersebut mungkin rusak.
- Warning node: Throughput node ini berada di luar rentang ambang batas normal pada lebih dari 5% iterasi.
- Logika perhitungan ambang batas normal: Median throughput semua node dalam setiap iterasi digunakan sebagai garis dasar. Sistem membandingkan garis dasar ±3% dengan 4 × sigma (4 × deviasi standar). Nilai yang lebih besar dari keduanya digunakan sebagai rentang ambang batas normal.
Abnormal test results

Hasil pengujian single machine tidak normal jika ditemukan node yang dicurigai rusak atau node peringatan.

Di daftar tugas evaluasi, klik plus icon untuk membuka dan melihat detail node yang dicurigai rusak atau node peringatan. Laporkan node tidak normal ke tim O&M untuk investigasi. Klik Evaluation Details untuk melihat hasil detail.

AI model test

Test progress

Pending: Semua tugas sedang menunggu untuk dieksekusi.

Completed: Semua tugas telah berhasil, gagal, atau dihentikan.

Stopped: Semua tugas telah dihentikan.

Running: Sebagian tugas telah selesai, dan sisanya sedang menunggu atau berjalan.
Test task list

Menampilkan semua tugas dalam tahap pengujian model AI dari rencana saat ini. Untuk menghentikan tugas yang sedang berjalan, klik Stop. Semua tugas dapat dihapus.

Peringatan
Data dari tugas yang dihapus atau gagal tidak termasuk dalam Dasbor kinerja. Hapus tugas dengan hati-hati.

View the performance dashboard

Access the dashboard

Untuk rencana pengujian dengan status Completed, lihat Dasbor kinerja. Dasbor ini menampilkan data dari tugas evaluasi yang berhasil diselesaikan dalam tahap pengujian model AI.

Dashboard content

Scalability of Test Model

Grafik ini menunjukkan tren throughput untuk setiap model seiring peningkatan jumlah GPU, mencerminkan skalabilitas model tersebut pada kluster. Hasil model yang berbeda tidak dibandingkan.

Formula: Skor Skalabilitas = log₂(Throughput Model / Throughput Konfigurasi Terkecil yang Dievaluasi)