All Products
Search
Document Center

Platform For AI:Matriks kebingungan

Last Updated:Apr 02, 2026

Komponen Matriks Kebingungan mengevaluasi kinerja model klasifikasi dengan membandingkan label prediksi terhadap label aktual dan menampilkannya dalam bentuk matriks. Setiap sel menunjukkan jumlah sampel untuk kombinasi aktual versus prediksi tertentu, sehingga memudahkan identifikasi kasus di mana model salah mengenali satu kelas sebagai kelas lain. Komponen ini dirancang untuk Supervised Learning dan memiliki padanan berupa matriks serupa dalam Unsupervised Learning.

Engine komputasi yang didukung: Hanya MaxCompute.

Cara kerja

Komponen ini menggunakan tabel hasil prediksi sebagai input. Setiap baris merepresentasikan satu sampel, dengan kolom untuk label aktual dan label prediksi (atau probabilitas prediksi). Komponen ini menghitung jumlah sampel dalam setiap kombinasi aktual versus prediksi dan menuliskan hasilnya ke tabel output.

Membaca matriks: Setiap baris merepresentasikan kelas aktual; setiap kolom merepresentasikan kelas prediksi. Sel-sel pada diagonal menunjukkan sampel yang diklasifikasikan dengan benar—nilai diagonal yang lebih tinggi mengindikasikan kinerja model yang lebih baik. Sel-sel di luar diagonal menunjukkan sampel yang salah diklasifikasikan, mengungkapkan kelas-kelas yang sering dikacaukan oleh model.

Untuk klasifikasi biner, Anda dapat menetapkan ambang batas (threshold) untuk mengonversi probabilitas prediksi menjadi label. Sampel dengan probabilitas prediksi di atas ambang batas tersebut dianggap sebagai contoh positif.

Konfigurasi komponen

Anda dapat mengonfigurasi komponen Matriks Kebingungan di Machine Learning Designer (Metode 1) atau dengan menjalankan perintah PAI dalam skrip SQL (Metode 2).

Metode 1: Konfigurasi di Machine Learning Designer

Pemilihan parameter: Gunakan salah satu dari Prediction result label column atau Prediction result detail column—jangan gunakan keduanya sekaligus. Gunakan Prediction result label column jika input Anda sudah berisi label prediksi. Gunakan Prediction result detail column jika Anda ingin menerapkan ambang batas probabilitas untuk menentukan contoh positif.

ParameterDeskripsi
Original label columnKolom yang berisi label aktual (ground-truth). Tipe data numerik didukung.
Prediction result label columnKolom yang berisi label prediksi. Diperlukan jika Threshold tidak ditetapkan.
ThresholdNilai ambang batas untuk menentukan contoh positif. Sampel dengan nilai prediksi di atas ambang batas ini diklasifikasikan sebagai positif.
Prediction result detail columnKolom yang berisi probabilitas prediksi. Diperlukan jika Threshold ditetapkan. Tidak dapat digunakan bersamaan dengan Prediction result label column.
Positive sample labelNilai label yang mengidentifikasi contoh positif dalam klasifikasi biner. Diperlukan jika Threshold ditetapkan.

Metode 2: Jalankan perintah PAI

Gunakan perintah PAI dalam skrip SQL untuk mengonfigurasi dan menjalankan komponen. Untuk informasi lebih lanjut, lihat SQL Script.

Semua perintah menggunakan nama algoritma confusionmatrix dan proyek algo_public.

Pemilihan mode: Gunakan predictionColName jika tabel input Anda sudah berisi label prediksi. Gunakan predictionDetailColName bersama threshold jika Anda ingin mengklasifikasikan sampel berdasarkan probabilitas prediksi.

Tanpa threshold (klasifikasi berbasis label):

pai -name confusionmatrix -project algo_public
    -DinputTableName=wpbc_pred
    -DoutputTableName=wpbc_confu
    -DlabelColName=label
    -DpredictionColName=prediction_result;

Dengan threshold (klasifikasi biner berbasis probabilitas):

pai -name confusionmatrix -project algo_public
    -DinputTableName=wpbc_pred
    -DoutputTableName=wpbc_confu
    -DlabelColName=label
    -DpredictionDetailColName=prediction_detail
    -Dthreshold=0.8
    -DgoodValue=N;

Parameter:

ParameterWajibDeskripsiBawaan
inputTableNameYaNama tabel input (tabel output prediksi).
inputTablePartitionTidakPartisi yang akan dibaca dari tabel input.Seluruh tabel
outputTableNameYaNama tabel output tempat matriks kebingungan disimpan.
labelColNameYaNama kolom label aktual.
predictionColNameTidakNama kolom label prediksi. Diperlukan jika threshold tidak ditetapkan. Tidak dapat ditetapkan bersamaan dengan predictionDetailColName.
predictionDetailColNameTidakNama kolom probabilitas prediksi. Diperlukan jika threshold ditetapkan. Tidak dapat ditetapkan bersamaan dengan predictionColName.
thresholdTidakProbabilitas ambang batas untuk mengklasifikasikan sampel sebagai positif.0.5
goodValueTidakNilai label yang mengidentifikasi contoh positif dalam klasifikasi biner. Diperlukan jika threshold ditetapkan.
coreNumTidakJumlah core yang digunakan.Dialokasikan secara otomatis
memSizePerCoreTidakMemori yang dialokasikan per core, dalam MB.Dialokasikan secara otomatis
lifecycleTidakSiklus hidup tabel output.

Contoh

Contoh ini menjelaskan skenario klasifikasi biner menggunakan set data berisi 10 baris dengan dua kelas label: A dan B.

Langkah 1: Buat tabel input

Buat tabel MaxCompute bernama test_data dengan skema berikut:

KolomTipe
idbigint
labelstring
prediction_resultstring

Untuk instruksi penyiapan, lihat MaxCompute client (odpscmd) dan Buat tabel.

Langkah 2: Impor data uji

Impor data berikut ke test_data. Untuk instruksi impor, lihat Impor data ke tabel.

idlabelprediction_result
0AA
1AB
2AA
3AA
4BB
5BB
6BA
7BB
8BA
9AA

Langkah 3: Bangun dan jalankan pipeline

  1. Buka Machine Learning Designer, lalu seret komponen Read Table dan Confusion Matrix ke kanvas.

  2. Hubungkan komponen seperti yang ditunjukkan pada gambar berikut.

    混淆矩阵实验

  3. Konfigurasi komponen Read Table -1: pada tab Select Table, atur Table Name menjadi test_data.

  4. Konfigurasi komponen Confusion Matrix -1: Gunakan nilai bawaan untuk semua parameter lainnya.

    ParameterNilai
    Original label columnlabel
    Prediction result label columnprediction_result
  5. Klik image untuk menjalankan pipeline. Untuk informasi lebih lanjut, lihat Pemodelan algoritma.

Langkah 4: Lihat hasil

Setelah pipeline selesai dijalankan, klik kanan komponen Confusion Matrix -1 dan pilih Visual Analysis.

  • Tab Confusion Matrix: menampilkan matriks lengkap. Baris merepresentasikan kelas aktual; kolom merepresentasikan kelas prediksi. Nilai yang lebih tinggi pada diagonal menunjukkan lebih banyak prediksi yang benar. Nilai di luar diagonal menunjukkan sampel yang salah diklasifikasikan—misalnya, nilai pada baris kelas A dan kolom kelas B berarti banyak sampel A diprediksi secara salah sebagai B.

    image

  • Tab Statistics: menampilkan statistik tentang model.

Topik terkait