Gunakan komponen Clustering Model Evaluation - Platform for AI - Alibaba Cloud - Platform For AI

Mengevaluasi kinerja model pengelompokan menggunakan data mentah dan hasil pengelompokan untuk menghasilkan metrik evaluasi.

Batasan

Laporan visualisasi komponen ini hanya tersedia di Machine Learning Studio versi asli.

Informasi latar belakang

Indeks Calinski-Harabasz, juga dikenal sebagai Variance Ratio Criterion (VRC), adalah metrik evaluasi yang dihitung menggunakan rumus berikut. VRC公式

Parameter	Description
SS_B	Varians antar kluster, didefinisikan sebagai berikut. Dengan: k: jumlah pusat kluster. m_i: pusat suatu kluster. m: rata-rata dari data masukan.
SS_W	Varians dalam kluster, didefinisikan sebagai berikut. Dengan: k: jumlah pusat kluster. x: titik data. c_i: kluster ke-i. m_i: pusat suatu kluster.
N	Jumlah total catatan.
k	Jumlah pusat kluster.

Konfigurasi komponen

Anda dapat mengonfigurasi komponen evaluasi model pengelompokan dengan salah satu metode berikut.

Metode 1: GUI

Konfigurasikan parameter komponen pada halaman pipeline Machine Learning Designer.

Tab	Parameter	Description
Field Settings	Evaluation Columns	Kolom yang akan dievaluasi.
	Input is Sparse Format	Menentukan apakah data masukan dalam format sparse key-value (KV).
	Key-Value Pair Delimiter	Default berupa koma (,).
	Key-Value Inner Delimiter	Default berupa titik dua (:).
Execution Tuning	Number of Cores	Gunakan bersama Memory per Core. Harus berupa bilangan bulat positif.
Execution Tuning	Memory per Core	Gunakan bersama Number of Cores. Satuan: MB.

Metode 2: Perintah PAI

Jalankan perintah PAI di komponen SQL Script untuk mengonfigurasi parameter komponen. Untuk informasi selengkapnya, lihat SQL Script.

PAI -name cluster_evaluation
    -project algo_public
    -DinputTableName=pai_cluster_evaluation_test_input
    -DselectedColNames=f0,f3
    -DmodelName=pai_kmeans_test_model
    -DoutputTableName=pai_ft_cluster_evaluation_out;

Parameter	Required	Description	Default
inputTableName	Yes	Nama tabel masukan.	None
selectedColNames	No	Kolom dalam tabel masukan yang akan dievaluasi. Untuk menentukan beberapa kolom, pisahkan nama kolom dengan koma (,).	All columns
inputTablePartitions	No	Partisi tabel masukan yang digunakan untuk evaluasi. Format berikut didukung: partition_name=value name1=value1/name2=value2: format multi-level Catatan Jika Anda menentukan beberapa partisi, pisahkan dengan koma (,).	The entire table
enableSparse	No	Menentukan apakah data masukan dalam format sparse. Nilai yang valid: `true` dan `false`.	false
itemDelimiter	No	Pembatas antar pasangan kunci-nilai dalam format sparse.	A comma (,).
kvDelimiter	No	Pembatas antara key dan value dalam format sparse.	A colon (:).
modelName	Yes	Model pengelompokan masukan.	None
outputTableName	Yes	Tabel output.	None
lifecycle	No	Siklus hidup tabel output.	None

Contoh

Gunakan pernyataan SQL untuk menghasilkan data uji.

create table if not exists pai_cluster_evaluation_test_input as
select * from
(
  select 1 as id, 1 as f0,2 as f3
  union all
  select 2 as id, 1 as f0,3 as f3
  union all
  select 3 as id, 1 as f0,4 as f3
  union all
  select 4 as id, 0 as f0,3 as f3
  union all
  select 5 as id, 0 as f0,4 as f3
)tmp;

Gunakan perintah PAI untuk membuat model pengelompokan. Contoh ini menggunakan pengelompokan K-means.

PAI -name kmeans
    -project algo_public
    -DinputTableName=pai_cluster_evaluation_test_input
    -DselectedColNames=f0,f3
    -DcenterCount=3
    -Dloop=10
    -Daccuracy=0.00001
    -DdistanceType=euclidean
    -DinitCenterMethod=random
    -Dseed=1
    -DmodelName=pai_kmeans_test_model
    -DidxTableName=pai_kmeans_test_idx

Gunakan perintah PAI untuk menjalankan komponen evaluasi model pengelompokan.

PAI -name cluster_evaluation
    -project algo_public
    -DinputTableName=pai_cluster_evaluation_test_input
    -DselectedColNames=f0,f3
    -DmodelName=pai_kmeans_test_model
    -DoutputTableName=pai_ft_cluster_evaluation_out;

Lihat tabel output pai_ft_cluster_evaluation_out. Setelah komponen dijalankan, tabel output berisi nilai calinhara sebesar 3, nilai centerCount sebesar 3, dan nilai count sebesar 5. Tabel berikut menjelaskan bidang-bidang dalam tabel output.

Field

Description

count

Jumlah total catatan.

centerCount

Jumlah pusat kluster.

calinhara

Indeks Calinski-Harabasz.

Field	Description
count	Jumlah total catatan.
centerCount	Jumlah pusat kluster.
calinhara	Indeks Calinski-Harabasz.