All Products
Search
Document Center

Platform For AI:Evaluasi model pengelompokan

Last Updated:Jun 21, 2026

Mengevaluasi kinerja model pengelompokan menggunakan data mentah dan hasil pengelompokan untuk menghasilkan metrik evaluasi.

Batasan

Laporan visualisasi komponen ini hanya tersedia di Machine Learning Studio versi asli.

Informasi latar belakang

Indeks Calinski-Harabasz, juga dikenal sebagai Variance Ratio Criterion (VRC), adalah metrik evaluasi yang dihitung menggunakan rumus berikut.VRC公式

Parameter

Description

SSB

Varians antar kluster, didefinisikan sebagai berikut.SSB Dengan:

  • k: jumlah pusat kluster.

  • mi: pusat suatu kluster.

  • m: rata-rata dari data masukan.

SSW

Varians dalam kluster, didefinisikan sebagai berikut.SSW Dengan:

  • k: jumlah pusat kluster.

  • x: titik data.

  • ci: kluster ke-i.

  • mi: pusat suatu kluster.

N

Jumlah total catatan.

k

Jumlah pusat kluster.

Konfigurasi komponen

Anda dapat mengonfigurasi komponen evaluasi model pengelompokan dengan salah satu metode berikut.

Metode 1: GUI

Konfigurasikan parameter komponen pada halaman pipeline Machine Learning Designer.

Tab

Parameter

Description

Field Settings

Evaluation Columns

Kolom yang akan dievaluasi.

Input is Sparse Format

Menentukan apakah data masukan dalam format sparse key-value (KV).

Key-Value Pair Delimiter

Default berupa koma (,).

Key-Value Inner Delimiter

Default berupa titik dua (:).

Execution Tuning

Number of Cores

Gunakan bersama Memory per Core. Harus berupa bilangan bulat positif.

Memory per Core

Gunakan bersama Number of Cores. Satuan: MB.

Metode 2: Perintah PAI

Jalankan perintah PAI di komponen SQL Script untuk mengonfigurasi parameter komponen. Untuk informasi selengkapnya, lihat SQL Script.

PAI -name cluster_evaluation
    -project algo_public
    -DinputTableName=pai_cluster_evaluation_test_input
    -DselectedColNames=f0,f3
    -DmodelName=pai_kmeans_test_model
    -DoutputTableName=pai_ft_cluster_evaluation_out;

Parameter

Required

Description

Default

inputTableName

Yes

Nama tabel masukan.

None

selectedColNames

No

Kolom dalam tabel masukan yang akan dievaluasi. Untuk menentukan beberapa kolom, pisahkan nama kolom dengan koma (,).

All columns

inputTablePartitions

No

Partisi tabel masukan yang digunakan untuk evaluasi. Format berikut didukung:

  • partition_name=value

  • name1=value1/name2=value2: format multi-level

Catatan

Jika Anda menentukan beberapa partisi, pisahkan dengan koma (,).

The entire table

enableSparse

No

Menentukan apakah data masukan dalam format sparse. Nilai yang valid: true dan false.

false

itemDelimiter

No

Pembatas antar pasangan kunci-nilai dalam format sparse.

A comma (,).

kvDelimiter

No

Pembatas antara key dan value dalam format sparse.

A colon (:).

modelName

Yes

Model pengelompokan masukan.

None

outputTableName

Yes

Tabel output.

None

lifecycle

No

Siklus hidup tabel output.

None

Contoh

  1. Gunakan pernyataan SQL untuk menghasilkan data uji.

    create table if not exists pai_cluster_evaluation_test_input as
    select * from
    (
      select 1 as id, 1 as f0,2 as f3
      union all
      select 2 as id, 1 as f0,3 as f3
      union all
      select 3 as id, 1 as f0,4 as f3
      union all
      select 4 as id, 0 as f0,3 as f3
      union all
      select 5 as id, 0 as f0,4 as f3
    )tmp;
  2. Gunakan perintah PAI untuk membuat model pengelompokan. Contoh ini menggunakan pengelompokan K-means.

    PAI -name kmeans
        -project algo_public
        -DinputTableName=pai_cluster_evaluation_test_input
        -DselectedColNames=f0,f3
        -DcenterCount=3
        -Dloop=10
        -Daccuracy=0.00001
        -DdistanceType=euclidean
        -DinitCenterMethod=random
        -Dseed=1
        -DmodelName=pai_kmeans_test_model
        -DidxTableName=pai_kmeans_test_idx
  3. Gunakan perintah PAI untuk menjalankan komponen evaluasi model pengelompokan.

    PAI -name cluster_evaluation
        -project algo_public
        -DinputTableName=pai_cluster_evaluation_test_input
        -DselectedColNames=f0,f3
        -DmodelName=pai_kmeans_test_model
        -DoutputTableName=pai_ft_cluster_evaluation_out;
  4. Lihat tabel output pai_ft_cluster_evaluation_out. Setelah komponen dijalankan, tabel output berisi nilai calinhara sebesar 3, nilai centerCount sebesar 3, dan nilai count sebesar 5. Tabel berikut menjelaskan bidang-bidang dalam tabel output.

    Field

    Description

    count

    Jumlah total catatan.

    centerCount

    Jumlah pusat kluster.

    calinhara

    Indeks Calinski-Harabasz.