All Products
Search
Document Center

Platform For AI:Box plot

Last Updated:Apr 02, 2026

Komponen Box Plot di Machine Learning Designer memvisualisasikan distribusi statistik suatu set data. Gunakan komponen ini untuk memeriksa sebaran nilai pada fitur kontinu serta membandingkan distribusi antar kelompok yang ditentukan oleh fitur kategorikal.

Batasan

Laporan visualisasi untuk komponen ini hanya tersedia di Machine Learning Studio.

Konfigurasikan komponen

Metode 1: Menggunakan Konsol

Pada halaman konfigurasi pipeline di Machine Learning Designer, atur parameter berikut di bawah tab Field Setting.

ParameterDeskripsi
Continuous FeaturesKolom yang berisi fitur kontinu yang akan dianalisis.
Enumeration FeatureKolom yang berisi fitur kategorikal. Setiap nilai unik dalam kolom ini menghasilkan kelompok box plot terpisah, sehingga Anda dapat membandingkan distribusi antar kategori.
Stratified SamplesJumlah sampel stratifikasi yang digunakan.
Catatan: Di Machine Learning Studio, Anda hanya dapat memilih satu bidang untuk setiap parameter. Di Machine Learning Designer, Anda dapat memilih beberapa bidang.

Metode 2: Menggunakan perintah PAI

Jalankan perintah PAI berikut menggunakan komponen SQL Script.

PAI -name box_plot -project algo_public
    -DinputTable="boxplot"
    -DcontinueCols="age"
    -DcategoryCol="y"
    -DoutputTable="pai_temp_6075_97181_1"
    -DsampleSize="1000"
    -Dlifecycle="7";
ParameterWajibDeskripsiBawaan
inputTableYaNama tabel input.N/A
inputTablePartitionsTidakPartisi yang dibaca dari tabel input. Format yang didukung: partition_name=value untuk partisi tunggal, name1=value1/name2=value2 untuk partisi multi-level. Untuk menentukan beberapa partisi, pisahkan dengan koma (,).N/A
outputTableYaNama tabel output yang menyimpan grafik box plot dan sampel.N/A
continueColsYaKolom yang berisi fitur kontinu.N/A
categoryColYaKolom yang berisi fitur kategorikal. Setiap nilai unik menghasilkan kelompok box plot terpisah.N/A
sampleSizeTidakJumlah titik data yang diambil sebagai sampel per stratum untuk merender titik gangguan.1000
lifecycleTidakSiklus hidup tabel output. Satuan: hari.28
coreNumTidakJumlah core yang dialokasikan untuk komputasi. Harus berupa bilangan bulat positif.Dialokasikan secara otomatis
memSizePerCoreTidakUkuran memori per core. Nilai valid: 1–65536. Satuan: MB.Dialokasikan secara otomatis

Contoh

Data input

CREATE TABLE boxplot AS SELECT age, y FROM bank_data LIMIT 100;

Tabel input memiliki dua kolom: age (fitur kontinu) dan y (fitur kategorikal).

agey
500
530
281
390
551

Pengaturan parameter

Atur age sebagai kolom fitur kontinu dan y sebagai kolom fitur kategorikal. Pertahankan nilai bawaan untuk semua parameter lainnya.

Output

Untuk melihat output, klik kanan Box Plot dan pilih View Data > Output Port.

Tabel output berisi kolom-kolom berikut:

KolomDeskripsi
percent_pointsNilai persentil yang dihitung.
percent_countJumlah entri data dalam setiap interval, di mana interval dibagi berdasarkan persentil.
sample_listSampel yang dipilih dari setiap stratum. Laju pengambilan sampel dihitung sebagai: laju pengambilan sampel = jumlah sampel stratifikasi / jumlah total entri data. Jika laju pengambilan sampel terlalu rendah dan jumlah sampel dalam stratum apa pun dikalikan dengan laju tersebut menghasilkan kurang dari 10, laju pengambilan sampel akan dihitung ulang.

Komponen ini menghasilkan dua visualisasi:

Box plot chartDistribution of disturbance points