Komponen Box Plot di Machine Learning Designer memvisualisasikan distribusi statistik suatu set data. Gunakan komponen ini untuk memeriksa sebaran nilai pada fitur kontinu serta membandingkan distribusi antar kelompok yang ditentukan oleh fitur kategorikal.
Batasan
Laporan visualisasi untuk komponen ini hanya tersedia di Machine Learning Studio.
Konfigurasikan komponen
Metode 1: Menggunakan Konsol
Pada halaman konfigurasi pipeline di Machine Learning Designer, atur parameter berikut di bawah tab Field Setting.
| Parameter | Deskripsi |
|---|---|
| Continuous Features | Kolom yang berisi fitur kontinu yang akan dianalisis. |
| Enumeration Feature | Kolom yang berisi fitur kategorikal. Setiap nilai unik dalam kolom ini menghasilkan kelompok box plot terpisah, sehingga Anda dapat membandingkan distribusi antar kategori. |
| Stratified Samples | Jumlah sampel stratifikasi yang digunakan. |
Catatan: Di Machine Learning Studio, Anda hanya dapat memilih satu bidang untuk setiap parameter. Di Machine Learning Designer, Anda dapat memilih beberapa bidang.
Metode 2: Menggunakan perintah PAI
Jalankan perintah PAI berikut menggunakan komponen SQL Script.
PAI -name box_plot -project algo_public
-DinputTable="boxplot"
-DcontinueCols="age"
-DcategoryCol="y"
-DoutputTable="pai_temp_6075_97181_1"
-DsampleSize="1000"
-Dlifecycle="7";| Parameter | Wajib | Deskripsi | Bawaan |
|---|---|---|---|
inputTable | Ya | Nama tabel input. | N/A |
inputTablePartitions | Tidak | Partisi yang dibaca dari tabel input. Format yang didukung: partition_name=value untuk partisi tunggal, name1=value1/name2=value2 untuk partisi multi-level. Untuk menentukan beberapa partisi, pisahkan dengan koma (,). | N/A |
outputTable | Ya | Nama tabel output yang menyimpan grafik box plot dan sampel. | N/A |
continueCols | Ya | Kolom yang berisi fitur kontinu. | N/A |
categoryCol | Ya | Kolom yang berisi fitur kategorikal. Setiap nilai unik menghasilkan kelompok box plot terpisah. | N/A |
sampleSize | Tidak | Jumlah titik data yang diambil sebagai sampel per stratum untuk merender titik gangguan. | 1000 |
lifecycle | Tidak | Siklus hidup tabel output. Satuan: hari. | 28 |
coreNum | Tidak | Jumlah core yang dialokasikan untuk komputasi. Harus berupa bilangan bulat positif. | Dialokasikan secara otomatis |
memSizePerCore | Tidak | Ukuran memori per core. Nilai valid: 1–65536. Satuan: MB. | Dialokasikan secara otomatis |
Contoh
Data input
CREATE TABLE boxplot AS SELECT age, y FROM bank_data LIMIT 100;Tabel input memiliki dua kolom: age (fitur kontinu) dan y (fitur kategorikal).
| age | y |
|---|---|
| 50 | 0 |
| 53 | 0 |
| 28 | 1 |
| 39 | 0 |
| 55 | 1 |
Pengaturan parameter
Atur age sebagai kolom fitur kontinu dan y sebagai kolom fitur kategorikal. Pertahankan nilai bawaan untuk semua parameter lainnya.
Output
Untuk melihat output, klik kanan Box Plot dan pilih View Data > Output Port.
Tabel output berisi kolom-kolom berikut:
| Kolom | Deskripsi |
|---|---|
percent_points | Nilai persentil yang dihitung. |
percent_count | Jumlah entri data dalam setiap interval, di mana interval dibagi berdasarkan persentil. |
sample_list | Sampel yang dipilih dari setiap stratum. Laju pengambilan sampel dihitung sebagai: laju pengambilan sampel = jumlah sampel stratifikasi / jumlah total entri data. Jika laju pengambilan sampel terlalu rendah dan jumlah sampel dalam stratum apa pun dikalikan dengan laju tersebut menghasilkan kurang dari 10, laju pengambilan sampel akan dihitung ulang. |
Komponen ini menghasilkan dua visualisasi:

