Komponen Pengelompokan digunakan untuk diskretisasi fitur. Diskretisasi fitur adalah proses mengonversi data kontinu menjadi beberapa interval diskrit. Komponen ini mendukung pengelompokan frekuensi sama, lebar sama, dan otomatis.
Konfigurasi komponen
Anda dapat menggunakan salah satu metode berikut untuk mengonfigurasi komponen Pengelompokan.
Metode 1: Konfigurasikan komponen di halaman pipeline
| Tab | Parameter | Deskripsi |
| Pengaturan Bidang | Feature Columns | Kolom tipe STRING, BIGINT, dan DOUBLE didukung. |
| Label Column | Parameter ini hanya diperlukan untuk klasifikasi biner. | |
| Positive Value | Parameter ini hanya valid jika parameter Label Column ditentukan. | |
| Binning Parameter Source | Nilai valid: Parameters in Parameter Settings dan Manual Binning or Custom JSON. | |
| Reserve Unselected Feature Columns | Parameter ini hanya valid jika Anda menetapkan parameter Sumber Parameter Pengelompokan ke Pengelompokan Manual atau JSON Kustom. Jika Anda menetapkan parameter Cadangkan Kolom Fitur yang Tidak Dipilih ke Yes, kolom yang tidak ditentukan untuk parameter Feature Columns tetap tidak berubah di output. Sebaliknya, kolom yang tidak ditentukan untuk parameter Kolom Fitur dihapus dari output. | |
| Upload Binning and Constraint JSON Code | Parameter ini hanya valid jika Anda menetapkan parameter Binning Parameter Source ke Manual Binning or Custom JSON. | |
| Pengaturan Parameter | Bins | Jika Anda menetapkan parameter ini ke 10, fitur kontinu dikonversi menjadi 10 interval diskrit. |
| Custom Bins | Anda dapat menentukan jumlah baki untuk kolom tertentu. Pengaturan parameter ini memiliki prioritas lebih tinggi daripada pengaturan parameter Baki. Jika kolom tertentu tidak termasuk dalam kolom yang dipilih, kolom ini juga digunakan dalam pengelompokan. Misalnya, kolom col0 dan col1 dipilih untuk pengelompokan data. Jumlah baki yang disesuaikan untuk kolom col0 adalah 3, dan yang disesuaikan untuk kolom col2 adalah 5. Jika parameter Bins diatur ke 10, pengelompokan dilakukan berdasarkan col0:3,col1:10,col2:5. Tentukan parameter ini dalam format Nama Kolom 1:Jumlah Baki,Nama Kolom 2:Jumlah Baki. | |
| Custom Discrete Value Count Threshold | Tentukan parameter ini dalam format col0:3. | |
| Interval Type | Nilai valid: Left-open, Right-closed dan Left-closed, Right-open. | |
| Binning Mode | Nilai valid: Equal Frequency, Equal Width, dan Automatic Binning. | |
| Discrete Value Count Threshold | Jika nilai kurang dari ambang batas ini, nilai tersebut didistribusikan ke bin lainnya. | |
| Tuning | Cores | Jumlah inti. Secara default, sistem menentukan nilainya. |
| Memory Size per Core | Ukuran memori setiap inti. Secara default, sistem menentukan nilainya. |
Metode 2: Gunakan perintah PAI
PAI -name binning
-project algo_public
-DinputTableName=input
-DoutputTableName=output| Parameter | Deskripsi | Diperlukan | Nilai default |
| inputTableName | Nama tabel input. | Ya | Tidak ada |
| outputTableName | Nama tabel output. | Ya | Tidak ada |
| selectedColNames | Kolom yang dipilih dari tabel input untuk pengelompokan. | Tidak | Semua kolom kecuali kolom label (Jika tidak ada kolom label, semua kolom dipilih.) |
| labelColName | Kolom label. | Tidak | Tidak ada |
| validTableName | Nama tabel validasi. Parameter ini diperlukan jika parameter binningMethod diatur ke auto. | Tidak | Null |
| validTablePartitions | Partisi yang dipilih dari tabel validasi. | Tidak | Seluruh tabel |
| inputTablePartitions | Partisi yang dipilih dari tabel input. | Tidak | Seluruh tabel |
| inputBinTableName | Tabel pengelompokan input. | Tidak | Tidak ada |
| selectedBinColNames | Kolom yang dipilih dari tabel pengelompokan input. | Tidak | Null |
| positiveLabel | Menentukan apakah sampel merupakan contoh positif. | Tidak | 1 |
| nDivide | Jumlah baki. Nilai parameter ini harus bilangan bulat positif. | Tidak | 10 |
| colsNDivide | Jumlah baki untuk kolom tertentu. Tentukan parameter ini dalam format Nama Kolom 1:Jumlah Baki,Nama Kolom 2:Jumlah Baki. Contoh: col0:3,col2:5. Jika kolom yang ditentukan untuk parameter colsNDivide tidak termasuk dalam yang ditentukan untuk parameter selectedColNames, kolom tersebut juga digunakan dalam pengelompokan. Misalnya, parameter selectedColNames diatur ke col0,col1, parameter colsNDivide diatur ke col0:3,col2:5, dan parameter nDivide diatur ke 10. Dalam kasus ini, pengelompokan dilakukan berdasarkan col0:3,col1:10,col2:5. | Tidak | Null |
| isLeftOpen | Tipe interval. Nilai valid:
| Tidak | true |
| stringThreshold | Ambang batas untuk nilai diskrit dalam bin lainnya. | Tidak | Tidak ada |
| colsStringThreshold | Ambang batas untuk kolom tertentu. Tentukan parameter ini dalam format yang sama dengan parameter colsNDivide. | Tidak | Null |
| binningMethod | Mode pengelompokan. Nilai valid:
| Tidak | quantile |
| lifecycle | Lifespan tabel output. Nilai parameter ini harus bilangan bulat positif. | Tidak | Tidak ada |
| coreNum | Jumlah inti. Nilai parameter ini harus bilangan bulat positif. | Tidak | Ditetapkan oleh sistem |
| memSizePerCore | Ukuran memori setiap inti. Nilai parameter ini harus bilangan bulat positif. | Tidak | Ditetapkan oleh sistem |
- Urutan Naik: Bobot harus ditambahkan ke variabel dummy fitur berdasarkan nilai indeks dalam urutan naik. Ini menunjukkan bahwa variabel dummy dengan nilai indeks lebih besar memiliki bobot lebih tinggi.
- Urutan Turun: Bobot harus ditambahkan ke variabel dummy fitur berdasarkan nilai indeks dalam urutan turun. Ini menunjukkan bahwa variabel dummy dengan nilai indeks lebih besar memiliki bobot lebih rendah.
- Bobot Sama: Bobot dua variabel dummy fitur harus sama.
- Bobot Nol: Bobot variabel dummy harus 0.
- Bobot Spesifik: Bobot variabel dummy harus nilai floating-point tertentu.
- Urutan WOE: Bobot harus ditambahkan ke variabel dummy fitur berdasarkan nilai weight of evidence (WOE) dalam urutan naik. Ini menunjukkan bahwa variabel dummy dengan nilai WOE lebih besar memiliki bobot lebih tinggi.
Presentasi hasil
- Setelah alur kerja yang berisi komponen Binning selesai dijalankan, klik kanan komponen Binning di kanvas dan pilih Binning.
- Di halaman daftar variabel, Anda dapat memeriksa informasi Bins, Type, dan IV untuk setiap variabel. Gambar berikut menunjukkan contoh informasi variabel.

- Klik nama variabel seperti f1 untuk masuk ke halaman detail pengelompokan variabel. Gambar berikut menunjukkan halaman detail pengelompokan f1. Anda dapat mengklik Merge atau Split untuk menggabungkan atau membagi data pengelompokan. Anda juga dapat menentukan batasan untuk baki.null Batasan yang ditentukan hanya berlaku pada komponen Pelatihan Scorecard berikutnya. Jika Anda menggunakan komponen Pengelompokan tanpa komponen Pelatihan Scorecard, batasan ini dapat diabaikan.
