Komponen Binning mengonversi fitur kontinu menjadi interval diskret—proses yang dikenal sebagai diskretisasi fitur. Gunakan komponen ini ketika kolom kontinu memiliki terlalu banyak nilai unik sehingga sulit dimodelkan secara efektif, saat Anda memerlukan rentang kategorikal untuk pelatihan, atau ketika nilai ekstrem menyebabkan kemiringan pada model Anda.
Kapan menggunakan binning
Binning berguna dalam skenario berikut:
Mengurangi kardinalitas: Kolom kontinu (seperti usia atau jumlah transaksi) memiliki terlalu banyak nilai unik. Kelompokkan nilai-nilai tersebut ke dalam himpunan rentang diskret yang lebih kecil agar model dapat mempelajari pola secara lebih efektif.
Membuat rentang kategorikal: Ganti nilai numerik dengan interval berlabel—misalnya, kelompokkan usia menjadi 1–15, 16–22, dan 23–30—untuk merepresentasikan segmen demografis.
Mitigating the effect of outliers: Nilai ekstrem dapat memengaruhi model secara tidak proporsional. Terapkan equal frequency binning untuk mengubah data menjadi distribusi seragam berdasarkan peringkat kuantil.
Mode binning
Pilih mode yang sesuai dengan distribusi data Anda sebelum mengonfigurasi parameter lainnya, karena mode binning menentukan parameter mana yang berlaku.
| Mode | Perilaku |
|---|---|
| Equal frequency | Mendistribusikan nilai sehingga setiap bin berisi jumlah sampel yang kurang lebih sama, berdasarkan peringkat kuantil. Gunakan mode ini jika Anda menginginkan ukuran bin yang seimbang terlepas dari distribusi data, atau untuk mengurangi pengaruh pencilan. |
| Equal width | Membagi rentang nilai menjadi interval dengan ukuran yang sama. Jika data mengelompok di sekitar nilai tertentu, beberapa bin mungkin berisi jauh lebih banyak sampel daripada yang lain. |
| Automated | Sistem secara otomatis memilih mode binning yang paling sesuai untuk setiap fitur. Memerlukan tabel validasi (validTableName dalam perintah PAI). |
Konfigurasi komponen Binning
Metode 1: Konfigurasi pada kanvas pipeline
Pada kanvas pipeline Machine Learning Designer, pilih komponen Binning dan konfigurasikan parameter berikut.
Fields Setting tab
| Parameter | Deskripsi |
|---|---|
| Feature Columns | Kolom yang akan dibinning. Mendukung tipe STRING, BIGINT, dan DOUBLE. |
| Label Column | Diperlukan hanya untuk klasifikasi biner. |
| Positive Value | Berlaku hanya jika Label Column ditentukan. |
| Binning Parameter Source | Parameters in Parameter Settings: gunakan pengaturan pada tab Parameters Setting. Manual Binning or Custom JSON: tentukan definisi binning dan batasan. |
| Reserve Unselected Feature Columns | Berlaku hanya jika Binning Parameter Source diatur ke Manual Binning or Custom JSON. Jika diatur ke Yes, kolom yang tidak tercantum dalam Feature Columns tetap tidak berubah pada output. Jika diatur ke No, kolom tersebut dihapus dari output. |
| Upload Binning and Constraint JSON Code | Berlaku hanya jika Binning Parameter Source diatur ke Manual Binning or Custom JSON. |
Parameters Setting tab
Parameter berikut hanya muncul ketika Binning Parameter Source diatur ke Parameters in Parameter Settings.
| Parameter | Deskripsi |
|---|---|
| Bins | Jumlah interval diskret yang akan dibuat. Default: 10. |
| Custom Bins | Penggantian jumlah bin per kolom. Format: Nama kolom 1:Jumlah bin,Nama kolom 2:Jumlah bin. Contoh: col0:3,col1:10,col2:5. Mengambil prioritas atas Bins. Kolom yang tercantum di sini tetapi tidak ada di Feature Columns tetap disertakan dalam binning. |
| Custom Discrete Value Count Threshold | Ambang batas per kolom untuk bin else. Format: col0:3. |
| Interval Type | Left-open, Right-closed (default) atau Left-closed, Right-open. |
| Binning Mode | Equal Frequency, Equal Width, atau Automatic Binning. |
| Discrete Value Count Threshold | Nilai diskret dengan jumlah di bawah ambang batas ini akan dimasukkan ke dalam bin else. |
Tuning tab
| Parameter | Deskripsi |
|---|---|
| Cores | Jumlah core. Default: ditentukan oleh sistem. |
| Memory Size per Core | Memori yang dialokasikan per core. Default: ditentukan oleh sistem. |
Metode 2: Gunakan perintah PAI
Jalankan komponen Binning melalui perintah PAI menggunakan komponen SQL Script. Untuk informasi lebih lanjut, lihat SQL Script.
PAI -name binning
-project algo_public
-DinputTableName=input
-DoutputTableName=output| Parameter | Wajib | Default | Deskripsi |
|---|---|---|---|
| inputTableName | Ya | — | Nama tabel input. |
| outputTableName | Ya | — | Nama tabel output. |
| selectedColNames | Tidak | Semua kolom kecuali kolom label | Kolom yang akan dibinning. Jika tidak ada kolom label, semua kolom dipilih. |
| labelColName | Tidak | None | Nama kolom label. |
| validTableName | Tidak | Null | Nama tabel validasi. Diperlukan ketika binningMethod diatur ke auto. |
| validTablePartitions | Tidak | Seluruh tabel | Partisi yang digunakan dari tabel validasi. |
| inputTablePartitions | Tidak | Seluruh tabel | Partisi yang digunakan dari tabel input. |
| inputBinTableName | Tidak | None | Nama tabel binning input. |
| selectedBinColNames | Tidak | Null | Kolom yang digunakan dari tabel binning input. |
| positiveLabel | Tidak | 1 | Mengidentifikasi contoh positif. |
| nDivide | Tidak | 10 | Jumlah bin. Harus berupa bilangan bulat positif. |
| colsNDivide | Tidak | Null | Jumlah bin per kolom. Format: Nama kolom 1:Jumlah bin,Nama kolom 2:Jumlah bin. Contoh: col0:3,col2:5. Kolom yang tercantum di sini tetapi tidak ada di selectedColNames tetap disertakan dalam binning. |
| isLeftOpen | Tidak | true | Jenis interval. true: left-open, right-closed. false: left-closed, right-open. |
| stringThreshold | Tidak | None | Ambang batas untuk nilai diskret dalam bin else. |
| colsStringThreshold | Tidak | Null | Ambang batas per kolom untuk bin else. Formatnya sama seperti colsNDivide. |
| binningMethod | Tidak | quantile | Mode binning. quantile: equal frequency. bucket: equal width. auto: automated. |
| lifecycle | Tidak | None | Siklus hidup tabel output. Harus berupa bilangan bulat positif. |
| coreNum | Tidak | Ditentukan oleh sistem | Jumlah core. Harus berupa bilangan bulat positif. |
| memSizePerCore | Tidak | Ditentukan oleh sistem | Memori per core. Harus berupa bilangan bulat positif. |
Kolom yang tercantum dalamcolsNDividetetapi tidak ada diselectedColNamestetap disertakan dalam binning. Misalnya, jikaselectedColNamesadalahcol0,col1,colsNDivideadalahcol0:3,col2:5, dannDivideadalah10, maka binning diterapkan sebagaicol0:3,col1:10,col2:5.
Lihat dan sesuaikan hasil binning
Setelah alur kerja selesai, klik kanan komponen Binning pada kanvas dan pilih Binning.
Pada halaman daftar variabel, tinjau nilai Bins, Type, dan IV untuk setiap variabel.

Klik nama variabel (misalnya f1) untuk membuka halaman detail binning. Klik Merge atau Split untuk menyesuaikan batas bin, dan tentukan batasan untuk masing-masing bin.

Batasan yang ditentukan pada halaman ini hanya berlaku untuk komponen Scorecard Training berikutnya. Jika komponen Binning digunakan tanpa Scorecard Training, batasan tersebut tidak berpengaruh.
Integrasi dengan Scorecard Training
Saat digunakan bersama komponen Scorecard Training, komponen Binning mengonversi fitur kontinu menjadi variabel dummy diskret untuk rekayasa fitur. Tentukan batasan bobot pada variabel dummy untuk mengontrol cara model scorecard belajar dari setiap bin.
Jenis batasan berikut tersedia:
| Batasan | Deskripsi |
|---|---|
| Ascending order | Bobot meningkat seiring indeks bin. Bin dengan indeks lebih tinggi mendapatkan bobot lebih tinggi. |
| Descending order | Bobot menurun seiring indeks bin. Bin dengan indeks lebih tinggi mendapatkan bobot lebih rendah. |
| Same weight | Dua variabel dummy dari fitur yang sama harus memiliki bobot identik. |
| Zero weight | Bobot variabel dummy ditetapkan tetap pada 0. |
| Specific weight | Bobot variabel dummy diatur ke nilai floating-point tertentu. |
| WOE order | Bobot mengikuti nilai weight of evidence (WOE) dalam urutan naik. Bin dengan nilai WOE lebih tinggi mendapatkan bobot lebih tinggi. |