All Products
Search
Document Center

Platform For AI:Binning

Last Updated:Apr 02, 2026

Komponen Binning mengonversi fitur kontinu menjadi interval diskret—proses yang dikenal sebagai diskretisasi fitur. Gunakan komponen ini ketika kolom kontinu memiliki terlalu banyak nilai unik sehingga sulit dimodelkan secara efektif, saat Anda memerlukan rentang kategorikal untuk pelatihan, atau ketika nilai ekstrem menyebabkan kemiringan pada model Anda.

Kapan menggunakan binning

Binning berguna dalam skenario berikut:

  • Mengurangi kardinalitas: Kolom kontinu (seperti usia atau jumlah transaksi) memiliki terlalu banyak nilai unik. Kelompokkan nilai-nilai tersebut ke dalam himpunan rentang diskret yang lebih kecil agar model dapat mempelajari pola secara lebih efektif.

  • Membuat rentang kategorikal: Ganti nilai numerik dengan interval berlabel—misalnya, kelompokkan usia menjadi 1–15, 16–22, dan 23–30—untuk merepresentasikan segmen demografis.

  • Mitigating the effect of outliers: Nilai ekstrem dapat memengaruhi model secara tidak proporsional. Terapkan equal frequency binning untuk mengubah data menjadi distribusi seragam berdasarkan peringkat kuantil.

Mode binning

Pilih mode yang sesuai dengan distribusi data Anda sebelum mengonfigurasi parameter lainnya, karena mode binning menentukan parameter mana yang berlaku.

ModePerilaku
Equal frequencyMendistribusikan nilai sehingga setiap bin berisi jumlah sampel yang kurang lebih sama, berdasarkan peringkat kuantil. Gunakan mode ini jika Anda menginginkan ukuran bin yang seimbang terlepas dari distribusi data, atau untuk mengurangi pengaruh pencilan.
Equal widthMembagi rentang nilai menjadi interval dengan ukuran yang sama. Jika data mengelompok di sekitar nilai tertentu, beberapa bin mungkin berisi jauh lebih banyak sampel daripada yang lain.
AutomatedSistem secara otomatis memilih mode binning yang paling sesuai untuk setiap fitur. Memerlukan tabel validasi (validTableName dalam perintah PAI).

Konfigurasi komponen Binning

Metode 1: Konfigurasi pada kanvas pipeline

Pada kanvas pipeline Machine Learning Designer, pilih komponen Binning dan konfigurasikan parameter berikut.

Fields Setting tab

ParameterDeskripsi
Feature ColumnsKolom yang akan dibinning. Mendukung tipe STRING, BIGINT, dan DOUBLE.
Label ColumnDiperlukan hanya untuk klasifikasi biner.
Positive ValueBerlaku hanya jika Label Column ditentukan.
Binning Parameter SourceParameters in Parameter Settings: gunakan pengaturan pada tab Parameters Setting. Manual Binning or Custom JSON: tentukan definisi binning dan batasan.
Reserve Unselected Feature ColumnsBerlaku hanya jika Binning Parameter Source diatur ke Manual Binning or Custom JSON. Jika diatur ke Yes, kolom yang tidak tercantum dalam Feature Columns tetap tidak berubah pada output. Jika diatur ke No, kolom tersebut dihapus dari output.
Upload Binning and Constraint JSON CodeBerlaku hanya jika Binning Parameter Source diatur ke Manual Binning or Custom JSON.

Parameters Setting tab

Parameter berikut hanya muncul ketika Binning Parameter Source diatur ke Parameters in Parameter Settings.

ParameterDeskripsi
BinsJumlah interval diskret yang akan dibuat. Default: 10.
Custom BinsPenggantian jumlah bin per kolom. Format: Nama kolom 1:Jumlah bin,Nama kolom 2:Jumlah bin. Contoh: col0:3,col1:10,col2:5. Mengambil prioritas atas Bins. Kolom yang tercantum di sini tetapi tidak ada di Feature Columns tetap disertakan dalam binning.
Custom Discrete Value Count ThresholdAmbang batas per kolom untuk bin else. Format: col0:3.
Interval TypeLeft-open, Right-closed (default) atau Left-closed, Right-open.
Binning ModeEqual Frequency, Equal Width, atau Automatic Binning.
Discrete Value Count ThresholdNilai diskret dengan jumlah di bawah ambang batas ini akan dimasukkan ke dalam bin else.

Tuning tab

ParameterDeskripsi
CoresJumlah core. Default: ditentukan oleh sistem.
Memory Size per CoreMemori yang dialokasikan per core. Default: ditentukan oleh sistem.

Metode 2: Gunakan perintah PAI

Jalankan komponen Binning melalui perintah PAI menggunakan komponen SQL Script. Untuk informasi lebih lanjut, lihat SQL Script.

PAI -name binning
    -project algo_public
    -DinputTableName=input
    -DoutputTableName=output
ParameterWajibDefaultDeskripsi
inputTableNameYaNama tabel input.
outputTableNameYaNama tabel output.
selectedColNamesTidakSemua kolom kecuali kolom labelKolom yang akan dibinning. Jika tidak ada kolom label, semua kolom dipilih.
labelColNameTidakNoneNama kolom label.
validTableNameTidakNullNama tabel validasi. Diperlukan ketika binningMethod diatur ke auto.
validTablePartitionsTidakSeluruh tabelPartisi yang digunakan dari tabel validasi.
inputTablePartitionsTidakSeluruh tabelPartisi yang digunakan dari tabel input.
inputBinTableNameTidakNoneNama tabel binning input.
selectedBinColNamesTidakNullKolom yang digunakan dari tabel binning input.
positiveLabelTidak1Mengidentifikasi contoh positif.
nDivideTidak10Jumlah bin. Harus berupa bilangan bulat positif.
colsNDivideTidakNullJumlah bin per kolom. Format: Nama kolom 1:Jumlah bin,Nama kolom 2:Jumlah bin. Contoh: col0:3,col2:5. Kolom yang tercantum di sini tetapi tidak ada di selectedColNames tetap disertakan dalam binning.
isLeftOpenTidaktrueJenis interval. true: left-open, right-closed. false: left-closed, right-open.
stringThresholdTidakNoneAmbang batas untuk nilai diskret dalam bin else.
colsStringThresholdTidakNullAmbang batas per kolom untuk bin else. Formatnya sama seperti colsNDivide.
binningMethodTidakquantileMode binning. quantile: equal frequency. bucket: equal width. auto: automated.
lifecycleTidakNoneSiklus hidup tabel output. Harus berupa bilangan bulat positif.
coreNumTidakDitentukan oleh sistemJumlah core. Harus berupa bilangan bulat positif.
memSizePerCoreTidakDitentukan oleh sistemMemori per core. Harus berupa bilangan bulat positif.
Kolom yang tercantum dalam colsNDivide tetapi tidak ada di selectedColNames tetap disertakan dalam binning. Misalnya, jika selectedColNames adalah col0,col1, colsNDivide adalah col0:3,col2:5, dan nDivide adalah 10, maka binning diterapkan sebagai col0:3, col1:10, col2:5.

Lihat dan sesuaikan hasil binning

  1. Setelah alur kerja selesai, klik kanan komponen Binning pada kanvas dan pilih Binning.

  2. Pada halaman daftar variabel, tinjau nilai Bins, Type, dan IV untuk setiap variabel.

    Binning variables

  3. Klik nama variabel (misalnya f1) untuk membuka halaman detail binning. Klik Merge atau Split untuk menyesuaikan batas bin, dan tentukan batasan untuk masing-masing bin.

    Binning details

Batasan yang ditentukan pada halaman ini hanya berlaku untuk komponen Scorecard Training berikutnya. Jika komponen Binning digunakan tanpa Scorecard Training, batasan tersebut tidak berpengaruh.

Integrasi dengan Scorecard Training

Saat digunakan bersama komponen Scorecard Training, komponen Binning mengonversi fitur kontinu menjadi variabel dummy diskret untuk rekayasa fitur. Tentukan batasan bobot pada variabel dummy untuk mengontrol cara model scorecard belajar dari setiap bin.

Jenis batasan berikut tersedia:

BatasanDeskripsi
Ascending orderBobot meningkat seiring indeks bin. Bin dengan indeks lebih tinggi mendapatkan bobot lebih tinggi.
Descending orderBobot menurun seiring indeks bin. Bin dengan indeks lebih tinggi mendapatkan bobot lebih rendah.
Same weightDua variabel dummy dari fitur yang sama harus memiliki bobot identik.
Zero weightBobot variabel dummy ditetapkan tetap pada 0.
Specific weightBobot variabel dummy diatur ke nilai floating-point tertentu.
WOE orderBobot mengikuti nilai weight of evidence (WOE) dalam urutan naik. Bin dengan nilai WOE lebih tinggi mendapatkan bobot lebih tinggi.

Langkah selanjutnya