全部产品
Search
文档中心

Platform For AI:Pengelompokan

更新时间:Jun 22, 2025

Komponen Pengelompokan digunakan untuk diskretisasi fitur. Diskretisasi fitur adalah proses mengonversi data kontinu menjadi beberapa interval diskrit. Komponen ini mendukung pengelompokan frekuensi sama, lebar sama, dan otomatis.

Konfigurasi komponen

Anda dapat menggunakan salah satu metode berikut untuk mengonfigurasi komponen Pengelompokan.

Metode 1: Konfigurasikan komponen di halaman pipeline

Anda dapat mengonfigurasi parameter komponen Pengelompokan di halaman pipeline Machine Learning Designer dari Platform for AI (PAI). Machine Learning Designer sebelumnya dikenal sebagai Machine Learning Studio. Tabel berikut menjelaskan parameter.
TabParameterDeskripsi
Pengaturan BidangFeature ColumnsKolom tipe STRING, BIGINT, dan DOUBLE didukung.
Label ColumnParameter ini hanya diperlukan untuk klasifikasi biner.
Positive ValueParameter ini hanya valid jika parameter Label Column ditentukan.
Binning Parameter SourceNilai valid: Parameters in Parameter Settings dan Manual Binning or Custom JSON.
Reserve Unselected Feature ColumnsParameter ini hanya valid jika Anda menetapkan parameter Sumber Parameter Pengelompokan ke Pengelompokan Manual atau JSON Kustom. Jika Anda menetapkan parameter Cadangkan Kolom Fitur yang Tidak Dipilih ke Yes, kolom yang tidak ditentukan untuk parameter Feature Columns tetap tidak berubah di output. Sebaliknya, kolom yang tidak ditentukan untuk parameter Kolom Fitur dihapus dari output.
Upload Binning and Constraint JSON CodeParameter ini hanya valid jika Anda menetapkan parameter Binning Parameter Source ke Manual Binning or Custom JSON.
Pengaturan ParameterBinsJika Anda menetapkan parameter ini ke 10, fitur kontinu dikonversi menjadi 10 interval diskrit.
Custom Bins

Anda dapat menentukan jumlah baki untuk kolom tertentu. Pengaturan parameter ini memiliki prioritas lebih tinggi daripada pengaturan parameter Baki. Jika kolom tertentu tidak termasuk dalam kolom yang dipilih, kolom ini juga digunakan dalam pengelompokan. Misalnya, kolom col0 dan col1 dipilih untuk pengelompokan data. Jumlah baki yang disesuaikan untuk kolom col0 adalah 3, dan yang disesuaikan untuk kolom col2 adalah 5. Jika parameter Bins diatur ke 10, pengelompokan dilakukan berdasarkan col0:3,col1:10,col2:5.

Tentukan parameter ini dalam format Nama Kolom 1:Jumlah Baki,Nama Kolom 2:Jumlah Baki.

Custom Discrete Value Count ThresholdTentukan parameter ini dalam format col0:3.
Interval TypeNilai valid: Left-open, Right-closed dan Left-closed, Right-open.
Binning ModeNilai valid: Equal Frequency, Equal Width, dan Automatic Binning.
Discrete Value Count ThresholdJika nilai kurang dari ambang batas ini, nilai tersebut didistribusikan ke bin lainnya.
TuningCoresJumlah inti. Secara default, sistem menentukan nilainya.
Memory Size per CoreUkuran memori setiap inti. Secara default, sistem menentukan nilainya.

Metode 2: Gunakan perintah PAI

Konfigurasikan parameter komponen dengan menggunakan perintah PAI. Anda dapat menggunakan komponen SQL Script untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat SQL Script.
PAI -name binning
    -project algo_public
    -DinputTableName=input
    -DoutputTableName=output
ParameterDeskripsiDiperlukanNilai default
inputTableNameNama tabel input.YaTidak ada
outputTableNameNama tabel output.YaTidak ada
selectedColNamesKolom yang dipilih dari tabel input untuk pengelompokan.TidakSemua kolom kecuali kolom label (Jika tidak ada kolom label, semua kolom dipilih.)
labelColNameKolom label.TidakTidak ada
validTableNameNama tabel validasi. Parameter ini diperlukan jika parameter binningMethod diatur ke auto.TidakNull
validTablePartitionsPartisi yang dipilih dari tabel validasi.TidakSeluruh tabel
inputTablePartitionsPartisi yang dipilih dari tabel input.TidakSeluruh tabel
inputBinTableNameTabel pengelompokan input.TidakTidak ada
selectedBinColNamesKolom yang dipilih dari tabel pengelompokan input.TidakNull
positiveLabelMenentukan apakah sampel merupakan contoh positif.Tidak1
nDivideJumlah baki. Nilai parameter ini harus bilangan bulat positif.Tidak10
colsNDivideJumlah baki untuk kolom tertentu. Tentukan parameter ini dalam format Nama Kolom 1:Jumlah Baki,Nama Kolom 2:Jumlah Baki. Contoh: col0:3,col2:5. Jika kolom yang ditentukan untuk parameter colsNDivide tidak termasuk dalam yang ditentukan untuk parameter selectedColNames, kolom tersebut juga digunakan dalam pengelompokan. Misalnya, parameter selectedColNames diatur ke col0,col1, parameter colsNDivide diatur ke col0:3,col2:5, dan parameter nDivide diatur ke 10. Dalam kasus ini, pengelompokan dilakukan berdasarkan col0:3,col1:10,col2:5.TidakNull
isLeftOpenTipe interval. Nilai valid:
  • {true}: interval terbuka-kiri, tertutup-kanan
  • {false}: interval tertutup-kiri, terbuka-kanan
Tidaktrue
stringThresholdAmbang batas untuk nilai diskrit dalam bin lainnya.TidakTidak ada
colsStringThresholdAmbang batas untuk kolom tertentu. Tentukan parameter ini dalam format yang sama dengan parameter colsNDivide.TidakNull
binningMethodMode pengelompokan. Nilai valid:
  • quantile: menunjukkan pengelompokan frekuensi sama.
  • bucket: menunjukkan pengelompokan lebar sama.
  • auto: menunjukkan bahwa sistem secara otomatis memilih mode pengelompokan.
Tidakquantile
lifecycleLifespan tabel output. Nilai parameter ini harus bilangan bulat positif.TidakTidak ada
coreNumJumlah inti. Nilai parameter ini harus bilangan bulat positif.TidakDitetapkan oleh sistem
memSizePerCoreUkuran memori setiap inti. Nilai parameter ini harus bilangan bulat positif.TidakDitetapkan oleh sistem
Komponen Pengelompokan harus digunakan bersama dengan komponen Pelatihan Scorecard. Selama pelatihan scorecard, komponen Pengelompokan mengonversi fitur kontinu menjadi beberapa variabel dummy diskrit untuk mencapai rekayasa fitur. Anda dapat menentukan batasan untuk bobot variabel dummy. Informasi berikut menjelaskan batasan:
  • Urutan Naik: Bobot harus ditambahkan ke variabel dummy fitur berdasarkan nilai indeks dalam urutan naik. Ini menunjukkan bahwa variabel dummy dengan nilai indeks lebih besar memiliki bobot lebih tinggi.
  • Urutan Turun: Bobot harus ditambahkan ke variabel dummy fitur berdasarkan nilai indeks dalam urutan turun. Ini menunjukkan bahwa variabel dummy dengan nilai indeks lebih besar memiliki bobot lebih rendah.
  • Bobot Sama: Bobot dua variabel dummy fitur harus sama.
  • Bobot Nol: Bobot variabel dummy harus 0.
  • Bobot Spesifik: Bobot variabel dummy harus nilai floating-point tertentu.
  • Urutan WOE: Bobot harus ditambahkan ke variabel dummy fitur berdasarkan nilai weight of evidence (WOE) dalam urutan naik. Ini menunjukkan bahwa variabel dummy dengan nilai WOE lebih besar memiliki bobot lebih tinggi.

Presentasi hasil

  1. Setelah alur kerja yang berisi komponen Binning selesai dijalankan, klik kanan komponen Binning di kanvas dan pilih Binning.
  2. Di halaman daftar variabel, Anda dapat memeriksa informasi Bins, Type, dan IV untuk setiap variabel. Gambar berikut menunjukkan contoh informasi variabel. Binning variables
  3. Klik nama variabel seperti f1 untuk masuk ke halaman detail pengelompokan variabel. Gambar berikut menunjukkan halaman detail pengelompokan f1.
    Anda dapat mengklik Merge atau Split untuk menggabungkan atau membagi data pengelompokan. Anda juga dapat menentukan batasan untuk baki.
    null Batasan yang ditentukan hanya berlaku pada komponen Pelatihan Scorecard berikutnya. Jika Anda menggunakan komponen Pengelompokan tanpa komponen Pelatihan Scorecard, batasan ini dapat diabaikan.
    Binning details