Gunakan Modul Konversi Data untuk melakukan normalisasi, diskretisasi, pengindeksan, atau konversi Weight of Evidence (WOE) pada data.
Konfigurasikan komponen
Anda dapat mengonfigurasi parameter komponen Modul Konversi Data dengan salah satu cara berikut.
Metode 1: Gunakan GUI
Anda dapat mengonfigurasi parameter komponen pada halaman alur kerja di Designer.
|
Tab |
Parameter |
Description |
|
Fields Setting |
Feature columns in input table |
Kolom fitur dari tabel input. Secara default, semua kolom dipilih. |
|
Columns to exclude from conversion |
Kolom yang dipilih diteruskan ke output tanpa perubahan. Anda dapat menentukan kolom label di sini. |
|
|
Data conversion type |
Jenis konversi yang didukung meliputi Normalization, Discretization, WOE conversion, dan Index. |
|
|
Default WOE value |
Parameter ini hanya berlaku ketika Data conversion type diatur ke WOE conversion. Jika Anda menentukan parameter ini, nilai tersebut digunakan untuk menggantikan nilai sampel apa pun yang masuk ke bin tanpa nilai WOE. Jika Anda tidak menentukan parameter ini, algoritma akan melaporkan error ketika nilai sampel masuk ke bin tanpa nilai WOE. |
|
|
Execution Tuning |
Number of cores |
Jumlah core CPU yang digunakan. Secara default, sistem secara otomatis mengalokasikan core. |
|
Memory per core |
Jumlah memori untuk setiap core CPU. Secara default, sistem secara otomatis mengalokasikan memori. |
Metode 2: Gunakan perintah PAI
Anda dapat mengonfigurasi parameter komponen menggunakan perintah PAI dalam komponen SQL Script. Untuk informasi selengkapnya, lihat SQL Script.
PAI -name data_transform
-project algo_public
-DinputFeatureTableName=feature_table
-DinputBinTableName=bin_table
-DoutputTableName=output_table
-DmetaColNames=label
-DfeatureColNames=feaname1,feaname2
|
Parameter |
Description |
Required |
Default value |
|
inputFeatureTableName |
Tabel fitur input. |
Yes |
None |
|
inputBinTableName |
Tabel hasil binning input. |
Yes |
None |
|
inputFeatureTablePartitions |
Partisi yang digunakan dari tabel fitur input. |
No |
Complete table |
|
outputTableName |
Tabel output. |
Yes |
None |
|
featureColNames |
Kolom fitur yang dipilih dari tabel input. |
No |
All columns |
|
metaColNames |
Kolom yang tidak dikonversi. Kolom yang dipilih diteruskan ke output tanpa perubahan. Anda dapat menentukan kolom seperti label dan sample_id. |
No |
None |
|
transformType |
Jenis konversi data. Nilai yang valid:
|
No |
dummy |
|
itemDelimiter |
Pemisah fitur. Parameter ini hanya berlaku untuk diskretisasi. |
No |
Comma (,) |
|
kvDelimiter |
Pemisah key-value. Parameter ini hanya berlaku untuk diskretisasi. |
No |
Colon (:) |
|
lifecycle |
Siklus hidup tabel output. |
No |
None |
|
coreNum |
Jumlah core CPU yang digunakan. |
No |
System-calculated |
|
memSizePerCore |
Jumlah memori untuk setiap core CPU, dalam MB. |
No |
System-calculated |
Normalisasi mengonversi nilai variabel ke rentang antara 0 dan 1 berdasarkan informasi binning input. Nilai yang hilang diisi dengan 0. Algoritmanya sebagai berikut.
if feature_raw_value == null or feature_raw_value == 0 then
feature_norm_value = 0.0
else
bin_index = FindBin(bin_table, feature_raw_value)
bin_width = round(1.0 / bin_count * 1000) / 1000.0
feature_norm_value = 1.0 - (bin_count - bin_index - 1) * bin_width
Format output bervariasi tergantung pada jenis konversi data yang dilakukan oleh Modul Konversi Data:
-
Normalisasi dan konversi WOE menghasilkan tabel standar.
-
Diskretisasi menjadi variabel dummy menghasilkan tabel dalam format key-value (KV). Variabel yang dihasilkan menggunakan format ${feaname}]\_bin\_${bin_id}. Sebagai contoh, untuk variabel bernama sns, variabel yang dihasilkan adalah sebagai berikut:
-
Jika sns masuk ke bin kedua, variabel yang dihasilkan adalah [sns]_bin_2.
-
Jika sns kosong, nilainya masuk ke bin null, dan variabel yang dihasilkan adalah [sns]_bin_null.
-
Jika sns tidak kosong tetapi tidak masuk ke bin yang telah ditentukan, nilainya masuk ke bin else, dan variabel yang dihasilkan adalah [sns]_bin_else.
-