Komponen Modul Konversi Data melakukan normalisasi, diskretisasi, pengindeksan, atau konversi weight of evidence (WOE) pada data.
Konfigurasi komponen
Anda dapat menggunakan salah satu metode berikut untuk mengonfigurasi komponen Modul Konversi Data.
Metode 1: Mengonfigurasi komponen di halaman pipeline
Anda dapat mengonfigurasi parameter komponen Modul Konversi Data di halaman pipeline Machine Learning Designer dari Platform for AI (PAI). Machine Learning Designer sebelumnya dikenal sebagai Machine Learning Studio. Tabel berikut menjelaskan parameter-parameter tersebut.
| Tab | Parameter | Deskripsi |
| Fields Setting | Feature Columns in Input Table | Kolom fitur yang dipilih dari tabel input. Secara default, semua kolom dalam tabel input dipilih. |
| Columns without Data Conversion | Kolom yang tidak memerlukan konversi data. Kolom terpilih dalam output sama dengan yang ada di input. Anda dapat menentukan label dalam kolom tersebut. | |
| Data Conversion Mode | Nilai valid: Normalization, Discretization, WOE Conversion, dan Index. | |
| Default WOE Value | Parameter ini hanya valid jika parameter Data Conversion Mode disetel ke WOE Conversion. Jika parameter ini ditentukan dan nilai sampel jatuh ke dalam bin tanpa nilai WOE, nilai ini digunakan sebagai nilai WOE. Jika parameter ini tidak ditentukan dan nilai sampel jatuh ke dalam bin tanpa nilai WOE, sistem akan melaporkan kesalahan. | |
| Tuning | Number of Cores | Jumlah core CPU yang dibutuhkan. Secara default, sistem menentukan nilainya. |
| Memory Size per Core | Ukuran memori setiap core CPU. Secara default, sistem menentukan nilainya. |
Metode 2: Gunakan perintah PAI
Konfigurasikan parameter komponen dengan menggunakan perintah PAI. Anda dapat menggunakan komponen SQL Script untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat SQL Script.
PAI -name data_transform
-project algo_public
-DinputFeatureTableName=feature_table
-DinputBinTableName=bin_table
-DoutputTableName=output_table
-DmetaColNames=label
-DfeatureColNames=feaname1,feaname2| Parameter | Deskripsi | Diperlukan | Nilai default |
| inputFeatureTableName | Nama tabel fitur input. | Ya | Tidak ada nilai default |
| inputBinTableName | Nama tabel hasil pengelompokan. | Ya | Tidak ada nilai default |
| inputFeatureTablePartitions | Partisi yang dipilih dari tabel fitur input. | Tidak | Seluruh tabel |
| outputTableName | Nama tabel output. | Ya | Tidak ada nilai default |
| featureColNames | Kolom fitur yang dipilih dari tabel input. | Tidak | Semua kolom |
| metaColNames | Kolom yang tidak perlu dikonversi. Kolom-kolom ini di output sama dengan yang ada di input. Anda dapat menentukan label dan ID sampel dalam kolom tersebut. | Tidak | Tidak ada nilai default |
| transformType | Jenis konversi data. Nilai valid:
| Tidak | dummy |
| itemDelimiter | Pemisah yang digunakan untuk memisahkan fitur. Parameter ini hanya valid jika parameter transformType disetel ke dummy. | Tidak | , |
| kvDelimiter | Pemisah yang digunakan untuk memisahkan kunci dan nilai. Parameter ini hanya valid jika parameter transformType disetel ke dummy. | Tidak | : |
| lifecycle | Siklus hidup tabel output. | Tidak | Tidak ada nilai default |
| coreNum | Jumlah core CPU yang dibutuhkan. | Tidak | Ditentukan oleh sistem |
| memSizePerCore | Ukuran memori setiap core CPU. Satuan: MB. | Tidak | Ditentukan oleh sistem |
Untuk menerapkan normalisasi, komponen Modul Konversi Data mengubah nilai variabel menjadi nilai antara 0 dan 1 berdasarkan informasi pengelompokan input, serta menetapkan nilai yang hilang menjadi 0. Algoritma berikut digunakan:
if feature_raw_value == null or feature_raw_value == 0 then
feature_norm_value = 0.0
else
bin_index = FindBin(bin_table, feature_raw_value)
bin_width = round(1.0 / bin_count * 1000) / 1000.0
feature_norm_value = 1.0 - (bin_count - bin_index - 1) * bin_widthKomponen Modul Konversi Data dapat mengonversi berbagai jenis data ke dalam format yang berbeda:
- Untuk normalisasi dan konversi WOE, komponen menghasilkan tabel biasa.
- Selama diskretisasi di mana data dikonversi menjadi variabel dummy, komponen menghasilkan tabel dalam format key-value. Setiap variabel dalam tabel berada dalam format ${feaname}]\_bin\_${bin_id}. Dalam contoh berikut, variabel sns digunakan:
- Jika sns masuk ke dalam bin kedua, variabel yang dihasilkan adalah [sns]_bin_2.
- Jika sns tidak memiliki nilai, ia masuk ke dalam bin kosong, dan variabel yang dihasilkan adalah [sns]_bin_null.
- Jika sns memiliki nilai tetapi tidak masuk ke dalam bin yang didefinisikan, ia masuk ke dalam bin else, dan variabel yang dihasilkan adalah [sns]_bin_else.