All Products
Search
Document Center

Platform For AI:Konversi Data

Last Updated:Mar 06, 2026

Gunakan Modul Konversi Data untuk melakukan normalisasi, diskretisasi, pengindeksan, atau konversi Weight of Evidence (WOE) pada data.

Konfigurasikan komponen

Anda dapat mengonfigurasi parameter komponen Modul Konversi Data dengan salah satu cara berikut.

Metode 1: Gunakan GUI

Anda dapat mengonfigurasi parameter komponen pada halaman alur kerja di Designer.

Tab

Parameter

Description

Fields Setting

Feature columns in input table

Kolom fitur dari tabel input. Secara default, semua kolom dipilih.

Columns to exclude from conversion

Kolom yang dipilih diteruskan ke output tanpa perubahan. Anda dapat menentukan kolom label di sini.

Data conversion type

Jenis konversi yang didukung meliputi Normalization, Discretization, WOE conversion, dan Index.

Default WOE value

Parameter ini hanya berlaku ketika Data conversion type diatur ke WOE conversion.

Jika Anda menentukan parameter ini, nilai tersebut digunakan untuk menggantikan nilai sampel apa pun yang masuk ke bin tanpa nilai WOE. Jika Anda tidak menentukan parameter ini, algoritma akan melaporkan error ketika nilai sampel masuk ke bin tanpa nilai WOE.

Execution Tuning

Number of cores

Jumlah core CPU yang digunakan. Secara default, sistem secara otomatis mengalokasikan core.

Memory per core

Jumlah memori untuk setiap core CPU. Secara default, sistem secara otomatis mengalokasikan memori.

Metode 2: Gunakan perintah PAI

Anda dapat mengonfigurasi parameter komponen menggunakan perintah PAI dalam komponen SQL Script. Untuk informasi selengkapnya, lihat SQL Script.

PAI -name data_transform
-project algo_public
-DinputFeatureTableName=feature_table
-DinputBinTableName=bin_table
-DoutputTableName=output_table
-DmetaColNames=label
-DfeatureColNames=feaname1,feaname2

Parameter

Description

Required

Default value

inputFeatureTableName

Tabel fitur input.

Yes

None

inputBinTableName

Tabel hasil binning input.

Yes

None

inputFeatureTablePartitions

Partisi yang digunakan dari tabel fitur input.

No

Complete table

outputTableName

Tabel output.

Yes

None

featureColNames

Kolom fitur yang dipilih dari tabel input.

No

All columns

metaColNames

Kolom yang tidak dikonversi. Kolom yang dipilih diteruskan ke output tanpa perubahan. Anda dapat menentukan kolom seperti label dan sample_id.

No

None

transformType

Jenis konversi data. Nilai yang valid:

  • normalize: normalisasi.

  • dummy: diskretisasi.

  • woe: konversi WOE.

No

dummy

itemDelimiter

Pemisah fitur. Parameter ini hanya berlaku untuk diskretisasi.

No

Comma (,)

kvDelimiter

Pemisah key-value. Parameter ini hanya berlaku untuk diskretisasi.

No

Colon (:)

lifecycle

Siklus hidup tabel output.

No

None

coreNum

Jumlah core CPU yang digunakan.

No

System-calculated

memSizePerCore

Jumlah memori untuk setiap core CPU, dalam MB.

No

System-calculated

Normalisasi mengonversi nilai variabel ke rentang antara 0 dan 1 berdasarkan informasi binning input. Nilai yang hilang diisi dengan 0. Algoritmanya sebagai berikut.

if feature_raw_value == null or feature_raw_value == 0 then
    feature_norm_value = 0.0
else
    bin_index = FindBin(bin_table, feature_raw_value)
    bin_width = round(1.0 / bin_count * 1000) / 1000.0
    feature_norm_value = 1.0 - (bin_count - bin_index - 1) * bin_width

Format output bervariasi tergantung pada jenis konversi data yang dilakukan oleh Modul Konversi Data:

  • Normalisasi dan konversi WOE menghasilkan tabel standar.

  • Diskretisasi menjadi variabel dummy menghasilkan tabel dalam format key-value (KV). Variabel yang dihasilkan menggunakan format ${feaname}]\_bin\_${bin_id}. Sebagai contoh, untuk variabel bernama sns, variabel yang dihasilkan adalah sebagai berikut:

    • Jika sns masuk ke bin kedua, variabel yang dihasilkan adalah [sns]_bin_2.

    • Jika sns kosong, nilainya masuk ke bin null, dan variabel yang dihasilkan adalah [sns]_bin_null.

    • Jika sns tidak kosong tetapi tidak masuk ke bin yang telah ditentukan, nilainya masuk ke bin else, dan variabel yang dihasilkan adalah [sns]_bin_else.