全部产品
Search
文档中心

Platform For AI:Modul Konversi Data

更新时间:Jul 02, 2025

Komponen Modul Konversi Data melakukan normalisasi, diskretisasi, pengindeksan, atau konversi weight of evidence (WOE) pada data.

Konfigurasi komponen

Anda dapat menggunakan salah satu metode berikut untuk mengonfigurasi komponen Modul Konversi Data.

Metode 1: Mengonfigurasi komponen di halaman pipeline

Anda dapat mengonfigurasi parameter komponen Modul Konversi Data di halaman pipeline Machine Learning Designer dari Platform for AI (PAI). Machine Learning Designer sebelumnya dikenal sebagai Machine Learning Studio. Tabel berikut menjelaskan parameter-parameter tersebut.
TabParameterDeskripsi
Fields SettingFeature Columns in Input TableKolom fitur yang dipilih dari tabel input. Secara default, semua kolom dalam tabel input dipilih.
Columns without Data ConversionKolom yang tidak memerlukan konversi data. Kolom terpilih dalam output sama dengan yang ada di input. Anda dapat menentukan label dalam kolom tersebut.
Data Conversion ModeNilai valid: Normalization, Discretization, WOE Conversion, dan Index.
Default WOE Value

Parameter ini hanya valid jika parameter Data Conversion Mode disetel ke WOE Conversion.

Jika parameter ini ditentukan dan nilai sampel jatuh ke dalam bin tanpa nilai WOE, nilai ini digunakan sebagai nilai WOE. Jika parameter ini tidak ditentukan dan nilai sampel jatuh ke dalam bin tanpa nilai WOE, sistem akan melaporkan kesalahan.

TuningNumber of CoresJumlah core CPU yang dibutuhkan. Secara default, sistem menentukan nilainya.
Memory Size per CoreUkuran memori setiap core CPU. Secara default, sistem menentukan nilainya.

Metode 2: Gunakan perintah PAI

Konfigurasikan parameter komponen dengan menggunakan perintah PAI. Anda dapat menggunakan komponen SQL Script untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat SQL Script.
PAI -name data_transform
-project algo_public
-DinputFeatureTableName=feature_table
-DinputBinTableName=bin_table
-DoutputTableName=output_table
-DmetaColNames=label
-DfeatureColNames=feaname1,feaname2
ParameterDeskripsiDiperlukanNilai default
inputFeatureTableNameNama tabel fitur input.YaTidak ada nilai default
inputBinTableNameNama tabel hasil pengelompokan.YaTidak ada nilai default
inputFeatureTablePartitionsPartisi yang dipilih dari tabel fitur input.TidakSeluruh tabel
outputTableNameNama tabel output.YaTidak ada nilai default
featureColNamesKolom fitur yang dipilih dari tabel input.TidakSemua kolom
metaColNamesKolom yang tidak perlu dikonversi. Kolom-kolom ini di output sama dengan yang ada di input. Anda dapat menentukan label dan ID sampel dalam kolom tersebut.TidakTidak ada nilai default
transformTypeJenis konversi data. Nilai valid:
  • normalize: normalisasi
  • dummy: diskretisasi
  • woe: konversi WOE
Tidakdummy
itemDelimiterPemisah yang digunakan untuk memisahkan fitur. Parameter ini hanya valid jika parameter transformType disetel ke dummy.Tidak,
kvDelimiterPemisah yang digunakan untuk memisahkan kunci dan nilai. Parameter ini hanya valid jika parameter transformType disetel ke dummy.Tidak:
lifecycleSiklus hidup tabel output.TidakTidak ada nilai default
coreNumJumlah core CPU yang dibutuhkan.TidakDitentukan oleh sistem
memSizePerCoreUkuran memori setiap core CPU. Satuan: MB.TidakDitentukan oleh sistem
Untuk menerapkan normalisasi, komponen Modul Konversi Data mengubah nilai variabel menjadi nilai antara 0 dan 1 berdasarkan informasi pengelompokan input, serta menetapkan nilai yang hilang menjadi 0. Algoritma berikut digunakan:
if feature_raw_value == null or feature_raw_value == 0 then
    feature_norm_value = 0.0
else
    bin_index = FindBin(bin_table, feature_raw_value)
    bin_width = round(1.0 / bin_count * 1000) / 1000.0
    feature_norm_value = 1.0 - (bin_count - bin_index - 1) * bin_width
Komponen Modul Konversi Data dapat mengonversi berbagai jenis data ke dalam format yang berbeda:
  • Untuk normalisasi dan konversi WOE, komponen menghasilkan tabel biasa.
  • Selama diskretisasi di mana data dikonversi menjadi variabel dummy, komponen menghasilkan tabel dalam format key-value. Setiap variabel dalam tabel berada dalam format ${feaname}]\_bin\_${bin_id}. Dalam contoh berikut, variabel sns digunakan:
    • Jika sns masuk ke dalam bin kedua, variabel yang dihasilkan adalah [sns]_bin_2.
    • Jika sns tidak memiliki nilai, ia masuk ke dalam bin kosong, dan variabel yang dihasilkan adalah [sns]_bin_null.
    • Jika sns memiliki nilai tetapi tidak masuk ke dalam bin yang didefinisikan, ia masuk ke dalam bin else, dan variabel yang dihasilkan adalah [sns]_bin_else.