Komponen Feature Scaling menerapkan transformasi matematis pada fitur numerik dalam set data Anda untuk menormalkan skalanya sebelum pelatihan model. Hal ini terutama berguna ketika set data Anda berisi kolom dengan rentang nilai yang sangat berbeda—misalnya, satu kolom berkisar antara 0 hingga 1 dan kolom lainnya antara 10.000 hingga 100.000—karena perbedaan tersebut dapat menyebabkan model berbasis gradien berkinerja buruk.
Komponen ini mendukung data numerik dense maupun sparse serta lima fungsi penskalalan: log2, log10, ln, abs, dan sqrt.
Prasyarat
Sebelum memulai, pastikan Anda telah memiliki:
Akses ke Machine Learning Platform for AI (PAI) dengan Machine Learning Designer
Tabel input yang berisi fitur numerik
Konfigurasikan komponen
Pilih salah satu metode berikut untuk mengonfigurasi komponen Feature Scaling.
Metode 1: Konfigurasi pada kanvas pipeline
Pada kanvas pipeline di Machine Learning Designer, konfigurasikan parameter berikut.
Fields Setting
| Parameter | Deskripsi |
|---|---|
| Scaled Features | Fitur numerik yang akan diskalakan. Hanya kolom dengan tipe data numerik yang didukung. |
| Label Column | (Opsional) Kolom label. Jika ditentukan, histogram x-y yang menunjukkan hubungan antara fitur yang dipilih dan variabel target akan tersedia. |
| Sparse Features (K:V,K:V) | Apakah data masukan berformat sparse. Dalam format sparse, satu bidang berisi semua pasangan kunci-nilai untuk suatu catatan, bukan satu nilai per kolom. |
| Reserve Converted Features | Apakah akan memberi awalan scale_ pada fitur output hasil penskalalan. |
Parameters Setting tab
| Parameter | Deskripsi |
|---|---|
| Scaling Function | Transformasi matematis yang akan diterapkan. Nilai yang valid: log2, log10, ln, abs, sqrt. |
Metode 2: Gunakan perintah PAI
Jalankan perintah PAI berikut dalam komponen SQL Script.
PAI -name fe_scale_runner -project algo_public
-Dlifecycle=28
-DscaleMethod=log2
-DscaleCols=nr_employed
-DinputTable=pai_dense_10_1
-DoutputTable=pai_temp_2262_20380_1;Parameter
| Parameter | Wajib | Bawaan | Deskripsi |
|---|---|---|---|
inputTable | Ya | — | Nama tabel input. |
inputTablePartitions | Tidak | Semua partisi | Partisi yang digunakan dari tabel input. Format: Partition_name=value. Untuk partisi multi-level: name1=value1/name2=value2;. Pisahkan beberapa partisi dengan koma (,). |
outputTable | Ya | — | Nama tabel output. |
scaleCols | Ya | — | Fitur yang akan diskalakan. Fitur sparse akan terdeteksi secara otomatis. Hanya kolom dengan tipe data numerik yang didukung. |
labelCol | Tidak | — | Kolom label. Jika ditentukan, histogram x-y yang menunjukkan hubungan antara fitur dan variabel target akan tersedia. |
categoryCols | Tidak | "" | Kolom yang diperlakukan sebagai fitur kategorikal. Kolom-kolom ini tidak termasuk dalam penskalalan. |
scaleMethod | Tidak | log2 | Fungsi penskalalan yang akan diterapkan. Nilai yang valid: log2, log10, ln, abs, sqrt. |
scaleTopN | Tidak | 10 | Jumlah fitur yang akan dipilih secara otomatis untuk penskalalan jika scaleCols tidak ditentukan. |
isSparse | Tidak | Data padat | Apakah fitur berada dalam format pasangan kunci-nilai sparse. |
itemSpliter | Tidak | , | Pembatas yang memisahkan pasangan kunci-nilai sparse. |
kvSpliter | Tidak | : | Pembatas yang memisahkan kunci dari nilai dalam data sparse. |
lifecycle | Tidak | 7 | Periode retensi data (dalam hari) untuk tabel output. |
coreNum | Tidak | Bawaan sistem | Jumlah core. Harus berupa bilangan bulat positif dalam rentang [1, 9999]. Harus ditentukan bersamaan dengan memSizePerCore. |
memSizePerCore | Tidak | Bawaan sistem | Memori per core, dalam MB. Harus berupa bilangan bulat positif dalam rentang [2048, 64 × 1024]. Harus ditentukan bersamaan dengan coreNum. |
Contoh
Contoh ini menskalakan kolom nr_employed dari tabel bank_data menggunakan fungsi log2.
Langkah 1: Buat tabel input
CREATE TABLE IF NOT EXISTS pai_dense_10_1 AS
SELECT nr_employed
FROM bank_data
LIMIT 10;Langkah 2: Konfigurasikan komponen
Pada tab Fields Setting, atur Scaled Features menjadi nr_employed. Pada tab Parameters Setting, atur Scaling Function menjadi log2.

Langkah 3: Tinjau output
Setelah komponen dijalankan, tabel output berisi nilai nr_employed yang telah ditransformasi dengan log2:
| nr_employed |
|---|
| 12.352071021075528 |
| 12.343130183392180 |
| 12.285286613666395 |
| 12.316026916036957 |
| 12.309533196497519 |
| 12.352071021075528 |
| 12.316026916036957 |
| 12.316026916036957 |
| 12.309533196497519 |
| 12.316026916036957 |