Komponen Penyesuaian Fitur digunakan untuk menyesuaikan data numerik padat atau jarang dengan fungsi penskalaan umum.
Ikhtisar
Komponen Penyesuaian Fitur memiliki karakteristik berikut:
- Mendukung fungsi penskalaan umum seperti log2, log10, In, abs, dan sqrt.
- Mendukung data padat dan jarang.
Konfigurasikan komponen
Anda dapat menggunakan salah satu metode berikut untuk mengonfigurasi komponen Penyesuaian Fitur.
Metode 1: Konfigurasikan komponen di halaman pipeline
Anda dapat mengonfigurasi parameter komponen Penyesuaian Fitur pada halaman pipeline Machine Learning Designer dari Platform for AI (PAI). Machine Learning Designer sebelumnya dikenal sebagai Machine Learning Studio. Tabel berikut menjelaskan parameter tersebut.
| Tab | Parameter | Deskripsi |
| Fields Setting | Scaled Features | Fitur yang ingin Anda skalakan. |
| Label Column | Kolom label. Jika parameter ini ditentukan, histogram x-y yang menampilkan hubungan antara fitur dan variabel objektif dapat dilihat. | |
| Sparse Features (K:V,K:V) | Menentukan apakah data pelatihan bersifat jarang. Jika data jarang, satu bidang berisi semua data alih-alih catatan data tunggal. | |
| Reserve Converted Features | Menentukan apakah akan memberi awalan fitur baru dengan scale_. | |
| Parameters Setting | Scaling Function | Komponen Feature Scaling mendukung fungsi penskalaan berikut:
|
Metode 2: Gunakan perintah PAI
Konfigurasikan parameter komponen menggunakan perintah PAI. Anda dapat menggunakan komponen SQL Script untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat SQL Script.
PAI -name fe_scale_runner -project algo_public
-Dlifecycle=28
-DscaleMethod=log2
-DscaleCols=nr_employed
-DinputTable=pai_dense_10_1
-DoutputTable=pai_temp_2262_20380_1;| Parameter | Diperlukan | Deskripsi | Nilai default |
| inputTable | Ya | Nama tabel input. | Tidak ada |
| inputTablePartitions | Tidak | Partisi yang dipilih dari tabel input untuk pelatihan. Atur parameter ini dalam format Nama_Partisi=nilai. Untuk menentukan partisi multi-level, atur parameter ini dalam format Jika Anda menentukan beberapa partisi, pisahkan mereka dengan koma (,). | Semua partisi dalam tabel input |
| outputTable | Ya | Tabel output setelah penskalaan. | Tidak ada |
| scaleCols | Ya | Fitur yang ingin Anda skalakan. Fitur jarang secara otomatis ditampilkan. Anda hanya dapat memilih fitur tipe data numerik. | Tidak ada |
| labelCol | Tidak | Kolom label. Jika parameter ini ditentukan, histogram x-y yang menampilkan hubungan antara fitur dan variabel objektif dapat dilihat. | Tidak ada |
| categoryCols | Tidak | Bidang terpilih yang diproses sebagai fitur enumerasi. Bidang ini tidak mendukung penskalaan. | "" |
| scaleMethod | Tidak | Metode yang digunakan untuk penskalaan. Nilai valid:
| log2 |
| scaleTopN | Tidak | Jika Anda tidak menyetel parameter scaleCols, sistem secara otomatis memilih N teratas fitur yang memerlukan penskalaan. | 10 |
| isSparse | Tidak | Menentukan apakah fitur adalah fitur jarang dalam format key-value. | Data padat |
| itemSpliter | Tidak | Pemisah yang digunakan untuk memisahkan pasangan key-value jarang. | , |
| kvSpliter | Tidak | Pemisah yang digunakan untuk memisahkan kunci dan nilai jarang. | : |
| lifecycle | Tidak | Siklus hidup tabel output. | 7 |
| coreNum | Tidak | Jumlah core. Nilai parameter ini harus berupa bilangan bulat positif. Nilai valid: [1,9999]. Parameter ini harus digunakan bersama dengan parameter memSizePerCore. | Ditentukan oleh sistem |
| memSizePerCore | Tidak | Ukuran memori setiap core. Unit: MB. Nilai parameter ini harus berupa bilangan bulat positif. Nilai valid: [2048,64 × 1024]. | Ditentukan oleh sistem |
Contoh
- Data masukan
Eksekusi pernyataan SQL berikut untuk menghasilkan data masukan:
create table if not exists pai_dense_10_1 as select nr_employed from bank_data limit 10; - Pengaturan parameterDi tab Pengaturan Bidang, atur parameter Fitur yang Diskalakan ke nr_employed. Hanya fitur tipe data numerik yang didukung. Di tab Pengaturan Parameter, atur parameter Scaling Function ke log2, seperti yang ditunjukkan pada gambar berikut.

- Hasil
nr_employed 12,352071021075528 12,34313018339218 12,285286613666395 12,316026916036957 12,309533196497519 12,352071021075528 12,316026916036957 12,316026916036957 12,309533196497519 12,316026916036957