全部产品
Search
文档中心

Platform For AI:Penyesuaian Fitur

更新时间:Jun 22, 2025

Komponen Penyesuaian Fitur digunakan untuk menyesuaikan data numerik padat atau jarang dengan fungsi penskalaan umum.

Ikhtisar

Komponen Penyesuaian Fitur memiliki karakteristik berikut:
  • Mendukung fungsi penskalaan umum seperti log2, log10, In, abs, dan sqrt.
  • Mendukung data padat dan jarang.

Konfigurasikan komponen

Anda dapat menggunakan salah satu metode berikut untuk mengonfigurasi komponen Penyesuaian Fitur.

Metode 1: Konfigurasikan komponen di halaman pipeline

Anda dapat mengonfigurasi parameter komponen Penyesuaian Fitur pada halaman pipeline Machine Learning Designer dari Platform for AI (PAI). Machine Learning Designer sebelumnya dikenal sebagai Machine Learning Studio. Tabel berikut menjelaskan parameter tersebut.
TabParameterDeskripsi
Fields SettingScaled FeaturesFitur yang ingin Anda skalakan.
Label ColumnKolom label. Jika parameter ini ditentukan, histogram x-y yang menampilkan hubungan antara fitur dan variabel objektif dapat dilihat.
Sparse Features (K:V,K:V)Menentukan apakah data pelatihan bersifat jarang. Jika data jarang, satu bidang berisi semua data alih-alih catatan data tunggal.
Reserve Converted FeaturesMenentukan apakah akan memberi awalan fitur baru dengan scale_.
Parameters SettingScaling FunctionKomponen Feature Scaling mendukung fungsi penskalaan berikut:
  • log2
  • log10
  • ln
  • abs
  • sqrt

Metode 2: Gunakan perintah PAI

Konfigurasikan parameter komponen menggunakan perintah PAI. Anda dapat menggunakan komponen SQL Script untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat SQL Script.
PAI -name fe_scale_runner -project algo_public
    -Dlifecycle=28
    -DscaleMethod=log2
    -DscaleCols=nr_employed
    -DinputTable=pai_dense_10_1
    -DoutputTable=pai_temp_2262_20380_1;
ParameterDiperlukanDeskripsiNilai default
inputTableYaNama tabel input. Tidak ada
inputTablePartitionsTidakPartisi yang dipilih dari tabel input untuk pelatihan. Atur parameter ini dalam format Nama_Partisi=nilai.

Untuk menentukan partisi multi-level, atur parameter ini dalam format nama1=nilai1/nama2=nilai2;.

Jika Anda menentukan beberapa partisi, pisahkan mereka dengan koma (,).

Semua partisi dalam tabel input
outputTableYaTabel output setelah penskalaan. Tidak ada
scaleColsYaFitur yang ingin Anda skalakan.

Fitur jarang secara otomatis ditampilkan. Anda hanya dapat memilih fitur tipe data numerik.

Tidak ada
labelColTidakKolom label.

Jika parameter ini ditentukan, histogram x-y yang menampilkan hubungan antara fitur dan variabel objektif dapat dilihat.

Tidak ada
categoryColsTidakBidang terpilih yang diproses sebagai fitur enumerasi. Bidang ini tidak mendukung penskalaan. ""
scaleMethodTidakMetode yang digunakan untuk penskalaan. Nilai valid:
  • log2
  • log10
  • ln
  • abs
  • sqrt
log2
scaleTopNTidakJika Anda tidak menyetel parameter scaleCols, sistem secara otomatis memilih N teratas fitur yang memerlukan penskalaan. 10
isSparseTidakMenentukan apakah fitur adalah fitur jarang dalam format key-value. Data padat
itemSpliterTidakPemisah yang digunakan untuk memisahkan pasangan key-value jarang. ,
kvSpliterTidakPemisah yang digunakan untuk memisahkan kunci dan nilai jarang. :
lifecycleTidakSiklus hidup tabel output. 7
coreNumTidakJumlah core. Nilai parameter ini harus berupa bilangan bulat positif. Nilai valid: [1,9999]. Parameter ini harus digunakan bersama dengan parameter memSizePerCore. Ditentukan oleh sistem
memSizePerCoreTidakUkuran memori setiap core. Unit: MB. Nilai parameter ini harus berupa bilangan bulat positif. Nilai valid: [2048,64 × 1024]. Ditentukan oleh sistem

Contoh

  • Data masukan

    Eksekusi pernyataan SQL berikut untuk menghasilkan data masukan:

    create table if not exists pai_dense_10_1 as
    select
        nr_employed
    from bank_data limit 10;
  • Pengaturan parameter
    Di tab Pengaturan Bidang, atur parameter Fitur yang Diskalakan ke nr_employed. Hanya fitur tipe data numerik yang didukung. Di tab Pengaturan Parameter, atur parameter Scaling Function ke log2, seperti yang ditunjukkan pada gambar berikut. Parameter settings
  • Hasil
    nr_employed
    12,352071021075528
    12,34313018339218
    12,285286613666395
    12,316026916036957
    12,309533196497519
    12,352071021075528
    12,316026916036957
    12,316026916036957
    12,309533196497519
    12,316026916036957