全部产品
Search
文档中心

Platform For AI:Penghalusan Anomali Fitur

更新时间:Jun 22, 2025

Komponen Penghalusan Anomali Fitur dapat menghaluskan fitur anomali dalam data input ke interval tertentu. Data jarang dan padat didukung.

Informasi latar belakang

Metode yang digunakan untuk penghalusan. Nilai valid:
  • Z-Score

    Jika fitur berada dalam distribusi normal, kebisingan terdistribusi di luar rentang -3×alpha hingga 3×alpha. Z-Score menghaluskan kebisingan ke rentang [-3×alpha, 3×alpha].

    Sebagai contoh, misalkan untuk sebuah fitur dalam distribusi normal, nilai rata-rata adalah 0, dan deviasi standar adalah 3. Nilai fitur -10 diidentifikasi sebagai anomali dan dikoreksi menjadi -3 × 3 + 0 (-9) berdasarkan aturan penghalusan Z-Score. Dengan cara yang sama, nilai fitur 10 dikoreksi menjadi 3 × 3 + 0 (9).

  • Penghalusan Persentil

    Penghalusan persentil digunakan untuk menghaluskan data yang terdistribusi di luar rentang [minPer, maxPer] ke kuantil minPer atau maxPer.

    Sebagai contoh, misalkan nilai fitur umur berada dalam rentang 0 hingga 200. Atur minPer ke 0 dan maxPer ke 50%. Nilai fitur di luar rentang 0 hingga 100 dikoreksi menjadi 0 atau 100.

  • Penghalusan Ambang Batas

    Penghalusan ambang batas digunakan untuk menghaluskan data yang terdistribusi di luar rentang [minThresh, maxThresh] ke titik data minThresh atau maxThresh.

    Sebagai contoh, misalkan nilai fitur umur berada dalam rentang 0 hingga 200. Atur minThresh ke 10 dan maxThresh ke 80. Nilai fitur di luar rentang 0 hingga 80 dikoreksi menjadi 0 atau 80.

  • Penghalusan Boxplot

    Metode ini menggunakan kuartil untuk menghaluskan data ke rentang minThresh=q1-1.5(q3-q1) hingga maxThresh=q3+1.5(q3-q1).

null Komponen Penghalusan Anomali Fitur mengoreksi nilai anomali tetapi tidak menyaring atau menghapus catatan. Dimensi dan jumlah catatan data input tidak berubah.

Konfigurasikan komponen

Anda dapat menggunakan salah satu metode berikut untuk mengonfigurasi komponen Penghalusan Anomali Fitur.

Metode 1: Konfigurasikan komponen pada halaman pipeline

Anda dapat mengonfigurasi parameter komponen Penghalusan Anomali Fitur pada halaman pipeline dari Machine Learning Designer dari Platform for AI (PAI). Machine Learning Designer sebelumnya dikenal sebagai Machine Learning Studio. Tabel berikut menjelaskan parameter tersebut.
TabParameterDeskripsi
Fields SettingSmoothed Feature ColumnsKolom fitur yang ingin Anda haluskan.
Label ColumnKolom label. Jika parameter ini ditentukan, histogram x-y yang menampilkan hubungan antara fitur dan variabel objektif dapat dilihat.
Parameters SettingSmoothing MethodMetode yang digunakan untuk penghalusan. Nilai valid:
  • Z-Score
  • Persentil
  • Penghalusan Ambang Batas
  • Box Plot
Confidence IntervalTingkat kepercayaan. Parameter ini diperlukan ketika parameter Metode Penghalusan diatur ke Z-Score.
Minimum ThresholdAmbang batas minimum. Nilai default adalah -9999, yang menunjukkan bahwa tidak ada ambang batas minimum yang diatur.

Parameter ini diperlukan ketika parameter Metode Penghalusan diatur ke Threshold Smoothing.

Maximum ThresholdAmbang batas maksimum. Nilai default adalah -9999, yang menunjukkan bahwa tidak ada ambang batas maksimum yang diatur.

Parameter ini diperlukan ketika parameter Metode Penghalusan diatur ke Threshold Smoothing.

Minimum PercentilePersentil minimum.

Parameter ini diperlukan ketika parameter Metode Penghalusan diatur ke Percentile atau Box Plot.

Maximum PercentilePersentil maksimum.

Parameter ini diperlukan ketika parameter Metode Penghalusan diatur ke Percentile atau Box Plot.

Metode 2: Gunakan perintah PAI

Konfigurasikan parameter komponen dengan menggunakan perintah PAI. Anda dapat menggunakan komponen SQL Script untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat SQL Script.
PAI -name fe_soften_runner -project algo_public
    -DminThresh=5000
    -Dlifecycle=28
    -DsoftenMethod=min-max-thresh
    -DsoftenCols=nr_employed
    -DmaxThresh=6000
    -DinputTable=pai_dense_10_1
    -DoutputTable=pai_temp_2262_20381_1;
ParameterDiperlukanDeskripsiNilai default
inputTableYaNama tabel input.Tidak tersedia
inputTablePartitionsTidakPartisi yang dipilih dari tabel input untuk pelatihan. Tentukan parameter ini dalam format Partition_name=value.

Untuk menentukan partisi multi-level, tentukan parameter ini dalam format name1=value1/name2=value2;.

Jika Anda menentukan beberapa partisi, pisahkan mereka dengan koma (,).

Semua partisi dalam tabel input
outputTableYaTabel output setelah penghalusan. Tidak tersedia
labelColTidakKolom label. Jika parameter ini ditentukan, histogram x-y yang menampilkan hubungan antara fitur dan variabel objektif dapat dilihat. String kosong
categoryColsTidakBidang yang dipilih yang diproses sebagai fitur enumerasi. String kosong
softenColsYaFitur yang ingin Anda haluskan. Fitur jarang secara otomatis ditampilkan oleh sistem. Tidak tersedia
softenMethodTidakMetode yang digunakan untuk penghalusan. Nilai valid:
  • ZScore: Z-Score
  • min-max-per: penghalusan persentil
  • min-max-thresh: penghalusan ambang batas
  • boxplot: penghalusan boxplot
ZScore
softenTopNTidakJika Anda tidak menyetel parameter softenCols, sistem secara otomatis memilih top N fitur yang memerlukan penghalusan. Nilainya harus bilangan bulat positif. 10
clTidakTingkat kepercayaan. Parameter ini diperlukan ketika parameter softenMethod diatur ke ZScore. 10
minPerTidakPersentil minimum. Parameter ini diperlukan ketika parameter softenMethod diatur ke min-max-per atau boxplot. 0.0
maxPerTidakPersentil maksimum. Parameter ini diperlukan ketika parameter softenMethod diatur ke min-max-per atau boxplot. 1.0
minThreshTidakAmbang batas minimum. Parameter ini diperlukan ketika parameter softenMethod diatur ke min-max-thresh. -9999
maxThreshTidakAmbang batas maksimum. Parameter ini diperlukan ketika parameter softenMethod diatur ke min-max-thresh. -9999
isSparseTidakMenentukan apakah fitur adalah fitur jarang dalam format key-value. Nilai valid:
  • true
  • false

Nilai default adalah false, yang menunjukkan bahwa fitur adalah padat.

false
itemSpliter TidakPemisah yang digunakan untuk memisahkan pasangan key-value jarang. ,
kvSpliterTidakPemisah yang digunakan untuk memisahkan kunci dan nilai jarang. :
lifecycleTidakSiklus hidup tabel output. Nilainya harus bilangan bulat positif. 7
coreNumTidakJumlah core. Parameter ini digunakan bersama dengan parameter memSizePerCore. Nilainya harus bilangan bulat positif. Nilai valid: [1,9999]. Ditentukan oleh sistem
memSizePerCore TidakUkuran memori setiap core. Unit: MB. Nilainya harus bilangan bulat positif. Nilai valid: [2048,64 × 1024]. Ditentukan oleh sistem

Contoh

  • Data Input
    create table if not exists pai_dense_10_1 as
    select
        nr_employed
    from bank_data limit 10;
    nr_employed
    5228.1
    5195.8
    4991.6
    5099.1
    5076.2
    5228.1
    5099.1
    5099.1
    5076.2
    5099.1
  • Pengaturan Parameter
    Pada tab Pengaturan Bidang, atur Kolom Fitur yang Dihaluskan ke nr_employed. Pada tab Parameters Setting, atur Metode Penghalusan ke Penghalusan Ambang Batas, Ambang Batas Minimum ke 5000, dan Ambang Batas Maksimum ke 6000. Gambar berikut menunjukkan konfigurasi pada tab Pengaturan Parameter.Smoothing features
  • Hasil Eksekusi
    nr_employed
    5228.1
    5195.8
    5000.0
    5099.1
    5076.2
    5228.1
    5099.1
    5099.1
    5076.2
    5099.1