Komponen Penghalusan Anomali Fitur dapat menghaluskan fitur anomali dalam data input ke interval tertentu. Data jarang dan padat didukung.
Informasi latar belakang
- Z-Score
Jika fitur berada dalam distribusi normal, kebisingan terdistribusi di luar rentang -3×alpha hingga 3×alpha. Z-Score menghaluskan kebisingan ke rentang [-3×alpha, 3×alpha].
Sebagai contoh, misalkan untuk sebuah fitur dalam distribusi normal, nilai rata-rata adalah 0, dan deviasi standar adalah 3. Nilai fitur -10 diidentifikasi sebagai anomali dan dikoreksi menjadi -3 × 3 + 0 (-9) berdasarkan aturan penghalusan Z-Score. Dengan cara yang sama, nilai fitur 10 dikoreksi menjadi 3 × 3 + 0 (9).
- Penghalusan Persentil
Penghalusan persentil digunakan untuk menghaluskan data yang terdistribusi di luar rentang [minPer, maxPer] ke kuantil minPer atau maxPer.
Sebagai contoh, misalkan nilai fitur umur berada dalam rentang 0 hingga 200. Atur minPer ke 0 dan maxPer ke 50%. Nilai fitur di luar rentang 0 hingga 100 dikoreksi menjadi 0 atau 100.
- Penghalusan Ambang Batas
Penghalusan ambang batas digunakan untuk menghaluskan data yang terdistribusi di luar rentang [minThresh, maxThresh] ke titik data minThresh atau maxThresh.
Sebagai contoh, misalkan nilai fitur umur berada dalam rentang 0 hingga 200. Atur minThresh ke 10 dan maxThresh ke 80. Nilai fitur di luar rentang 0 hingga 80 dikoreksi menjadi 0 atau 80.
- Penghalusan Boxplot
Metode ini menggunakan kuartil untuk menghaluskan data ke rentang minThresh=q1-1.5(q3-q1) hingga maxThresh=q3+1.5(q3-q1).
Konfigurasikan komponen
Anda dapat menggunakan salah satu metode berikut untuk mengonfigurasi komponen Penghalusan Anomali Fitur.
Metode 1: Konfigurasikan komponen pada halaman pipeline
| Tab | Parameter | Deskripsi |
| Fields Setting | Smoothed Feature Columns | Kolom fitur yang ingin Anda haluskan. |
| Label Column | Kolom label. Jika parameter ini ditentukan, histogram x-y yang menampilkan hubungan antara fitur dan variabel objektif dapat dilihat. | |
| Parameters Setting | Smoothing Method | Metode yang digunakan untuk penghalusan. Nilai valid:
|
| Confidence Interval | Tingkat kepercayaan. Parameter ini diperlukan ketika parameter Metode Penghalusan diatur ke Z-Score. | |
| Minimum Threshold | Ambang batas minimum. Nilai default adalah -9999, yang menunjukkan bahwa tidak ada ambang batas minimum yang diatur. Parameter ini diperlukan ketika parameter Metode Penghalusan diatur ke Threshold Smoothing. | |
| Maximum Threshold | Ambang batas maksimum. Nilai default adalah -9999, yang menunjukkan bahwa tidak ada ambang batas maksimum yang diatur. Parameter ini diperlukan ketika parameter Metode Penghalusan diatur ke Threshold Smoothing. | |
| Minimum Percentile | Persentil minimum. Parameter ini diperlukan ketika parameter Metode Penghalusan diatur ke Percentile atau Box Plot. | |
| Maximum Percentile | Persentil maksimum. Parameter ini diperlukan ketika parameter Metode Penghalusan diatur ke Percentile atau Box Plot. |
Metode 2: Gunakan perintah PAI
PAI -name fe_soften_runner -project algo_public
-DminThresh=5000
-Dlifecycle=28
-DsoftenMethod=min-max-thresh
-DsoftenCols=nr_employed
-DmaxThresh=6000
-DinputTable=pai_dense_10_1
-DoutputTable=pai_temp_2262_20381_1;| Parameter | Diperlukan | Deskripsi | Nilai default |
| inputTable | Ya | Nama tabel input. | Tidak tersedia |
| inputTablePartitions | Tidak | Partisi yang dipilih dari tabel input untuk pelatihan. Tentukan parameter ini dalam format Partition_name=value. Untuk menentukan partisi multi-level, tentukan parameter ini dalam format Jika Anda menentukan beberapa partisi, pisahkan mereka dengan koma (,). | Semua partisi dalam tabel input |
| outputTable | Ya | Tabel output setelah penghalusan. | Tidak tersedia |
| labelCol | Tidak | Kolom label. Jika parameter ini ditentukan, histogram x-y yang menampilkan hubungan antara fitur dan variabel objektif dapat dilihat. | String kosong |
| categoryCols | Tidak | Bidang yang dipilih yang diproses sebagai fitur enumerasi. | String kosong |
| softenCols | Ya | Fitur yang ingin Anda haluskan. Fitur jarang secara otomatis ditampilkan oleh sistem. | Tidak tersedia |
| softenMethod | Tidak | Metode yang digunakan untuk penghalusan. Nilai valid:
| ZScore |
| softenTopN | Tidak | Jika Anda tidak menyetel parameter softenCols, sistem secara otomatis memilih top N fitur yang memerlukan penghalusan. Nilainya harus bilangan bulat positif. | 10 |
| cl | Tidak | Tingkat kepercayaan. Parameter ini diperlukan ketika parameter softenMethod diatur ke ZScore. | 10 |
| minPer | Tidak | Persentil minimum. Parameter ini diperlukan ketika parameter softenMethod diatur ke min-max-per atau boxplot. | 0.0 |
| maxPer | Tidak | Persentil maksimum. Parameter ini diperlukan ketika parameter softenMethod diatur ke min-max-per atau boxplot. | 1.0 |
| minThresh | Tidak | Ambang batas minimum. Parameter ini diperlukan ketika parameter softenMethod diatur ke min-max-thresh. | -9999 |
| maxThresh | Tidak | Ambang batas maksimum. Parameter ini diperlukan ketika parameter softenMethod diatur ke min-max-thresh. | -9999 |
| isSparse | Tidak | Menentukan apakah fitur adalah fitur jarang dalam format key-value. Nilai valid:
Nilai default adalah false, yang menunjukkan bahwa fitur adalah padat. | false |
| itemSpliter | Tidak | Pemisah yang digunakan untuk memisahkan pasangan key-value jarang. | , |
| kvSpliter | Tidak | Pemisah yang digunakan untuk memisahkan kunci dan nilai jarang. | : |
| lifecycle | Tidak | Siklus hidup tabel output. Nilainya harus bilangan bulat positif. | 7 |
| coreNum | Tidak | Jumlah core. Parameter ini digunakan bersama dengan parameter memSizePerCore. Nilainya harus bilangan bulat positif. Nilai valid: [1,9999]. | Ditentukan oleh sistem |
| memSizePerCore | Tidak | Ukuran memori setiap core. Unit: MB. Nilainya harus bilangan bulat positif. Nilai valid: [2048,64 × 1024]. | Ditentukan oleh sistem |
Contoh
- Data Input
create table if not exists pai_dense_10_1 as select nr_employed from bank_data limit 10;nr_employed 5228.1 5195.8 4991.6 5099.1 5076.2 5228.1 5099.1 5099.1 5076.2 5099.1 - Pengaturan ParameterPada tab Pengaturan Bidang, atur Kolom Fitur yang Dihaluskan ke nr_employed. Pada tab Parameters Setting, atur Metode Penghalusan ke Penghalusan Ambang Batas, Ambang Batas Minimum ke 5000, dan Ambang Batas Maksimum ke 6000. Gambar berikut menunjukkan konfigurasi pada tab Pengaturan Parameter.

- Hasil Eksekusi
nr_employed 5228.1 5195.8 5000.0 5099.1 5076.2 5228.1 5099.1 5099.1 5076.2 5099.1