Feature Selection (Filter Method) adalah teknik pra-pemrosesan yang mengevaluasi pentingnya fitur menggunakan metrik statistik seperti koefisien korelasi dan keuntungan informasi sebelum pemodelan. Metode ini mengidentifikasi serta memilih fitur yang paling berkontribusi terhadap variabel target. Beroperasi secara independen dari algoritma pembelajaran mesin tertentu, metode ini dikenal karena efisiensi dan kemudahan implementasinya, menjadikannya ideal untuk pengurangan dimensi pada dataset berskala besar.
Batasan
Algoritma Feature Selection (Filter Method) tidak dapat langsung memproses data dalam format LIBSVM atau pasangan kunci-nilai.
Konfigurasikan komponen
Metode 1: Konfigurasikan komponen di halaman pipeline
Tambahkan komponen Feature Selection (Filter Method) di halaman pipeline dan konfigurasikan parameter berikut:
Kategori | Parameter | Deskripsi |
Pengaturan Bidang | Kolom Fitur | Nama kolom fitur yang dipilih dari tabel input untuk pelatihan. |
Kolom Target | Nama kolom label yang dipilih dari tabel input untuk menghitung korelasi antara fitur dan target. | |
Fitur Enumerasi | Menentukan fitur mana yang merupakan fitur enumerasi dan mungkin memerlukan pemrosesan atau pengkodean khusus, seperti one-hot encoding. | |
Fitur Jarang (K:V,K:V) | Menentukan apakah fitur tersebut adalah fitur jarang dalam format pasangan kunci-nilai, yang biasa untuk data jarang dimensi tinggi, terutama dalam pemrosesan teks. | |
Pengaturan Parameter | Metode Pemilihan Fitur | Pilih metode statistik untuk pemilihan fitur. Opsi termasuk:
|
Top N Fitur | Jumlah N fitur teratas yang akan dipilih. Jika jumlah yang ditentukan lebih besar dari jumlah fitur input, semua fitur dipilih. | |
Metode Partisi Fitur Kontinu | Metode partisi untuk fitur kontinu. Nilai valid:
| |
Interval Diskritisasi Fitur Kontinu | Tetapkan jumlah interval untuk mendiskritisasi fitur kontinu. Ini hanya diperlukan saat Continuous Feature Partitioning Method adalah Equal Width Partitioning. |
Metode 2: Gunakan perintah PAI
Konfigurasikan parameter komponen Feature Selection (Filter Method) menggunakan perintah PAI. Anda dapat menggunakan komponen SQL Script untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat SQL Script.
PAI -name fe_select_runner -project algo_public
-DfeatImportanceTable=pai_temp_2260_22603_2
-DselectMethod=iv
-DselectedCols=pdays,previous,emp_var_rate,cons_price_idx,cons_conf_idx,euribor3m,nr_employed,age,campaign
-DtopN=5
-DlabelCol=y
-DmaxBins=100
-DinputTable=pai_dense_10_9
-DoutputTable=pai_temp_2260_22603_1;Parameter | Diperlukan | Nilai Default | Deskripsi |
inputTable | Ya | Tidak ada | Nama tabel input. |
inputTablePartitions | Tidak | Semua partisi | Partisi tabel input yang digunakan dalam pelatihan. Format yang didukung meliputi:
|
outputTable | Ya | Tidak ada | Tabel hasil fitur yang dihasilkan setelah penyaringan. |
featImportanceTable | Ya | Tidak ada | Tabel yang menyimpan nilai bobot penting semua fitur input. |
selectedCols | Ya | Tidak ada | Kolom fitur yang dipilih untuk pelatihan. |
labelCol | Ya | Tidak ada | Kolom target yang dipilih dari tabel input. |
categoryCols | Tidak | Tidak ada | Kolom fitur enumerasi. Hanya kolom tipe data INT atau DOUBLE yang didukung. |
maxBins | Tidak | 100 | Jumlah maksimum interval untuk partisi fitur kontinu. |
selectMethod | Tidak | iv | Metode yang digunakan untuk pemilihan fitur. Opsi valid adalah iv, GiniGain, InfoGain, dan Lasso. |
topN | Tidak | 10 | Jumlah N fitur teratas yang akan dipilih. Jika jumlah yang ditentukan lebih besar dari jumlah fitur input, semua fitur dipilih. |
isSparse | Tidak | false | Menentukan apakah fitur tersebut adalah fitur jarang dalam format pasangan kunci-nilai. Nilai false menunjukkan fitur padat. |