全部产品
Search
文档中心

Platform For AI:Feature Selection (Filter Method)

更新时间:Jun 22, 2025

Feature Selection (Filter Method) adalah teknik pra-pemrosesan yang mengevaluasi pentingnya fitur menggunakan metrik statistik seperti koefisien korelasi dan keuntungan informasi sebelum pemodelan. Metode ini mengidentifikasi serta memilih fitur yang paling berkontribusi terhadap variabel target. Beroperasi secara independen dari algoritma pembelajaran mesin tertentu, metode ini dikenal karena efisiensi dan kemudahan implementasinya, menjadikannya ideal untuk pengurangan dimensi pada dataset berskala besar.

Batasan

Algoritma Feature Selection (Filter Method) tidak dapat langsung memproses data dalam format LIBSVM atau pasangan kunci-nilai.

Konfigurasikan komponen

Metode 1: Konfigurasikan komponen di halaman pipeline

Tambahkan komponen Feature Selection (Filter Method) di halaman pipeline dan konfigurasikan parameter berikut:

Kategori

Parameter

Deskripsi

Pengaturan Bidang

Kolom Fitur

Nama kolom fitur yang dipilih dari tabel input untuk pelatihan.

Kolom Target

Nama kolom label yang dipilih dari tabel input untuk menghitung korelasi antara fitur dan target.

Fitur Enumerasi

Menentukan fitur mana yang merupakan fitur enumerasi dan mungkin memerlukan pemrosesan atau pengkodean khusus, seperti one-hot encoding.

Fitur Jarang (K:V,K:V)

Menentukan apakah fitur tersebut adalah fitur jarang dalam format pasangan kunci-nilai, yang biasa untuk data jarang dimensi tinggi, terutama dalam pemrosesan teks.

Pengaturan Parameter

Metode Pemilihan Fitur

Pilih metode statistik untuk pemilihan fitur. Opsi termasuk:

  • IV: Mengukur kemampuan prediktif fitur sehubungan dengan variabel target, sering digunakan dalam skenario klasifikasi biner.

  • Gini Gain: Terutama digunakan untuk menilai signifikansi fitur tertentu, dan sering digunakan dalam konteks pohon keputusan.

  • Keuntungan Informasi: Mengukur pengurangan ketidakpastian variabel target yang dicapai oleh satu fitur, sehingga menilai kontribusi fitur tersebut untuk memprediksi target.

  • Lasso: Digunakan untuk pemilihan fitur dalam model linier yang menggunakan Regularisasi L1 untuk mencapai pengurangan dimensi dan pemilihan fitur dalam set fitur berskala besar.

Top N Fitur

Jumlah N fitur teratas yang akan dipilih. Jika jumlah yang ditentukan lebih besar dari jumlah fitur input, semua fitur dipilih.

Metode Partisi Fitur Kontinu

Metode partisi untuk fitur kontinu. Nilai valid:

  • Partisi Otomatis: Algoritma secara mandiri memilih titik partisi optimal berdasarkan distribusi data.

  • Partisi Lebar Sama: Membagi rentang data menjadi interval lebar sama, metode sederhana yang mungkin kurang efektif dengan distribusi tidak merata.

Interval Diskritisasi Fitur Kontinu

Tetapkan jumlah interval untuk mendiskritisasi fitur kontinu. Ini hanya diperlukan saat Continuous Feature Partitioning Method adalah Equal Width Partitioning.

Metode 2: Gunakan perintah PAI

Konfigurasikan parameter komponen Feature Selection (Filter Method) menggunakan perintah PAI. Anda dapat menggunakan komponen SQL Script untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat SQL Script.

PAI -name fe_select_runner -project algo_public 
     -DfeatImportanceTable=pai_temp_2260_22603_2 
     -DselectMethod=iv 
     -DselectedCols=pdays,previous,emp_var_rate,cons_price_idx,cons_conf_idx,euribor3m,nr_employed,age,campaign 
     -DtopN=5 
     -DlabelCol=y 
     -DmaxBins=100 
     -DinputTable=pai_dense_10_9 
     -DoutputTable=pai_temp_2260_22603_1;

Parameter

Diperlukan

Nilai Default

Deskripsi

inputTable

Ya

Tidak ada

Nama tabel input.

inputTablePartitions

Tidak

Semua partisi

Partisi tabel input yang digunakan dalam pelatihan. Format yang didukung meliputi:

  • partition_name=value

  • name1=value1/name2=value2: Untuk partisi multi-level

    null

    Gunakan koma (,) untuk memisahkan beberapa partisi, misalnya, name1=value1,value2.

outputTable

Ya

Tidak ada

Tabel hasil fitur yang dihasilkan setelah penyaringan.

featImportanceTable

Ya

Tidak ada

Tabel yang menyimpan nilai bobot penting semua fitur input.

selectedCols

Ya

Tidak ada

Kolom fitur yang dipilih untuk pelatihan.

labelCol

Ya

Tidak ada

Kolom target yang dipilih dari tabel input.

categoryCols

Tidak

Tidak ada

Kolom fitur enumerasi. Hanya kolom tipe data INT atau DOUBLE yang didukung.

maxBins

Tidak

100

Jumlah maksimum interval untuk partisi fitur kontinu.

selectMethod

Tidak

iv

Metode yang digunakan untuk pemilihan fitur. Opsi valid adalah iv, GiniGain, InfoGain, dan Lasso.

topN

Tidak

10

Jumlah N fitur teratas yang akan dipilih. Jika jumlah yang ditentukan lebih besar dari jumlah fitur input, semua fitur dipilih.

isSparse

Tidak

false

Menentukan apakah fitur tersebut adalah fitur jarang dalam format pasangan kunci-nilai. Nilai false menunjukkan fitur padat.