Evaluasi pentingnya fitur dalam Random Forest adalah metode yang digunakan untuk menganalisis kontribusi setiap fitur terhadap hasil prediksi dalam model Random Forest. Metode ini menentukan tingkat kepentingan fitur dengan menghitung seberapa besar pengurangan rata-rata ketidakmurnian di seluruh pohon keputusan atau seberapa besar permutasi memengaruhi akurasi model. Dengan cara ini, metode ini membantu mengidentifikasi fitur yang paling berpengaruh pada kinerja model.
Konfigurasikan komponen
Metode 1: Konfigurasikan komponen di halaman pipeline
Di halaman detail pipeline di Machine Learning Designer, tambahkan komponen Evaluasi Pentingnya Fitur Random Forest ke pipeline dan konfigurasikan parameter sesuai tabel berikut.
Tab | Parameter | Deskripsi |
Fields Setting | Feature Columns | Opsional. Kolom fitur yang dipilih dari tabel input untuk pelatihan. Secara default, semua kolom selain kolom label dipilih. |
Target Column | Wajib. Kolom label. Klik ikon | |
Parameters Setting | Parallel Computing Cores | Opsional. Jumlah inti yang digunakan dalam komputasi paralel. |
Memory Size per Core | Opsional. Ukuran memori setiap inti. Unit: MB. |
Metode 2: Gunakan perintah PAI
Konfigurasikan parameter komponen menggunakan perintah PAI. Anda dapat menggunakan komponen SQL Script untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat Skenario 4: Jalankan Perintah PAI dalam Komponen Skrip SQL.
pai -name feature_importance -project algo_public
-DinputTableName=pai_dense_10_10
-DmodelName=xlab_m_random_forests_1_20318_v0
-DoutputTableName=erkang_test_dev.pai_temp_2252_20319_1
-DlabelColName=y
-DfeatureColNames="pdays,previous,emp_var_rate,cons_price_idx,cons_conf_idx,euribor3m,nr_employed,age,campaign,poutcome"
-Dlifecycle=28 ;Parameter | Wajib | Nilai default | Deskripsi |
inputTableName | Ya | Tidak ada nilai default | Nama tabel input. |
outputTableName | Ya | Tidak ada nilai default | Nama tabel output. |
labelColName | Ya | Tidak ada nilai default | Nama kolom label di tabel input. |
modelName | Ya | Tidak ada nilai default | Nama model input. |
featureColNames | Tidak | Semua kolom selain kolom label | Kolom fitur yang dipilih dari tabel input untuk pelatihan. |
inputTablePartitions | Tidak | Semua partisi | Partisi yang dipilih dari tabel input untuk pelatihan. |
lifecycle | Tidak | Tidak ditentukan | Lifecycle tabel output. |
coreNum | Tidak | Ditentukan oleh sistem | Jumlah inti. |
memSizePerCore | Tidak | Ditentukan oleh sistem | Ukuran memori setiap inti. Unit: MB. |
Contoh
Jalankan pernyataan SQL berikut untuk menghasilkan data pelatihan:
Dalam contoh ini, 10 data teratas dari tabel bank_data dipilih untuk membuat tabel bernama pai_dense_10_10. Anda dapat menyesuaikan tabel sesuai kebutuhan bisnis Anda:
drop table if exists pai_dense_10_10; create table pai_dense_10_10 as select age,campaign,pdays, previous, poutcome, emp_var_rate, cons_price_idx, cons_conf_idx, euribor3m, nr_employed, y from bank_data limit 10;Buat eksperimen seperti yang ditunjukkan pada gambar berikut. Untuk informasi lebih lanjut, lihat Pipeline Kustom.
Sumber data adalah pai_dense_10_10. y adalah kolom label model random forest, dan kolom lainnya adalah kolom fitur. Pilih age dan campaign untuk parameter Columns Forced to Convert. Ini menunjukkan bahwa kedua kolom tersebut diproses sebagai fitur enumerasi, sementara pengaturan default dipertahankan untuk kolom lainnya.

Jalankan eksperimen dan lihat hasil prediksi.

Setelah eksperimen dijalankan, klik kanan komponen Random Forest Feature Importance Evaluation dan pilih View Analytics Report untuk melihat hasilnya.
