Konfigurasi Random Forest Feature Importance Evaluation - Platform For AI

Evaluasi pentingnya fitur dalam Random Forest adalah metode yang digunakan untuk menganalisis kontribusi setiap fitur terhadap hasil prediksi dalam model Random Forest. Metode ini menentukan tingkat kepentingan fitur dengan menghitung seberapa besar pengurangan rata-rata ketidakmurnian di seluruh pohon keputusan atau seberapa besar permutasi memengaruhi akurasi model. Dengan cara ini, metode ini membantu mengidentifikasi fitur yang paling berpengaruh pada kinerja model.

Konfigurasikan komponen

Metode 1: Konfigurasikan komponen di halaman pipeline

Di halaman detail pipeline di Machine Learning Designer, tambahkan komponen Evaluasi Pentingnya Fitur Random Forest ke pipeline dan konfigurasikan parameter sesuai tabel berikut.

Tab	Parameter	Deskripsi
Fields Setting	Feature Columns	Opsional. Kolom fitur yang dipilih dari tabel input untuk pelatihan. Secara default, semua kolom selain kolom label dipilih.
Fields Setting	Target Column	Wajib. Kolom label. Klik ikon . Di kotak dialog Select Column, masukkan kata kunci kolom yang ingin Anda cari. Pilih kolom dan klik OK.
Parameters Setting	Parallel Computing Cores	Opsional. Jumlah inti yang digunakan dalam komputasi paralel.
Parameters Setting	Memory Size per Core	Opsional. Ukuran memori setiap inti. Unit: MB.

Metode 2: Gunakan perintah PAI

Konfigurasikan parameter komponen menggunakan perintah PAI. Anda dapat menggunakan komponen SQL Script untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat Skenario 4: Jalankan Perintah PAI dalam Komponen Skrip SQL.

pai -name feature_importance -project algo_public
    -DinputTableName=pai_dense_10_10
    -DmodelName=xlab_m_random_forests_1_20318_v0
    -DoutputTableName=erkang_test_dev.pai_temp_2252_20319_1
    -DlabelColName=y
    -DfeatureColNames="pdays,previous,emp_var_rate,cons_price_idx,cons_conf_idx,euribor3m,nr_employed,age,campaign,poutcome"
    -Dlifecycle=28 ;

Parameter	Wajib	Nilai default	Deskripsi
inputTableName	Ya	Tidak ada nilai default	Nama tabel input.
outputTableName	Ya	Tidak ada nilai default	Nama tabel output.
labelColName	Ya	Tidak ada nilai default	Nama kolom label di tabel input.
modelName	Ya	Tidak ada nilai default	Nama model input.
featureColNames	Tidak	Semua kolom selain kolom label	Kolom fitur yang dipilih dari tabel input untuk pelatihan.
inputTablePartitions	Tidak	Semua partisi	Partisi yang dipilih dari tabel input untuk pelatihan.
lifecycle	Tidak	Tidak ditentukan	Lifecycle tabel output.
coreNum	Tidak	Ditentukan oleh sistem	Jumlah inti.
memSizePerCore	Tidak	Ditentukan oleh sistem	Ukuran memori setiap inti. Unit: MB.

Contoh

Jalankan pernyataan SQL berikut untuk menghasilkan data pelatihan:
Dalam contoh ini, 10 data teratas dari tabel bank_data dipilih untuk membuat tabel bernama pai_dense_10_10. Anda dapat menyesuaikan tabel sesuai kebutuhan bisnis Anda:
```
drop table if exists pai_dense_10_10;
create table pai_dense_10_10 as
select
    age,campaign,pdays, previous, poutcome, emp_var_rate, cons_price_idx, cons_conf_idx, euribor3m, nr_employed, y
from bank_data limit 10;
```
Buat eksperimen seperti yang ditunjukkan pada gambar berikut. Untuk informasi lebih lanjut, lihat Pipeline Kustom.
Sumber data adalah pai_dense_10_10. y adalah kolom label model random forest, dan kolom lainnya adalah kolom fitur. Pilih age dan campaign untuk parameter Columns Forced to Convert. Ini menunjukkan bahwa kedua kolom tersebut diproses sebagai fitur enumerasi, sementara pengaturan default dipertahankan untuk kolom lainnya.
Jalankan eksperimen dan lihat hasil prediksi.
Setelah eksperimen dijalankan, klik kanan komponen Random Forest Feature Importance Evaluation dan pilih View Analytics Report untuk melihat hasilnya.