全部产品
Search
文档中心

Platform For AI:Evaluasi Pentingnya Fitur Random Forest

更新时间:Jul 06, 2025

Evaluasi pentingnya fitur dalam Random Forest adalah metode yang digunakan untuk menganalisis kontribusi setiap fitur terhadap hasil prediksi dalam model Random Forest. Metode ini menentukan tingkat kepentingan fitur dengan menghitung seberapa besar pengurangan rata-rata ketidakmurnian di seluruh pohon keputusan atau seberapa besar permutasi memengaruhi akurasi model. Dengan cara ini, metode ini membantu mengidentifikasi fitur yang paling berpengaruh pada kinerja model.

Konfigurasikan komponen

Metode 1: Konfigurasikan komponen di halaman pipeline

Di halaman detail pipeline di Machine Learning Designer, tambahkan komponen Evaluasi Pentingnya Fitur Random Forest ke pipeline dan konfigurasikan parameter sesuai tabel berikut.

Tab

Parameter

Deskripsi

Fields Setting

Feature Columns

Opsional. Kolom fitur yang dipilih dari tabel input untuk pelatihan. Secara default, semua kolom selain kolom label dipilih.

Target Column

Wajib. Kolom label.

Klik ikon Directory. Di kotak dialog Select Column, masukkan kata kunci kolom yang ingin Anda cari. Pilih kolom dan klik OK.

Parameters Setting

Parallel Computing Cores

Opsional. Jumlah inti yang digunakan dalam komputasi paralel.

Memory Size per Core

Opsional. Ukuran memori setiap inti. Unit: MB.

Metode 2: Gunakan perintah PAI

Konfigurasikan parameter komponen menggunakan perintah PAI. Anda dapat menggunakan komponen SQL Script untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat Skenario 4: Jalankan Perintah PAI dalam Komponen Skrip SQL.

pai -name feature_importance -project algo_public
    -DinputTableName=pai_dense_10_10
    -DmodelName=xlab_m_random_forests_1_20318_v0
    -DoutputTableName=erkang_test_dev.pai_temp_2252_20319_1
    -DlabelColName=y
    -DfeatureColNames="pdays,previous,emp_var_rate,cons_price_idx,cons_conf_idx,euribor3m,nr_employed,age,campaign,poutcome"
    -Dlifecycle=28 ;

Parameter

Wajib

Nilai default

Deskripsi

inputTableName

Ya

Tidak ada nilai default

Nama tabel input.

outputTableName

Ya

Tidak ada nilai default

Nama tabel output.

labelColName

Ya

Tidak ada nilai default

Nama kolom label di tabel input.

modelName

Ya

Tidak ada nilai default

Nama model input.

featureColNames

Tidak

Semua kolom selain kolom label

Kolom fitur yang dipilih dari tabel input untuk pelatihan.

inputTablePartitions

Tidak

Semua partisi

Partisi yang dipilih dari tabel input untuk pelatihan.

lifecycle

Tidak

Tidak ditentukan

Lifecycle tabel output.

coreNum

Tidak

Ditentukan oleh sistem

Jumlah inti.

memSizePerCore

Tidak

Ditentukan oleh sistem

Ukuran memori setiap inti. Unit: MB.

Contoh

  1. Jalankan pernyataan SQL berikut untuk menghasilkan data pelatihan:

    Dalam contoh ini, 10 data teratas dari tabel bank_data dipilih untuk membuat tabel bernama pai_dense_10_10. Anda dapat menyesuaikan tabel sesuai kebutuhan bisnis Anda:

    drop table if exists pai_dense_10_10;
    create table pai_dense_10_10 as
    select
        age,campaign,pdays, previous, poutcome, emp_var_rate, cons_price_idx, cons_conf_idx, euribor3m, nr_employed, y
    from bank_data limit 10;
  2. Buat eksperimen seperti yang ditunjukkan pada gambar berikut. Untuk informasi lebih lanjut, lihat Pipeline Kustom.

    Sumber data adalah pai_dense_10_10. y adalah kolom label model random forest, dan kolom lainnya adalah kolom fitur. Pilih age dan campaign untuk parameter Columns Forced to Convert. Ini menunjukkan bahwa kedua kolom tersebut diproses sebagai fitur enumerasi, sementara pengaturan default dipertahankan untuk kolom lainnya. Generate a model

  3. Jalankan eksperimen dan lihat hasil prediksi. Result

  4. Setelah eksperimen dijalankan, klik kanan komponen Random Forest Feature Importance Evaluation dan pilih View Analytics Report untuk melihat hasilnya. Analysis report