Diskretisasi Fitur adalah teknik pra-pemrosesan data dalam pembelajaran mesin yang digunakan untuk mengubah fitur kontinu menjadi fitur diskrit. Dengan menerapkan aturan atau metode tertentu (seperti frekuensi sama atau lebar sama), diskretisasi fitur membagi data numerik kontinu menjadi sejumlah interval atau kategori diskrit yang terbatas, sehingga memudahkan penanganan dan analisis model. Transformasi ini membantu meningkatkan performa algoritma tertentu, terutama ketika berhadapan dengan masalah klasifikasi.
Ikhtisar
Komponen Diskretisasi Fitur mendukung jenis-jenis diskretisasi berikut:
Diskretisasi fitur padat bertipe data numerik.
Diskretisasi tanpa pengawasan seperti diskretisasi frekuensi sama dan diskretisasi lebar sama.
nullDiskretisasi tanpa pengawasan default adalah diskretisasi lebar sama.
Diskretisasi dengan pengawasan seperti diskretisasi berbasis keuntungan Gini dan diskretisasi berbasis keuntungan entropi.
nullTipe data untuk diskretisasi fitur label harus ENUM, STRING, atau BIGINT.
Diskretisasi dengan pengawasan digunakan untuk mencari titik-titik segmentasi berdasarkan keuntungan entropi dengan melakukan penelusuran konstan. Jenis diskretisasi ini mungkin memerlukan waktu lama untuk dijalankan. Jumlah bin yang diperoleh setelah segmentasi tidak dibatasi oleh nilai yang ditentukan oleh parameter maxBins.
Konfigurasikan komponen
Metode 1: Konfigurasikan komponen pada halaman pipeline
Anda dapat mengonfigurasi parameter dari komponen Diskretisasi Fitur pada halaman pipeline Machine Learning Designer dari Platform for AI (PAI). Machine Learning Designer sebelumnya dikenal sebagai Machine Learning Studio. Tabel berikut menjelaskan parameter tersebut.
Tab | Parameter | Deskripsi |
Fields Setting | Discrete Features | Fitur yang memerlukan diskretisasi. |
Label Column | Kolom label. Jika parameter ini ditentukan, histogram x-y yang menampilkan hubungan antara fitur dan variabel objektif dapat dilihat. | |
Parameters Setting | Discretization Method | Metode yang digunakan untuk diskretisasi. Nilai valid:
Kami merekomendasikan Anda menggunakan Diskretisasi Isometrik atau Diskretisasi Isifrekuensi. Dua metode lainnya, Diskretisasi Berbasis Keuntungan Gini dan Diskretisasi Berbasis Keuntungan Entropi, dapat dipahami sebagai properti eksperimen. Jika Anda membutuhkan metrik WOE, lihat Binning. |
Discretization Interval | Jumlah interval diskrit. Nilainya harus bilangan bulat positif yang lebih besar dari 1. | |
Tuning | Cores | Jumlah core yang digunakan dalam komputasi. Nilainya harus bilangan bulat positif. |
Memory Size per Core | Ukuran memori setiap core. |
Metode 2: Gunakan perintah PAI
Konfigurasikan parameter komponen dengan menggunakan perintah PAI. Anda dapat menggunakan komponen SQL Script untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat SQL Script.
PAI -name fe_discrete_runner_1 -project algo_public
-DdiscreteMethod=SameFrequecy
-Dlifecycle=28
-DmaxBins=5
-DinputTable=pai_dense_10_1
-DdiscreteCols=nr_employed
-DoutputTable=pai_temp_2262_20382_1
-DmodelTable=pai_temp_2262_20382_2;Parameter | Diperlukan | Deskripsi | Nilai default |
inputTable | Ya | Nama tabel input. | Tidak ada |
inputTablePartitions | Tidak | Partisi yang dipilih dari tabel input untuk pelatihan. Tentukan parameter ini dalam format Untuk menentukan partisi multi-level, tentukan parameter ini dalam format Jika Anda menentukan beberapa partisi, pisahkan mereka dengan tanda koma (,). | Semua partisi dalam tabel input |
outputTable | Ya | Tabel output setelah diskretisasi. | Tidak ada |
discreteCols | Ya | Fitur yang memerlukan diskretisasi. Fitur jarang secara otomatis difilter oleh sistem. | "" |
labelCol | Tidak | Kolom label. Jika parameter ini ditentukan, histogram x-y yang menampilkan hubungan antara fitur dan variabel objektif dapat dilihat. | Tidak ada |
discreteMethod | Tidak | Metode yang digunakan untuk diskretisasi. Nilai valid:
| Diskretisasi Isometrik |
maxBins | Tidak | Jumlah interval diskrit. Nilainya harus bilangan bulat positif yang lebih besar dari 1. | 100 |
lifecycle | Tidak | Lifecycle tabel output. Nilainya harus bilangan bulat positif. | 7 |
coreNum | Tidak | Jumlah core. Parameter ini digunakan bersama dengan parameter memSizePerCore. Nilainya harus bilangan bulat positif. | Ditentukan oleh sistem |
memSizePerCore | Tidak | Ukuran memori setiap core. Unit: MB. Nilainya harus bilangan bulat positif. | Ditentukan oleh sistem |
Contoh
Data Input
Eksekusi pernyataan SQL berikut untuk menghasilkan data input:
create table if not exists pai_dense_10_1 as select nr_employed from bank_data limit 10;Konfigurasikan Komponen
Tabel input adalah pai_dense_10_1. Pada tab Pengaturan Bidang, atur parameter Fitur Diskrit ke nr_employed. Pada tab Pengaturan Parameter, atur parameter Metode Diskretisasi ke Diskretisasi Lebar Sama dan parameter Interval Diskrit ke 5.
Hasil Eksekusi
nr_employed
4.0
3.0
1.0
3.0
2.0
4.0
3.0
3.0
2.0
3.0