Komponen Penyaringan dan Pemetaan adalah alat pra-pemrosesan data yang menggunakan ekspresi kondisi filter yang ditentukan pengguna untuk menyaring data. Komponen ini memungkinkan Anda memodifikasi nama kolom yang ingin disaring. Alat ini sangat berguna dalam tahap pembersihan data dan rekayasa fitur karena dapat secara efektif membersihkan data serta menyiapkan dataset yang sesuai untuk analisis dan pemodelan lebih lanjut.
Konfigurasikan komponen
Metode 1: Konfigurasikan komponen di halaman pipeline
Tambahkan komponen Filtering and Mapping di halaman pipeline dan konfigurasikan parameter berikut:
Parameter | Deskripsi |
Mapping Rules | Kolom yang ingin Anda saring. Secara default, semua kolom dipilih. Anda juga dapat memodifikasi nama kolom tersebut. |
Filter Criteria | Mirip dengan klausa WHERE dalam pernyataan SQL, klausa WHERE yang Anda tentukan digunakan untuk menyaring data. Contoh: age>40. null Hanya operator berikut yang didukung:
|
Metode 2: Gunakan perintah PAI
Konfigurasikan parameter komponen dengan menggunakan perintah PAI. Anda dapat menggunakan komponen SQL Script untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat SQL Script.
PAI -name Filter
-project algo_public
-DoutTableName="test_9"
-DinputPartitions="pt=20150501"
-DinputTableName="bank_data_partition"
-Dfilter="age>=40";Parameter | Diperlukan | Deskripsi |
outputTableName | Ya | Nama tabel output. |
inputPartitions | Tidak | Partisi yang dipilih dari tabel input untuk pelatihan. Jika Anda ingin memilih seluruh tabel, atur parameter ini ke None. |
inputTableName | Ya | Nama tabel input. |
filter | Tidak | Mirip dengan klausa WHERE dalam pernyataan SQL, klausa WHERE yang Anda tentukan digunakan untuk menyaring data. Contoh: age>40. |