Topik ini menjelaskan komponen Stop Word Filter di Designer.
Komponen Stop Word Filter merupakan metode pra-pemrosesan dalam analitik teks yang menyaring kebisingan, seperti "of", "is", atau "a", dari hasil tokenisasi.
Komponen ini menerima dua input: tabel input dan tabel stop word. Tabel input berisi teks yang akan difilter, sedangkan tabel stop word adalah tabel satu kolom dengan setiap baris berisi satu stop word.
Anda dapat mengonfigurasi komponen Stop Word Filter di Designer menggunakan antarmuka grafis (GUI) atau perintah PAI.
Konfigurasi komponen
Anda dapat mengonfigurasi komponen Stop Word Filter dengan salah satu cara berikut.
Metode 1: Gunakan GUI
Anda dapat mengonfigurasi parameter komponen pada halaman alur kerja di Designer.
|
Tab |
Parameter |
Description |
|
Fields Setting |
Column to Filter |
Kolom yang akan difilter. Pisahkan beberapa kolom dengan koma (,). |
|
Execution Tuning |
Number of cores |
Dialokasikan secara otomatis oleh sistem. |
|
Memory size |
Dialokasikan secara otomatis oleh sistem. |
Metode 2: Gunakan perintah PAI
Anda dapat menggunakan perintah PAI untuk mengonfigurasi parameter komponen. Perintah tersebut dapat dijalankan melalui komponen SQL Script. Untuk informasi selengkapnya, lihat SQL Script.
PAI -name FilterNoise -project algo_public \
-DinputTableName=”test_input” -DnoiseTableName=”noise_input” \
-DoutputTableName=”test_output” \
-DselectedColNames=”words_seg1,words_seg2” \
-Dlifecycle=30
|
Parameter name |
Required |
Description |
Default value |
|
inputTableName |
Yes |
Nama tabel tokenisasi input. |
None |
|
inputTablePartitions |
No |
Masukkan nama partisi untuk tabel token. |
All partitions |
|
noiseTableName |
Yes |
Nama tabel stop word. |
None |
|
noiseTablePartitions |
No |
Nama partisi untuk daftar stopword. |
All partitions |
|
outputTableName |
Yes |
Nama tabel output. |
None |
|
selectedColNames |
Yes |
Kolom yang akan difilter. Pisahkan beberapa kolom dengan koma (,). |
None |
|
lifecycle |
No |
Siklus hidup tabel output. Nilainya harus berupa bilangan bulat positif. |
None |
|
coreNum |
No |
Jumlah core untuk komputasi. |
Automatically allocated by the system. |
|
memSizePerCore |
No |
Ukuran memori untuk setiap core. |
Automatically allocated by the system. |