Topik ini menjelaskan komponen Filter Kata Tidak Digunakan yang disediakan oleh Machine Learning Designer (sebelumnya dikenal sebagai Machine Learning Studio).
Komponen Filter Kata Tidak Digunakan adalah metode pra-pemrosesan dalam analisis teks. Komponen ini digunakan untuk menyaring kebisingan seperti "of", "is", atau "oops" dalam hasil tokenisasi kata.
Masukan komponen mencakup tabel masukan dan tabel kata tidak digunakan. Tabel masukan berisi kata-kata yang ingin Anda saring, sedangkan tabel kata tidak digunakan hanya memiliki satu kolom. Setiap baris berisi satu kata tidak digunakan.
Anda dapat mengonfigurasi komponen menggunakan Konsol Machine Learning Platform for AI (PAI) atau perintah PAI.
Konfigurasikan komponen
Anda dapat menggunakan salah satu dari metode berikut untuk mengonfigurasi komponen Filter Kata Tidak Digunakan.
Metode 1: Konfigurasikan komponen pada halaman pipeline
| Tab | Parameter | Deskripsi |
| Fields Setting | Columns to Filter | Kolom yang akan disaring. Pisahkan beberapa kolom dengan koma (,). |
| Tuning | Cores | Jumlah core. Secara default, sistem menentukan nilainya. |
| Memory Size | Ukuran memori setiap core. Secara default, sistem menentukan nilainya. |
Metode 2: Gunakan perintah PAI
PAI -name FilterNoise -project algo_public \
-DinputTableName="test_input" -DnoiseTableName="noise_input" \
-DoutputTableName="test_output" \
-DselectedColNames="words_seg1,words_seg2" \
-Dlifecycle=30| Parameter | Diperlukan | Deskripsi | Nilai default |
| inputTableName | Ya | Nama tabel masukan. | Tidak ada nilai default |
| inputTablePartitions | Tidak | Nama partisi dalam tabel masukan. | Semua partisi |
| noiseTableName | Ya | Nama tabel kata tidak digunakan. | Tidak ada nilai default |
| noiseTablePartitions | Tidak | Nama partisi dalam tabel kata tidak digunakan. | Semua partisi |
| outputTableName | Ya | Nama tabel keluaran. | Tidak ada nilai default |
| selectedColNames | Ya | Kolom yang akan disaring. Pisahkan beberapa kolom dengan koma (,). | Tidak ada nilai default |
| lifecycle | Tidak | Siklus hidup tabel keluaran. Nilainya harus bilangan bulat positif. | Tidak ada nilai default |
| coreNum | Tidak | Jumlah core yang digunakan dalam komputasi. | Ditentukan oleh sistem |
| memSizePerCore | Tidak | Ukuran memori setiap core. | Ditentukan oleh sistem |