全部产品
Search
文档中心

Platform For AI:Filter Kata Tidak Digunakan

更新时间:Jul 02, 2025

Topik ini menjelaskan komponen Filter Kata Tidak Digunakan yang disediakan oleh Machine Learning Designer (sebelumnya dikenal sebagai Machine Learning Studio).

Komponen Filter Kata Tidak Digunakan adalah metode pra-pemrosesan dalam analisis teks. Komponen ini digunakan untuk menyaring kebisingan seperti "of", "is", atau "oops" dalam hasil tokenisasi kata.

Masukan komponen mencakup tabel masukan dan tabel kata tidak digunakan. Tabel masukan berisi kata-kata yang ingin Anda saring, sedangkan tabel kata tidak digunakan hanya memiliki satu kolom. Setiap baris berisi satu kata tidak digunakan.

Anda dapat mengonfigurasi komponen menggunakan Konsol Machine Learning Platform for AI (PAI) atau perintah PAI.

Konfigurasikan komponen

Anda dapat menggunakan salah satu dari metode berikut untuk mengonfigurasi komponen Filter Kata Tidak Digunakan.

Metode 1: Konfigurasikan komponen pada halaman pipeline

Anda dapat mengonfigurasi parameter komponen Filter Kata Tidak Digunakan pada halaman pipeline Machine Learning Designer dari Machine Learning Platform for AI (PAI). Machine Learning Designer sebelumnya dikenal sebagai Machine Learning Studio. Tabel berikut menjelaskan parameter.
TabParameterDeskripsi
Fields SettingColumns to FilterKolom yang akan disaring. Pisahkan beberapa kolom dengan koma (,).
TuningCoresJumlah core. Secara default, sistem menentukan nilainya.
Memory SizeUkuran memori setiap core. Secara default, sistem menentukan nilainya.

Metode 2: Gunakan perintah PAI

Konfigurasikan parameter komponen dengan menggunakan perintah PAI. Anda dapat menggunakan komponen SQL Script untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat SQL Script.
PAI -name FilterNoise -project algo_public \
    -DinputTableName="test_input" -DnoiseTableName="noise_input" \
    -DoutputTableName="test_output" \
    -DselectedColNames="words_seg1,words_seg2" \
    -Dlifecycle=30
ParameterDiperlukanDeskripsiNilai default
inputTableNameYaNama tabel masukan.Tidak ada nilai default
inputTablePartitionsTidakNama partisi dalam tabel masukan.Semua partisi
noiseTableNameYaNama tabel kata tidak digunakan.Tidak ada nilai default
noiseTablePartitionsTidakNama partisi dalam tabel kata tidak digunakan.Semua partisi
outputTableNameYaNama tabel keluaran.Tidak ada nilai default
selectedColNamesYaKolom yang akan disaring. Pisahkan beberapa kolom dengan koma (,).Tidak ada nilai default
lifecycleTidakSiklus hidup tabel keluaran. Nilainya harus bilangan bulat positif.Tidak ada nilai default
coreNumTidakJumlah core yang digunakan dalam komputasi.Ditentukan oleh sistem
memSizePerCoreTidakUkuran memori setiap core.Ditentukan oleh sistem