All Products
Search
Document Center

Platform For AI:Filter stop word

Last Updated:Mar 06, 2026

Topik ini menjelaskan komponen Stop Word Filter di Designer.

Komponen Stop Word Filter merupakan metode pra-pemrosesan dalam analitik teks yang menyaring kebisingan, seperti "of", "is", atau "a", dari hasil tokenisasi.

Komponen ini menerima dua input: tabel input dan tabel stop word. Tabel input berisi teks yang akan difilter, sedangkan tabel stop word adalah tabel satu kolom dengan setiap baris berisi satu stop word.

Anda dapat mengonfigurasi komponen Stop Word Filter di Designer menggunakan antarmuka grafis (GUI) atau perintah PAI.

Konfigurasi komponen

Anda dapat mengonfigurasi komponen Stop Word Filter dengan salah satu cara berikut.

Metode 1: Gunakan GUI

Anda dapat mengonfigurasi parameter komponen pada halaman alur kerja di Designer.

Tab

Parameter

Description

Fields Setting

Column to Filter

Kolom yang akan difilter. Pisahkan beberapa kolom dengan koma (,).

Execution Tuning

Number of cores

Dialokasikan secara otomatis oleh sistem.

Memory size

Dialokasikan secara otomatis oleh sistem.

Metode 2: Gunakan perintah PAI

Anda dapat menggunakan perintah PAI untuk mengonfigurasi parameter komponen. Perintah tersebut dapat dijalankan melalui komponen SQL Script. Untuk informasi selengkapnya, lihat SQL Script.

PAI -name FilterNoise -project algo_public \
    -DinputTableName=”test_input” -DnoiseTableName=”noise_input” \
    -DoutputTableName=”test_output” \
    -DselectedColNames=”words_seg1,words_seg2” \
    -Dlifecycle=30

Parameter name

Required

Description

Default value

inputTableName

Yes

Nama tabel tokenisasi input.

None

inputTablePartitions

No

Masukkan nama partisi untuk tabel token.

All partitions

noiseTableName

Yes

Nama tabel stop word.

None

noiseTablePartitions

No

Nama partisi untuk daftar stopword.

All partitions

outputTableName

Yes

Nama tabel output.

None

selectedColNames

Yes

Kolom yang akan difilter. Pisahkan beberapa kolom dengan koma (,).

None

lifecycle

No

Siklus hidup tabel output. Nilainya harus berupa bilangan bulat positif.

None

coreNum

No

Jumlah core untuk komputasi.

Automatically allocated by the system.

memSizePerCore

No

Ukuran memori untuk setiap core.

Automatically allocated by the system.