TF-IDF mengevaluasi tingkat kepentingan suatu kata dalam dokumen dengan menggabungkan term frequency (TF) dan inverse document frequency (IDF).
Term Frequency (TF) menghitung frekuensi kemunculan suatu kata dalam sebuah dokumen. Inverse Document Frequency (IDF) mencerminkan tingkat keunikan kata tersebut; semakin sedikit dokumen yang memuat kata tersebut, semakin tinggi nilai IDF-nya, yang menunjukkan kemampuannya dalam membedakan kategori dokumen.
TF-IDF mengevaluasi tingkat kepentingan suatu kata dalam dokumen atau kumpulan dokumen. Contohnya:
-
Tingkat kepentingan kata meningkat secara proporsional terhadap frekuensinya dalam dokumen.
-
Tingkat kepentingan kata menurun secara proporsional terhadap frekuensi kemunculannya dalam korpus.
Komponen ini menghitung nilai TF-IDF untuk setiap kata dalam setiap dokumen menggunakan output dari algoritma Word Frequency Statistics, bukan dokumen asli.
Catatan penggunaan
TF-IDF memerlukan output dari algoritma Word Frequency Statistics. Hubungkan komponen ini di downstream dari komponen Word Frequency Statistics.
Konfigurasi
Metode 1: Antarmuka Designer
Tambahkan komponen TF-IDF ke alur kerja Designer Anda, lalu konfigurasikan parameter di panel kanan.
|
Jenis parameter |
Parameter |
Deskripsi |
|
Pengaturan field |
Document ID column |
Pilih kolom ID dokumen (kolom id) yang dihasilkan oleh komponen Word Count, atau proses dokumen asli ke format yang diperlukan. Untuk detailnya, lihat deskripsi output pada contoh Word Count. |
|
Word column |
Pilih kolom kata (kolom word) yang dihasilkan oleh komponen Word Frequency, atau proses dokumen asli ke format yang diperlukan. Untuk detailnya, lihat deskripsi output pada contoh Word Frequency. |
|
|
Word count column |
Pilih kolom jumlah kata (kolom count) yang dihasilkan oleh komponen Word Frequency, atau proses dokumen asli ke format yang diperlukan. Untuk detailnya, lihat deskripsi output pada contoh Word Frequency. |
|
|
Penyesuaian eksekusi |
Number of computing cores |
Jumlah worker. Dihitung secara otomatis secara default. |
|
Memory per core |
Ukuran memori setiap worker, dalam MB. |
Metode 2: Perintah PAI
Konfigurasikan parameter komponen menggunakan perintah PAI. Gunakan komponen SQL Script untuk memanggil perintah PAI. Untuk detailnya, lihat SQL Script.
PAI -name tfidf
-project algo_public
-DinputTableName=rgdoc_split_triple_out
-DdocIdCol=id
-DwordCol=word
-DcountCol=count
-DoutputTableName=rg_tfidf_out;
|
Parameter |
Wajib |
Nilai default |
Deskripsi |
|
inputTableName |
Ya |
Tidak ada |
Nama tabel input. |
|
inputTablePartitions |
Tidak |
Semua partisi tabel input |
Partisi tabel input yang digunakan untuk pelatihan. Gunakan format |
|
docIdCol |
Ya |
Tidak ada |
Nama kolom yang mengidentifikasi ID dokumen. Tentukan hanya satu kolom. |
|
wordCol |
Ya |
Tidak ada |
Nama kolom kata. Tentukan hanya satu kolom. |
|
countCol |
Ya |
Tidak ada |
Nama kolom jumlah. Tentukan hanya satu kolom. |
|
outputTableName |
Ya |
Tidak ada |
Nama tabel output. |
|
lifecycle |
Tidak |
Tidak ada |
Lifecycle tabel output, dalam hari. Harus berupa bilangan bulat positif. |
|
coreNum |
Tidak |
Dihitung secara otomatis |
Jumlah core. Hanya berlaku jika diatur bersamaan dengan memSizePerCore. |
|
memSizePerCore |
Tidak |
Dihitung secara otomatis |
Ukuran memori setiap core. Hanya berlaku jika diatur bersamaan dengan coreNum. |