Konfigurasi komponen TF-IDF - Platform For AI

TF-IDF mengevaluasi tingkat kepentingan suatu kata dalam dokumen dengan menggabungkan term frequency (TF) dan inverse document frequency (IDF).

Term Frequency (TF) menghitung frekuensi kemunculan suatu kata dalam sebuah dokumen. Inverse Document Frequency (IDF) mencerminkan tingkat keunikan kata tersebut; semakin sedikit dokumen yang memuat kata tersebut, semakin tinggi nilai IDF-nya, yang menunjukkan kemampuannya dalam membedakan kategori dokumen.

TF-IDF mengevaluasi tingkat kepentingan suatu kata dalam dokumen atau kumpulan dokumen. Contohnya:

Tingkat kepentingan kata meningkat secara proporsional terhadap frekuensinya dalam dokumen.
Tingkat kepentingan kata menurun secara proporsional terhadap frekuensi kemunculannya dalam korpus.

Komponen ini menghitung nilai TF-IDF untuk setiap kata dalam setiap dokumen menggunakan output dari algoritma Word Frequency Statistics, bukan dokumen asli.

Catatan penggunaan

TF-IDF memerlukan output dari algoritma Word Frequency Statistics. Hubungkan komponen ini di downstream dari komponen Word Frequency Statistics.

Konfigurasi

Metode 1: Antarmuka Designer

Tambahkan komponen TF-IDF ke alur kerja Designer Anda, lalu konfigurasikan parameter di panel kanan.

Jenis parameter	Parameter	Deskripsi
Pengaturan field	Document ID column	Pilih kolom ID dokumen (kolom id) yang dihasilkan oleh komponen Word Count, atau proses dokumen asli ke format yang diperlukan. Untuk detailnya, lihat deskripsi output pada contoh Word Count.
	Word column	Pilih kolom kata (kolom word) yang dihasilkan oleh komponen Word Frequency, atau proses dokumen asli ke format yang diperlukan. Untuk detailnya, lihat deskripsi output pada contoh Word Frequency.
	Word count column	Pilih kolom jumlah kata (kolom count) yang dihasilkan oleh komponen Word Frequency, atau proses dokumen asli ke format yang diperlukan. Untuk detailnya, lihat deskripsi output pada contoh Word Frequency.
Penyesuaian eksekusi	Number of computing cores	Jumlah worker. Dihitung secara otomatis secara default.
Penyesuaian eksekusi	Memory per core	Ukuran memori setiap worker, dalam MB.

Metode 2: Perintah PAI

Konfigurasikan parameter komponen menggunakan perintah PAI. Gunakan komponen SQL Script untuk memanggil perintah PAI. Untuk detailnya, lihat SQL Script.

PAI -name tfidf
    -project algo_public
    -DinputTableName=rgdoc_split_triple_out
    -DdocIdCol=id
    -DwordCol=word
    -DcountCol=count
    -DoutputTableName=rg_tfidf_out;

Parameter	Wajib	Nilai default	Deskripsi
inputTableName	Ya	Tidak ada	Nama tabel input.
inputTablePartitions	Tidak	Semua partisi tabel input	Partisi tabel input yang digunakan untuk pelatihan. Gunakan format `partition_name=value`. Untuk beberapa level partisi, gunakan `name1=value1/name2=value2`. Pisahkan beberapa partisi dengan koma (,).
docIdCol	Ya	Tidak ada	Nama kolom yang mengidentifikasi ID dokumen. Tentukan hanya satu kolom.
wordCol	Ya	Tidak ada	Nama kolom kata. Tentukan hanya satu kolom.
countCol	Ya	Tidak ada	Nama kolom jumlah. Tentukan hanya satu kolom.
outputTableName	Ya	Tidak ada	Nama tabel output.
lifecycle	Tidak	Tidak ada	Lifecycle tabel output, dalam hari. Harus berupa bilangan bulat positif.
coreNum	Tidak	Dihitung secara otomatis	Jumlah core. Hanya berlaku jika diatur bersamaan dengan memSizePerCore.
memSizePerCore	Tidak	Dihitung secara otomatis	Ukuran memori setiap core. Hanya berlaku jika diatur bersamaan dengan coreNum.