All Products
Search
Document Center

Platform For AI:TF-IDF

Last Updated:Mar 07, 2026

TF-IDF mengevaluasi tingkat kepentingan suatu kata dalam dokumen dengan menggabungkan term frequency (TF) dan inverse document frequency (IDF).

Term Frequency (TF) menghitung frekuensi kemunculan suatu kata dalam sebuah dokumen. Inverse Document Frequency (IDF) mencerminkan tingkat keunikan kata tersebut; semakin sedikit dokumen yang memuat kata tersebut, semakin tinggi nilai IDF-nya, yang menunjukkan kemampuannya dalam membedakan kategori dokumen.

TF-IDF mengevaluasi tingkat kepentingan suatu kata dalam dokumen atau kumpulan dokumen. Contohnya:

  • Tingkat kepentingan kata meningkat secara proporsional terhadap frekuensinya dalam dokumen.

  • Tingkat kepentingan kata menurun secara proporsional terhadap frekuensi kemunculannya dalam korpus.

Komponen ini menghitung nilai TF-IDF untuk setiap kata dalam setiap dokumen menggunakan output dari algoritma Word Frequency Statistics, bukan dokumen asli.

Catatan penggunaan

TF-IDF memerlukan output dari algoritma Word Frequency Statistics. Hubungkan komponen ini di downstream dari komponen Word Frequency Statistics.

Konfigurasi

Metode 1: Antarmuka Designer

Tambahkan komponen TF-IDF ke alur kerja Designer Anda, lalu konfigurasikan parameter di panel kanan.

Jenis parameter

Parameter

Deskripsi

Pengaturan field

Document ID column

Pilih kolom ID dokumen (kolom id) yang dihasilkan oleh komponen Word Count, atau proses dokumen asli ke format yang diperlukan. Untuk detailnya, lihat deskripsi output pada contoh Word Count.

Word column

Pilih kolom kata (kolom word) yang dihasilkan oleh komponen Word Frequency, atau proses dokumen asli ke format yang diperlukan. Untuk detailnya, lihat deskripsi output pada contoh Word Frequency.

Word count column

Pilih kolom jumlah kata (kolom count) yang dihasilkan oleh komponen Word Frequency, atau proses dokumen asli ke format yang diperlukan. Untuk detailnya, lihat deskripsi output pada contoh Word Frequency.

Penyesuaian eksekusi

Number of computing cores

Jumlah worker. Dihitung secara otomatis secara default.

Memory per core

Ukuran memori setiap worker, dalam MB.

Metode 2: Perintah PAI

Konfigurasikan parameter komponen menggunakan perintah PAI. Gunakan komponen SQL Script untuk memanggil perintah PAI. Untuk detailnya, lihat SQL Script.

PAI -name tfidf
    -project algo_public
    -DinputTableName=rgdoc_split_triple_out
    -DdocIdCol=id
    -DwordCol=word
    -DcountCol=count
    -DoutputTableName=rg_tfidf_out;

Parameter

Wajib

Nilai default

Deskripsi

inputTableName

Ya

Tidak ada

Nama tabel input.

inputTablePartitions

Tidak

Semua partisi tabel input

Partisi tabel input yang digunakan untuk pelatihan.

Gunakan format partition_name=value. Untuk beberapa level partisi, gunakan name1=value1/name2=value2. Pisahkan beberapa partisi dengan koma (,).

docIdCol

Ya

Tidak ada

Nama kolom yang mengidentifikasi ID dokumen. Tentukan hanya satu kolom.

wordCol

Ya

Tidak ada

Nama kolom kata. Tentukan hanya satu kolom.

countCol

Ya

Tidak ada

Nama kolom jumlah. Tentukan hanya satu kolom.

outputTableName

Ya

Tidak ada

Nama tabel output.

lifecycle

Tidak

Tidak ada

Lifecycle tabel output, dalam hari. Harus berupa bilangan bulat positif.

coreNum

Tidak

Dihitung secara otomatis

Jumlah core. Hanya berlaku jika diatur bersamaan dengan memSizePerCore.

memSizePerCore

Tidak

Dihitung secara otomatis

Ukuran memori setiap core. Hanya berlaku jika diatur bersamaan dengan coreNum.