TF-IDF (Term Frequency-Inverse Document Frequency) adalah metode statistik yang digunakan untuk mengevaluasi pentingnya sebuah kata dalam dokumen. Metode ini mengukur bobot sebuah kata dengan menggabungkan frekuensi istilah (TF) dan frekuensi dokumen terbalik (IDF), sehingga meningkatkan akurasi pengambilan teks dan penambangan informasi.
Frekuensi istilah (TF) mengacu pada jumlah kemunculan kata tertentu dalam dokumen. Frekuensi Dokumen Terbalik (IDF) memberikan skor lebih tinggi pada kata yang muncul di lebih sedikit dokumen, sehingga memperkuat kemampuan kata tersebut untuk membedakan konten.
TF-IDF adalah ukuran statistik yang digunakan untuk mengevaluasi pentingnya sebuah kata atau dokumen. Contoh:
Tingkat kepentingan sebuah kata meningkat seiring dengan bertambahnya jumlah kemunculannya dalam dokumen.
Tingkat kepentingan sebuah kata berkurang ketika jumlah kemunculannya dalam korpus meningkat.
Komponen TF-IDF digunakan untuk menghitung nilai TF-IDF setiap kata yang muncul dalam kumpulan dokumen berdasarkan output dari komponen Word Frequency Statistics. Perhitungan tidak didasarkan pada dokumen individual.
Catatan Penggunaan
Komponen TF-IDF memproses data yang dihasilkan oleh komponen Word Frequency Statistics. Oleh karena itu, Anda harus menghubungkan komponen Word Frequency Statistics sebagai node hulu dari komponen TF-IDF.
Konfigurasikan Komponen
Anda dapat mengonfigurasi komponen menggunakan salah satu metode berikut:
Metode 1: Konfigurasikan komponen di Machine Learning Designer
Konfigurasikan komponen pada tab konfigurasi pipeline Machine Learning Designer di konsol Platform for AI.
Tab | Parameter | Deskripsi |
Fields Setting | Kolom ID Dokumen | Anda dapat menyetel parameter ini ke id, yang merupakan kolom keluaran dari komponen Word Frequency Statistics. Sebagai alternatif, Anda dapat memproses dokumen asli untuk mengikuti format keluaran komponen Word Frequency Statistics. Untuk informasi lebih lanjut, lihat contoh keluaran di Word Frequency Statistics. |
Kolom Kata | Anda dapat menyetel parameter ini ke word, yang merupakan kolom keluaran dari komponen Word Frequency Statistics. Sebagai alternatif, Anda dapat memproses dokumen asli untuk mengikuti format keluaran komponen Word Frequency Statistics. Untuk informasi lebih lanjut, lihat contoh keluaran di Word Frequency Statistics. | |
Kolom Penghitungan Kata | Anda dapat menyetel parameter ini ke count, yang merupakan kolom keluaran dari komponen Word Frequency Statistics. Sebagai alternatif, Anda dapat memproses dokumen asli untuk mengikuti format keluaran komponen Word Frequency Statistics. Untuk informasi lebih lanjut, lihat contoh keluaran di Word Frequency Statistics. | |
Tuning | Cores | Jumlah core yang digunakan untuk perhitungan. Nilai ini dihitung secara otomatis secara default. |
Ukuran Memori per Core | Ukuran memori per core. Satuan: MB. |
Metode 2: Jalankan perintah Platform for AI
Konfigurasikan parameter komponen menggunakan perintah Platform for AI. Anda dapat menggunakan komponen SQL Script untuk menjalankan perintah Platform for AI. Untuk informasi lebih lanjut, lihat SQL Script. Tabel berikut menjelaskan parameter dari perintah yang digunakan untuk mengonfigurasi komponen ini.
PAI -name tfidf
-project algo_public
-DinputTableName=rgdoc_split_triple_out
-DdocIdCol=id
-DwordCol=word
-DcountCol=count
-DoutputTableName=rg_tfidf_out;Parameter | Diperlukan | Deskripsi | Nilai Default |
inputTableName | Ya | Nama tabel input. | Tidak ada |
inputTablePartitions | Tidak | Partisi yang dipilih dari tabel input untuk pelatihan. Nilai ini harus dalam format | Semua partisi |
docIdCol | Ya | Nama kolom ID dokumen. Anda hanya dapat menentukan satu kolom. | Tidak ada |
wordCol | Ya | Nama kolom kata. Anda hanya dapat menentukan satu kolom. | Tidak ada |
countCol | Ya | Jumlah kolom penghitungan kata. Anda hanya dapat menentukan satu kolom. | Tidak ada |
outputTableName | Ya | Nama tabel keluaran. | Tidak ada |
lifecycle | Tidak | Siklus hidup tabel keluaran. Nilainya harus bilangan bulat positif. Satuan: hari. | Tidak ada |
coreNum | Tidak | Jumlah core. Parameter ini dan parameter memSizePerCore hanya berlaku jika keduanya disetel. | Ditentukan oleh sistem |
memSizePerCore | Tidak | Ukuran memori setiap core. Parameter ini dan parameter coreNum hanya berlaku jika keduanya disetel. | Ditentukan oleh sistem |