全部产品
Search
文档中心

Platform For AI:TF-IDF

更新时间:Jul 02, 2025

TF-IDF (Term Frequency-Inverse Document Frequency) adalah metode statistik yang digunakan untuk mengevaluasi pentingnya sebuah kata dalam dokumen. Metode ini mengukur bobot sebuah kata dengan menggabungkan frekuensi istilah (TF) dan frekuensi dokumen terbalik (IDF), sehingga meningkatkan akurasi pengambilan teks dan penambangan informasi.

Frekuensi istilah (TF) mengacu pada jumlah kemunculan kata tertentu dalam dokumen. Frekuensi Dokumen Terbalik (IDF) memberikan skor lebih tinggi pada kata yang muncul di lebih sedikit dokumen, sehingga memperkuat kemampuan kata tersebut untuk membedakan konten.

TF-IDF adalah ukuran statistik yang digunakan untuk mengevaluasi pentingnya sebuah kata atau dokumen. Contoh:

  • Tingkat kepentingan sebuah kata meningkat seiring dengan bertambahnya jumlah kemunculannya dalam dokumen.

  • Tingkat kepentingan sebuah kata berkurang ketika jumlah kemunculannya dalam korpus meningkat.

Komponen TF-IDF digunakan untuk menghitung nilai TF-IDF setiap kata yang muncul dalam kumpulan dokumen berdasarkan output dari komponen Word Frequency Statistics. Perhitungan tidak didasarkan pada dokumen individual.

Catatan Penggunaan

Komponen TF-IDF memproses data yang dihasilkan oleh komponen Word Frequency Statistics. Oleh karena itu, Anda harus menghubungkan komponen Word Frequency Statistics sebagai node hulu dari komponen TF-IDF.

Konfigurasikan Komponen

Anda dapat mengonfigurasi komponen menggunakan salah satu metode berikut:

Metode 1: Konfigurasikan komponen di Machine Learning Designer

Konfigurasikan komponen pada tab konfigurasi pipeline Machine Learning Designer di konsol Platform for AI.

Tab

Parameter

Deskripsi

Fields Setting

Kolom ID Dokumen

Anda dapat menyetel parameter ini ke id, yang merupakan kolom keluaran dari komponen Word Frequency Statistics. Sebagai alternatif, Anda dapat memproses dokumen asli untuk mengikuti format keluaran komponen Word Frequency Statistics. Untuk informasi lebih lanjut, lihat contoh keluaran di Word Frequency Statistics.

Kolom Kata

Anda dapat menyetel parameter ini ke word, yang merupakan kolom keluaran dari komponen Word Frequency Statistics. Sebagai alternatif, Anda dapat memproses dokumen asli untuk mengikuti format keluaran komponen Word Frequency Statistics. Untuk informasi lebih lanjut, lihat contoh keluaran di Word Frequency Statistics.

Kolom Penghitungan Kata

Anda dapat menyetel parameter ini ke count, yang merupakan kolom keluaran dari komponen Word Frequency Statistics. Sebagai alternatif, Anda dapat memproses dokumen asli untuk mengikuti format keluaran komponen Word Frequency Statistics. Untuk informasi lebih lanjut, lihat contoh keluaran di Word Frequency Statistics.

Tuning

Cores

Jumlah core yang digunakan untuk perhitungan. Nilai ini dihitung secara otomatis secara default.

Ukuran Memori per Core

Ukuran memori per core. Satuan: MB.

Metode 2: Jalankan perintah Platform for AI

Konfigurasikan parameter komponen menggunakan perintah Platform for AI. Anda dapat menggunakan komponen SQL Script untuk menjalankan perintah Platform for AI. Untuk informasi lebih lanjut, lihat SQL Script. Tabel berikut menjelaskan parameter dari perintah yang digunakan untuk mengonfigurasi komponen ini.

PAI -name tfidf
    -project algo_public
    -DinputTableName=rgdoc_split_triple_out
    -DdocIdCol=id
    -DwordCol=word
    -DcountCol=count
    -DoutputTableName=rg_tfidf_out;

Parameter

Diperlukan

Deskripsi

Nilai Default

inputTableName

Ya

Nama tabel input.

Tidak ada

inputTablePartitions

Tidak

Partisi yang dipilih dari tabel input untuk pelatihan.

Nilai ini harus dalam format partition_name=value. Jika Anda ingin menentukan beberapa level partisi, gunakan format berikut: name1=value1/name2=value2. Jika Anda menentukan beberapa partisi, pisahkan mereka dengan koma (,).

Semua partisi

docIdCol

Ya

Nama kolom ID dokumen. Anda hanya dapat menentukan satu kolom.

Tidak ada

wordCol

Ya

Nama kolom kata. Anda hanya dapat menentukan satu kolom.

Tidak ada

countCol

Ya

Jumlah kolom penghitungan kata. Anda hanya dapat menentukan satu kolom.

Tidak ada

outputTableName

Ya

Nama tabel keluaran.

Tidak ada

lifecycle

Tidak

Siklus hidup tabel keluaran. Nilainya harus bilangan bulat positif. Satuan: hari.

Tidak ada

coreNum

Tidak

Jumlah core. Parameter ini dan parameter memSizePerCore hanya berlaku jika keduanya disetel.

Ditentukan oleh sistem

memSizePerCore

Tidak

Ukuran memori setiap core. Parameter ini dan parameter coreNum hanya berlaku jika keduanya disetel.

Ditentukan oleh sistem