Statistik Frekuensi Kata adalah teknik analisis teks dasar yang menghitung kemunculan setiap kata dalam teks. Hasil ini penting untuk fase ekstraksi fitur, yang menjadi dasar tugas-tugas Pemrosesan Bahasa Alami seperti klasifikasi teks, pengelompokan, dan pengambilan informasi.
Deskripsi algoritma
Frekuensi kata menunjukkan seberapa sering sebuah kata muncul dalam korpus tertentu, mencerminkan signifikansinya dalam teks. Untuk menentukan frekuensi kata, teks (docContent) harus dibagi menjadi kata-kata individu. Kemudian, untuk setiap teks, keluarkan ID dokumennya yang unik (docId) bersama dengan data kata terkait sesuai urutan input. Terakhir, hitung frekuensi setiap kata dalam teks yang ditentukan. Metode ini tidak hanya mengungkap struktur leksikal teks tetapi juga memberikan dukungan data penting untuk tugas analisis teks lebih lanjut, seperti klasifikasi teks, pemodelan topik, dan pengambilan informasi.
Input dan output
Port input
Port keluaran
Konfigurasikan komponen
Metode 1: Metode visual
Tambahkan komponen Word Frequency Statistics pada halaman pipeline dan konfigurasikan parameter berikut:
Kategori | Parameter | Deskripsi |
Pengaturan Bidang | Kolom ID Dokumen | Kolom yang berisi ID dokumen yang ditentukan (docId). |
Kolom Konten Dokumen | Kolom yang berisi konten dokumen yang ditentukan (docContent). Teks dalam kolom ini digunakan untuk analisis statistik frekuensi kata, termasuk segmentasi dan perhitungan frekuensi untuk setiap kata. | |
Penyetelan | Inti | Jumlah core yang digunakan. |
Ukuran Memori per Core | Ukuran memori setiap core. Satuan: MB. |
Metode 2: Metode perintah PAI
Konfigurasikan parameter komponen menggunakan perintah PAI. Anda dapat menggunakan komponen SQL Script untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat SQL Script.
pai -name doc_word_stat
-project algo_public
-DinputTableName=tdl_doc_test_split_word
-DdocId=docid
-DdocContent=content
-DoutputTableNameMulti=doc_test_stat_multi
-DoutputTableNameTriple=doc_test_stat_triple
-DinputTablePartitions="region=cctv_news"
-Dlifecycle=7Parameter | Diperlukan | Nilai default | Deskripsi |
inputTableName | Ya | Tidak ada | Nama tabel input. |
docId | Ya | Tidak ada | Nama kolom ID dokumen. Anda hanya dapat menentukan satu kolom. |
docContent | Ya | Tidak ada | Nama kolom konten dokumen. Anda hanya dapat menentukan satu kolom. |
outputTableNameMulti | Ya | Tidak ada | Nama tabel output yang mencantumkan kata-kata dalam urutan aslinya setelah segmentasi kata, termasuk kolom ID dokumen (docId) dan konten dokumen terkait (docContent). |
outputTableNameTriple | Tidak | Tidak ada | Nama tabel output yang mencantumkan jumlah kemunculan setiap kata dalam dokumen, termasuk kolom ID dokumen (docId) dan konten dokumen terkait (docContent). |
inputTablePartitions | Tidak | Semua partisi | Partisi yang dipilih dari tabel input untuk pelatihan. Format berikut didukung:
Catatan Jika Anda menentukan beberapa partisi, pisahkan mereka dengan koma (,). Contohnya, nama1=nilai1,nilai2. |
lifecycle | Tidak | -1 | Lifecycle tabel output. Nilainya harus bilangan bulat positif. |