Konfigurasi Word Frequency Statistics untuk analisis teks - Platform For AI

Statistik Frekuensi Kata adalah teknik analisis teks dasar yang menghitung kemunculan setiap kata dalam teks. Hasil ini penting untuk fase ekstraksi fitur, yang menjadi dasar tugas-tugas Pemrosesan Bahasa Alami seperti klasifikasi teks, pengelompokan, dan pengambilan informasi.

Deskripsi algoritma

Frekuensi kata menunjukkan seberapa sering sebuah kata muncul dalam korpus tertentu, mencerminkan signifikansinya dalam teks. Untuk menentukan frekuensi kata, teks (docContent) harus dibagi menjadi kata-kata individu. Kemudian, untuk setiap teks, keluarkan ID dokumennya yang unik (docId) bersama dengan data kata terkait sesuai urutan input. Terakhir, hitung frekuensi setiap kata dalam teks yang ditentukan. Metode ini tidak hanya mengungkap struktur leksikal teks tetapi juga memberikan dukungan data penting untuk tugas analisis teks lebih lanjut, seperti klasifikasi teks, pemodelan topik, dan pengambilan informasi.

Input dan output

Port input

Pisah Kata

Port keluaran

Konfigurasikan komponen

Metode 1: Metode visual

Tambahkan komponen Word Frequency Statistics pada halaman pipeline dan konfigurasikan parameter berikut:

Kategori	Parameter	Deskripsi
Pengaturan Bidang	Kolom ID Dokumen	Kolom yang berisi ID dokumen yang ditentukan (docId).
Pengaturan Bidang	Kolom Konten Dokumen	Kolom yang berisi konten dokumen yang ditentukan (docContent). Teks dalam kolom ini digunakan untuk analisis statistik frekuensi kata, termasuk segmentasi dan perhitungan frekuensi untuk setiap kata.
Penyetelan	Inti	Jumlah core yang digunakan.
Penyetelan	Ukuran Memori per Core	Ukuran memori setiap core. Satuan: MB.

Metode 2: Metode perintah PAI

Konfigurasikan parameter komponen menggunakan perintah PAI. Anda dapat menggunakan komponen SQL Script untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat SQL Script.

pai -name doc_word_stat
    -project algo_public
    -DinputTableName=tdl_doc_test_split_word
    -DdocId=docid
    -DdocContent=content
    -DoutputTableNameMulti=doc_test_stat_multi
    -DoutputTableNameTriple=doc_test_stat_triple
    -DinputTablePartitions="region=cctv_news"
    -Dlifecycle=7

Parameter	Diperlukan	Nilai default	Deskripsi
inputTableName	Ya	Tidak ada	Nama tabel input.
docId	Ya	Tidak ada	Nama kolom ID dokumen. Anda hanya dapat menentukan satu kolom.
docContent	Ya	Tidak ada	Nama kolom konten dokumen. Anda hanya dapat menentukan satu kolom.
outputTableNameMulti	Ya	Tidak ada	Nama tabel output yang mencantumkan kata-kata dalam urutan aslinya setelah segmentasi kata, termasuk kolom ID dokumen (docId) dan konten dokumen terkait (docContent).
outputTableNameTriple	Tidak	Tidak ada	Nama tabel output yang mencantumkan jumlah kemunculan setiap kata dalam dokumen, termasuk kolom ID dokumen (docId) dan konten dokumen terkait (docContent).
inputTablePartitions	Tidak	Semua partisi	Partisi yang dipilih dari tabel input untuk pelatihan. Format berikut didukung: Nama_Partisi=nilai nama1=nilai1/nama2=nilai2: partisi multi-level. Catatan Jika Anda menentukan beberapa partisi, pisahkan mereka dengan koma (,). Contohnya, nama1=nilai1,nilai2.
lifecycle	Tidak	-1	Lifecycle tabel output. Nilainya harus bilangan bulat positif.