全部产品
Search
文档中心

Platform For AI:Statistik Frekuensi Kata

更新时间:Jul 02, 2025

Statistik Frekuensi Kata adalah teknik analisis teks dasar yang menghitung kemunculan setiap kata dalam teks. Hasil ini penting untuk fase ekstraksi fitur, yang menjadi dasar tugas-tugas Pemrosesan Bahasa Alami seperti klasifikasi teks, pengelompokan, dan pengambilan informasi.

Deskripsi algoritma

Frekuensi kata menunjukkan seberapa sering sebuah kata muncul dalam korpus tertentu, mencerminkan signifikansinya dalam teks. Untuk menentukan frekuensi kata, teks (docContent) harus dibagi menjadi kata-kata individu. Kemudian, untuk setiap teks, keluarkan ID dokumennya yang unik (docId) bersama dengan data kata terkait sesuai urutan input. Terakhir, hitung frekuensi setiap kata dalam teks yang ditentukan. Metode ini tidak hanya mengungkap struktur leksikal teks tetapi juga memberikan dukungan data penting untuk tugas analisis teks lebih lanjut, seperti klasifikasi teks, pemodelan topik, dan pengambilan informasi.

Input dan output

Port input

Pisah Kata

Port keluaran

Konfigurasikan komponen

Metode 1: Metode visual

Tambahkan komponen Word Frequency Statistics pada halaman pipeline dan konfigurasikan parameter berikut:

Kategori

Parameter

Deskripsi

Pengaturan Bidang

Kolom ID Dokumen

Kolom yang berisi ID dokumen yang ditentukan (docId).

Kolom Konten Dokumen

Kolom yang berisi konten dokumen yang ditentukan (docContent). Teks dalam kolom ini digunakan untuk analisis statistik frekuensi kata, termasuk segmentasi dan perhitungan frekuensi untuk setiap kata.

Penyetelan

Inti

Jumlah core yang digunakan.

Ukuran Memori per Core

Ukuran memori setiap core. Satuan: MB.

Metode 2: Metode perintah PAI

Konfigurasikan parameter komponen menggunakan perintah PAI. Anda dapat menggunakan komponen SQL Script untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat SQL Script.

pai -name doc_word_stat
    -project algo_public
    -DinputTableName=tdl_doc_test_split_word
    -DdocId=docid
    -DdocContent=content
    -DoutputTableNameMulti=doc_test_stat_multi
    -DoutputTableNameTriple=doc_test_stat_triple
    -DinputTablePartitions="region=cctv_news"
    -Dlifecycle=7

Parameter

Diperlukan

Nilai default

Deskripsi

inputTableName

Ya

Tidak ada

Nama tabel input.

docId

Ya

Tidak ada

Nama kolom ID dokumen. Anda hanya dapat menentukan satu kolom.

docContent

Ya

Tidak ada

Nama kolom konten dokumen. Anda hanya dapat menentukan satu kolom.

outputTableNameMulti

Ya

Tidak ada

Nama tabel output yang mencantumkan kata-kata dalam urutan aslinya setelah segmentasi kata, termasuk kolom ID dokumen (docId) dan konten dokumen terkait (docContent).

outputTableNameTriple

Tidak

Tidak ada

Nama tabel output yang mencantumkan jumlah kemunculan setiap kata dalam dokumen, termasuk kolom ID dokumen (docId) dan konten dokumen terkait (docContent).

inputTablePartitions

Tidak

Semua partisi

Partisi yang dipilih dari tabel input untuk pelatihan. Format berikut didukung:

  • Nama_Partisi=nilai

  • nama1=nilai1/nama2=nilai2: partisi multi-level.

Catatan

Jika Anda menentukan beberapa partisi, pisahkan mereka dengan koma (,). Contohnya, nama1=nilai1,nilai2.

lifecycle

Tidak

-1

Lifecycle tabel output. Nilainya harus bilangan bulat positif.