Konfigurasi parameter komponen PLDA untuk pemodelan topik - Platform For AI

Model topik adalah jenis model statistik yang digunakan untuk menemukan topik abstrak dari kumpulan dokumen. Di dalam Machine Learning Platform for AI (PAI), Anda dapat mengatur parameter Topics untuk komponen PLDA guna mengabstraksi topik berbeda untuk setiap dokumen.

Latent Dirichlet Allocation (LDA) adalah model topik yang memberikan topik setiap dokumen berdasarkan distribusi probabilitas. LDA merupakan algoritma pembelajaran tanpa pengawasan. Anda hanya perlu menentukan jumlah topik dalam satu set dokumen menggunakan K. Tidak diperlukan anotasi manual pada set pelatihan. K adalah parameter Topics dari komponen PLDA.

LDA adalah teknik yang dikembangkan oleh David M. Blei, Andrew Y. Ng, dan Michael I. Jordan pada tahun 2003. Teknik ini digunakan untuk pengenalan teks, klasifikasi teks, dan perhitungan kesamaan antar teks di bidang penambangan teks.

Konfigurasi Komponen

Anda dapat menggunakan salah satu metode berikut untuk mengonfigurasi komponen PLDA.

Metode 1: Konfigurasikan komponen pada halaman pipeline

Anda dapat mengonfigurasi parameter komponen PLDA pada halaman pipeline dari Machine Learning Designer milik Machine Learning Platform for AI (PAI). Machine Learning Designer sebelumnya dikenal sebagai Machine Learning Studio. Tabel berikut menjelaskan parameter tersebut.

Tabel 1. Parameter

Tab	Parameter	Deskripsi
Fields Setting	Kolom Fitur	Kolom fitur yang digunakan untuk pelatihan.
Parameters Setting	Topik	Jumlah topik yang dihasilkan oleh LDA.
	Alpha	Parameter distribusi Dirichlet prior dari `P(z/d)`.
	Beta	Parameter distribusi Dirichlet prior dari `P(w/z)`.
	Iterasi Burn-in	Jumlah iterasi burn-in. Nilai parameter ini harus lebih kecil dari jumlah total iterasi. Nilai default: 100.
	Total Iterasi	Opsional. Jumlah total iterasi. Nilainya harus bilangan bulat positif. Nilai default: 150.

Metode 2: Gunakan perintah PAI

Konfigurasikan parameter komponen dengan menggunakan perintah PAI. Anda dapat menggunakan komponen SQL Script untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat SQL Script.

pai -name PLDA
    -project algo_public
    -DinputTableName=lda_input
    -DtopicNum=10
    -topicWordTableName=lda_output;

Parameter	Diperlukan	Deskripsi	Tipe	Nilai default
inputTableName	Ya	Nama tabel input.	STRING	Tidak ada nilai default
inputTablePartitions	Tidak	Partisi yang dipilih dari tabel input untuk pelatihan. Format berikut didukung: Partition_name=value name1=value1/name2=value2: partisi multi-level Catatan Jika Anda menentukan beberapa partisi, pisahkan mereka dengan koma (,).	STRING	Semua partisi
selectedColNames	Tidak	Nama kolom yang dipilih dari tabel input untuk LDA.	STRING	Semua kolom
topicNum	Ya	Jumlah topik. Nilai valid: 2 hingga 500.	Bilangan bulat positif	Tidak ada nilai default
kvDelimiter	Tidak	Pemisah yang digunakan untuk memisahkan kunci dan nilai. Nilai valid: Spasi Koma (,) Titik dua (:)	STRING	Titik dua (:)
itemDelimiter	Tidak	Pemisah yang digunakan untuk memisahkan kunci. Nilai valid: Spasi Koma (,) Titik dua (:)	STRING	Spasi
alpha	Tidak	Parameter distribusi Dirichlet prior dari `P(z/d)`. Nilai valid: (0, ∞).	FLOAT	0.1
beta	Tidak	Parameter distribusi Dirichlet prior dari `P(w/z)`. Nilai valid: (0, ∞).	FLOAT	0.01
topicWordTableName	Ya	Nama tabel kontribusi frekuensi kata-topik.	STRING	Tidak ada nilai default
pwzTableName	Tidak	Nama tabel output `P(w/z)`.	STRING	Tabel `P(w/z)` tidak dibuat.
pzwTableName	Tidak	Nama tabel output `P(z/w)`.	STRING	Tabel `P(z/w)` tidak dibuat.
pdzTableName	Tidak	Nama tabel `P(d/z)`.	STRING	Tabel `P(d/z)` tidak dibuat.
pzdTableName	Tidak	Nama tabel output `P(z/d)`.	STRING	Tabel `P(z/d)` tidak dibuat.
pzTableName	Tidak	Nama tabel output `P(z)`.	STRING	Tabel `P(z)` tidak dibuat.
burnInIterations	Tidak	Jumlah iterasi burn-in. Nilai parameter ini harus lebih kecil dari nilai parameter totalIterations.	Bilangan bulat positif	100
totalIterations	Tidak	Jumlah total iterasi. Catatan z menunjukkan topik, w kata, dan d dokumen.	Bilangan bulat positif	150
enableSparse	Tidak	Menentukan apakah data di tabel input adalah pasangan kunci-nilai. Data bisa berupa pasangan kunci-nilai atau hasil segmentasi kata. Nilai valid: true: pasangan kunci-nilai false: hasil segmentasi kata	BOOL	true
coreNum	Tidak	Parameter ini dan parameter memSizePerCore harus digunakan berpasangan. Secara default, sistem menghitung jumlah core berdasarkan jumlah data input. Nilai default: -1.	Bilangan bulat positif	-1
memSizePerCore	Tidak	Ukuran memori setiap core. Unit: MB. Nilai valid: [1024,65536]. Secara default, sistem secara otomatis menghitung ukuran memori setiap core. Nilai default: -1.	Bilangan bulat positif	-1

Pengaturan Input dan Output

Input
Data harus dalam format matriks jarang. Anda dapat menggunakan komponen Convert Row, Column, and Value to KV Pair untuk mengonversi data.
Format input menunjukkan format input.
Gambar 1. Format input
- Kolom 1: ID dokumen
- Kolom 2: data pasangan kunci-nilai kata dan frekuensi kata
Output
Tabel berikut dihasilkan secara berurutan: tabel kontribusi frekuensi kata-topik, tabel P(w/z), tabel P(z/w), tabel P(d/z), tabel P(z/d), dan tabel P(z).
Format output menunjukkan format output tabel kontribusi frekuensi kata-topik.
Gambar 2. Format output