Model topik adalah jenis model statistik yang digunakan untuk menemukan topik abstrak dari kumpulan dokumen. Di dalam Machine Learning Platform for AI (PAI), Anda dapat mengatur parameter Topics untuk komponen PLDA guna mengabstraksi topik berbeda untuk setiap dokumen.
Latent Dirichlet Allocation (LDA) adalah model topik yang memberikan topik setiap dokumen berdasarkan distribusi probabilitas. LDA merupakan algoritma pembelajaran tanpa pengawasan. Anda hanya perlu menentukan jumlah topik dalam satu set dokumen menggunakan K. Tidak diperlukan anotasi manual pada set pelatihan. K adalah parameter Topics dari komponen PLDA.
LDA adalah teknik yang dikembangkan oleh David M. Blei, Andrew Y. Ng, dan Michael I. Jordan pada tahun 2003. Teknik ini digunakan untuk pengenalan teks, klasifikasi teks, dan perhitungan kesamaan antar teks di bidang penambangan teks.
Konfigurasi Komponen
Anda dapat menggunakan salah satu metode berikut untuk mengonfigurasi komponen PLDA.
Metode 1: Konfigurasikan komponen pada halaman pipeline
Anda dapat mengonfigurasi parameter komponen PLDA pada halaman pipeline dari Machine Learning Designer milik Machine Learning Platform for AI (PAI). Machine Learning Designer sebelumnya dikenal sebagai Machine Learning Studio. Tabel berikut menjelaskan parameter tersebut.
Tabel 1. Parameter
Tab | Parameter | Deskripsi |
Fields Setting | Kolom Fitur | Kolom fitur yang digunakan untuk pelatihan. |
Parameters Setting | Topik | Jumlah topik yang dihasilkan oleh LDA. |
Alpha | Parameter distribusi Dirichlet prior dari | |
Beta | Parameter distribusi Dirichlet prior dari | |
Iterasi Burn-in | Jumlah iterasi burn-in. Nilai parameter ini harus lebih kecil dari jumlah total iterasi. Nilai default: 100. | |
Total Iterasi | Opsional. Jumlah total iterasi. Nilainya harus bilangan bulat positif. Nilai default: 150. |
Metode 2: Gunakan perintah PAI
Konfigurasikan parameter komponen dengan menggunakan perintah PAI. Anda dapat menggunakan komponen SQL Script untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat SQL Script.
pai -name PLDA
-project algo_public
-DinputTableName=lda_input
-DtopicNum=10
-topicWordTableName=lda_output;Parameter | Diperlukan | Deskripsi | Tipe | Nilai default |
inputTableName | Ya | Nama tabel input. | STRING | Tidak ada nilai default |
inputTablePartitions | Tidak | Partisi yang dipilih dari tabel input untuk pelatihan. Format berikut didukung:
Catatan Jika Anda menentukan beberapa partisi, pisahkan mereka dengan koma (,). | STRING | Semua partisi |
selectedColNames | Tidak | Nama kolom yang dipilih dari tabel input untuk LDA. | STRING | Semua kolom |
topicNum | Ya | Jumlah topik. Nilai valid: 2 hingga 500. | Bilangan bulat positif | Tidak ada nilai default |
kvDelimiter | Tidak | Pemisah yang digunakan untuk memisahkan kunci dan nilai. Nilai valid:
| STRING | Titik dua (:) |
itemDelimiter | Tidak | Pemisah yang digunakan untuk memisahkan kunci. Nilai valid:
| STRING | Spasi |
alpha | Tidak | Parameter distribusi Dirichlet prior dari | FLOAT | 0.1 |
beta | Tidak | Parameter distribusi Dirichlet prior dari | FLOAT | 0.01 |
topicWordTableName | Ya | Nama tabel kontribusi frekuensi kata-topik. | STRING | Tidak ada nilai default |
pwzTableName | Tidak | Nama tabel output | STRING | Tabel |
pzwTableName | Tidak | Nama tabel output | STRING | Tabel |
pdzTableName | Tidak | Nama tabel | STRING | Tabel |
pzdTableName | Tidak | Nama tabel output | STRING | Tabel |
pzTableName | Tidak | Nama tabel output | STRING | Tabel |
burnInIterations | Tidak | Jumlah iterasi burn-in. Nilai parameter ini harus lebih kecil dari nilai parameter totalIterations. | Bilangan bulat positif | 100 |
totalIterations | Tidak | Jumlah total iterasi. Catatan z menunjukkan topik, w kata, dan d dokumen. | Bilangan bulat positif | 150 |
enableSparse | Tidak | Menentukan apakah data di tabel input adalah pasangan kunci-nilai. Data bisa berupa pasangan kunci-nilai atau hasil segmentasi kata. Nilai valid:
| BOOL | true |
coreNum | Tidak | Parameter ini dan parameter memSizePerCore harus digunakan berpasangan. Secara default, sistem menghitung jumlah core berdasarkan jumlah data input. Nilai default: -1. | Bilangan bulat positif | -1 |
memSizePerCore | Tidak | Ukuran memori setiap core. Unit: MB. Nilai valid: [1024,65536]. Secara default, sistem secara otomatis menghitung ukuran memori setiap core. Nilai default: -1. | Bilangan bulat positif | -1 |
Pengaturan Input dan Output
Input
Data harus dalam format matriks jarang. Anda dapat menggunakan komponen Convert Row, Column, and Value to KV Pair untuk mengonversi data.
Format input menunjukkan format input.
Gambar 1. Format input

Kolom 1: ID dokumen
Kolom 2: data pasangan kunci-nilai kata dan frekuensi kata
Output
Tabel berikut dihasilkan secara berurutan: tabel kontribusi frekuensi kata-topik, tabel P(w/z), tabel P(z/w), tabel P(d/z), tabel P(z/d), dan tabel P(z).
Format output menunjukkan format output tabel kontribusi frekuensi kata-topik.
Gambar 2. Format output
