全部产品
Search
文档中心

Platform For AI:PLDA

更新时间:Jul 02, 2025

Model topik adalah jenis model statistik yang digunakan untuk menemukan topik abstrak dari kumpulan dokumen. Di dalam Machine Learning Platform for AI (PAI), Anda dapat mengatur parameter Topics untuk komponen PLDA guna mengabstraksi topik berbeda untuk setiap dokumen.

Latent Dirichlet Allocation (LDA) adalah model topik yang memberikan topik setiap dokumen berdasarkan distribusi probabilitas. LDA merupakan algoritma pembelajaran tanpa pengawasan. Anda hanya perlu menentukan jumlah topik dalam satu set dokumen menggunakan K. Tidak diperlukan anotasi manual pada set pelatihan. K adalah parameter Topics dari komponen PLDA.

LDA adalah teknik yang dikembangkan oleh David M. Blei, Andrew Y. Ng, dan Michael I. Jordan pada tahun 2003. Teknik ini digunakan untuk pengenalan teks, klasifikasi teks, dan perhitungan kesamaan antar teks di bidang penambangan teks.

Konfigurasi Komponen

Anda dapat menggunakan salah satu metode berikut untuk mengonfigurasi komponen PLDA.

Metode 1: Konfigurasikan komponen pada halaman pipeline

Anda dapat mengonfigurasi parameter komponen PLDA pada halaman pipeline dari Machine Learning Designer milik Machine Learning Platform for AI (PAI). Machine Learning Designer sebelumnya dikenal sebagai Machine Learning Studio. Tabel berikut menjelaskan parameter tersebut.

Tabel 1. Parameter

Tab

Parameter

Deskripsi

Fields Setting

Kolom Fitur

Kolom fitur yang digunakan untuk pelatihan.

Parameters Setting

Topik

Jumlah topik yang dihasilkan oleh LDA.

Alpha

Parameter distribusi Dirichlet prior dari P(z/d).

Beta

Parameter distribusi Dirichlet prior dari P(w/z).

Iterasi Burn-in

Jumlah iterasi burn-in. Nilai parameter ini harus lebih kecil dari jumlah total iterasi. Nilai default: 100.

Total Iterasi

Opsional. Jumlah total iterasi. Nilainya harus bilangan bulat positif. Nilai default: 150.

Metode 2: Gunakan perintah PAI

Konfigurasikan parameter komponen dengan menggunakan perintah PAI. Anda dapat menggunakan komponen SQL Script untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat SQL Script.

pai -name PLDA
    -project algo_public
    -DinputTableName=lda_input
    -DtopicNum=10
    -topicWordTableName=lda_output;

Parameter

Diperlukan

Deskripsi

Tipe

Nilai default

inputTableName

Ya

Nama tabel input.

STRING

Tidak ada nilai default

inputTablePartitions

Tidak

Partisi yang dipilih dari tabel input untuk pelatihan. Format berikut didukung:

  • Partition_name=value

  • name1=value1/name2=value2: partisi multi-level

Catatan

Jika Anda menentukan beberapa partisi, pisahkan mereka dengan koma (,).

STRING

Semua partisi

selectedColNames

Tidak

Nama kolom yang dipilih dari tabel input untuk LDA.

STRING

Semua kolom

topicNum

Ya

Jumlah topik. Nilai valid: 2 hingga 500.

Bilangan bulat positif

Tidak ada nilai default

kvDelimiter

Tidak

Pemisah yang digunakan untuk memisahkan kunci dan nilai. Nilai valid:

  • Spasi

  • Koma (,)

  • Titik dua (:)

STRING

Titik dua (:)

itemDelimiter

Tidak

Pemisah yang digunakan untuk memisahkan kunci. Nilai valid:

  • Spasi

  • Koma (,)

  • Titik dua (:)

STRING

Spasi

alpha

Tidak

Parameter distribusi Dirichlet prior dari P(z/d). Nilai valid: (0, ∞).

FLOAT

0.1

beta

Tidak

Parameter distribusi Dirichlet prior dari P(w/z). Nilai valid: (0, ∞).

FLOAT

0.01

topicWordTableName

Ya

Nama tabel kontribusi frekuensi kata-topik.

STRING

Tidak ada nilai default

pwzTableName

Tidak

Nama tabel output P(w/z).

STRING

Tabel P(w/z) tidak dibuat.

pzwTableName

Tidak

Nama tabel output P(z/w).

STRING

Tabel P(z/w) tidak dibuat.

pdzTableName

Tidak

Nama tabel P(d/z).

STRING

Tabel P(d/z) tidak dibuat.

pzdTableName

Tidak

Nama tabel output P(z/d).

STRING

Tabel P(z/d) tidak dibuat.

pzTableName

Tidak

Nama tabel output P(z).

STRING

Tabel P(z) tidak dibuat.

burnInIterations

Tidak

Jumlah iterasi burn-in. Nilai parameter ini harus lebih kecil dari nilai parameter totalIterations.

Bilangan bulat positif

100

totalIterations

Tidak

Jumlah total iterasi.

Catatan

z menunjukkan topik, w kata, dan d dokumen.

Bilangan bulat positif

150

enableSparse

Tidak

Menentukan apakah data di tabel input adalah pasangan kunci-nilai. Data bisa berupa pasangan kunci-nilai atau hasil segmentasi kata. Nilai valid:

  • true: pasangan kunci-nilai

  • false: hasil segmentasi kata

BOOL

true

coreNum

Tidak

Parameter ini dan parameter memSizePerCore harus digunakan berpasangan. Secara default, sistem menghitung jumlah core berdasarkan jumlah data input. Nilai default: -1.

Bilangan bulat positif

-1

memSizePerCore

Tidak

Ukuran memori setiap core. Unit: MB. Nilai valid: [1024,65536]. Secara default, sistem secara otomatis menghitung ukuran memori setiap core. Nilai default: -1.

Bilangan bulat positif

-1

Pengaturan Input dan Output

  • Input

    Data harus dalam format matriks jarang. Anda dapat menggunakan komponen Convert Row, Column, and Value to KV Pair untuk mengonversi data.

    Format input menunjukkan format input.

    Gambar 1. Format inputInput format

    • Kolom 1: ID dokumen

    • Kolom 2: data pasangan kunci-nilai kata dan frekuensi kata

  • Output

    Tabel berikut dihasilkan secara berurutan: tabel kontribusi frekuensi kata-topik, tabel P(w/z), tabel P(z/w), tabel P(d/z), tabel P(z/d), dan tabel P(z).

    Format output menunjukkan format output tabel kontribusi frekuensi kata-topik.

    Gambar 2. Format outputOutput format