Topik ini menjelaskan komponen Conditional Random Field yang disediakan oleh Machine Learning Designer (sebelumnya dikenal sebagai Machine Learning Studio).
Conditional random field (CRF) adalah model distribusi probabilitas bersyarat dari sekelompok variabel acak output berdasarkan sekelompok variabel acak input. Model ini mengasumsikan bahwa variabel acak output membentuk Markov random field (MRF). CRF dapat digunakan dalam berbagai skenario prediksi. Linear chain CRF paling banyak digunakan, terutama dalam skenario anotasi. Untuk informasi lebih lanjut, lihat Wikipedia.
Konfigurasi komponen
Anda dapat menggunakan salah satu metode berikut untuk mengonfigurasi komponen Conditional Random Field.
Metode 1: Konfigurasikan komponen pada halaman pipeline
Anda dapat mengonfigurasi parameter komponen Conditional Random Field pada halaman pipeline dari Machine Learning Designer milik Platform for AI (PAI). Machine Learning Designer sebelumnya dikenal sebagai Machine Learning Studio. Tabel berikut menjelaskan parameter tersebut.
Tab | Parameter | Deskripsi |
Fields Setting | ID Columns | Kolom yang berisi ID setiap sampel. Sampel disimpan dalam n-tupel. |
Feature Columns | Kata yang akan dianotasi dan fiturnya jika kata tersebut memiliki fitur. | |
Target Columns | Kolom yang ingin Anda pilih. | |
Parameters Setting | Feature Generation Template | Nilai default: . |
Infrequently Used Word Filtering Threshold | Nilai default: 1. | |
L1 Regularization Coefficient | Nilai default: 1. | |
L2 Regularization Coefficient | Nilai default: 0. | |
Maximum Iterations | Nilai default: 100. | |
Convergence Threshold | Nilai default: 0,00001. | |
Tuning | Cores | Jumlah inti. Secara default, sistem menentukan nilainya |
Memory Size per Core | Ukuran memori setiap inti. Secara default, sistem menentukan nilainya |
Metode 2: Gunakan perintah PAI
Konfigurasikan parameter komponen dengan menggunakan perintah PAI. Anda dapat menggunakan komponen SQL Script untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat SQL Script.
PAI -name=linearcrf
-project=algo_public
-DinputTableName=crf_input_table
-DidColName=sentence_id
-DfeatureColNames=word,f1
-DlabelColName=label
-DoutputTableName=crf_model
-Dlifecycle=28
-DcoreNum=10Parameter | Diperlukan | Deskripsi | Nilai default |
inputTableName | Ya | Tabel yang berisi fitur input. | Tidak ada nilai default |
inputTablePartitions | Tidak | Partisi yang dipilih dari tabel yang berisi fitur input. | Semua partisi |
featureColNames | Tidak | Kolom fitur yang dipilih dari tabel input. | Semua kolom, kecuali kolom label |
labelColName | Ya | Kolom yang ingin Anda pilih. | Tidak ada nilai default |
idColName | Ya | Kolom yang berisi label sampel. | Tidak ada nilai default |
outputTableName | Ya | Tabel yang berisi model output. | Tidak ada nilai default |
outputTablePartitions | Tidak | Partisi yang dipilih dari tabel model output. | Semua partisi |
template | Tidak | Template yang digunakan untuk menghasilkan fitur. |
|
freq | Tidak | Parameter untuk menyaring fitur. Hanya nilai fitur yang lebih besar dari atau sama dengan nilai freq yang dipertahankan. | 1 |
iterations | Tidak | Jumlah maksimum iterasi optimasi. | 100 |
l1Weight | Tidak | Bobot parameter regularisasi L1. | 1,0 |
l2Weight | Tidak | Bobot parameter regularisasi L2. | 1,0 |
epsilon | Tidak | Deviasi konvergensi. Parameter ini menentukan persyaratan untuk menyelesaikan proses Limited-memory Broyden Fletcher Goldfarb Shanno (L-BFGS), yaitu deviasi antara nilai log-likelihood dalam dua iterasi. | 0,0001 |
lbfgsStep | Tidak | Ukuran langkah historis untuk optimasi yang dilakukan menggunakan algoritma L-BFGS. Hanya algoritma L-BFGS yang mendukung parameter ini. | 10 |
threadNum | Tidak | Jumlah thread paralel yang digunakan untuk pelatihan model. | 3 |
lifecycle | Tidak | Lifecycle tabel output. | Tidak ada nilai default |
coreNum | Tidak | Jumlah inti. | Ditentukan oleh sistem |
memSizePerCore | Tidak | Ukuran memori setiap inti. | Ditentukan oleh sistem |
Contoh
Data Input
sentence_id
kata
f1
label
1
Rockwell
NNP
B-NP
1
International
NNP
I-NP
1
Corp
NNP
I-NP
1
's
POS
B-NP
...
...
...
...
823
Ohio
NNP
B-NP
823
grew
VBD
B-VP
823
3,8
CD
B-NP
823
%
NN
I-NP
823
.
.
O
Algoritma Prediksi PAI Command
PAI -name=crf_predict -project=algo_public -DinputTableName=crf_test_input_table -DmodelTableName=crf_model -DidColName=sentence_id -DfeatureColNames=word,f1 -DlabelColName=label -DoutputTableName=crf_predict_result -DdetailColName=prediction_detail -Dlifecycle=28 -DcoreNum=10Parameter
Diperlukan
Deskripsi
Nilai default
inputTableName
Ya
Tabel yang berisi fitur input.
Tidak ada nilai default
inputTablePartitions
Tidak
Partisi yang dipilih dari tabel yang berisi fitur input.
Semua partisi
featureColNames
Tidak
Kolom fitur yang dipilih dari tabel input.
Semua kolom, kecuali kolom label
labelColName
Tidak
Kolom yang ingin Anda pilih.
Tidak ada nilai default
IdColName
Ya
Kolom yang berisi label sampel.
Tidak ada nilai default
resultColName
Tidak
Kolom hasil di tabel output.
prediction_result
scoreColName
Tidak
Kolom skor di tabel output.
prediction_score
detailColName
Tidak
Kolom detail di tabel output.
Tidak ada nilai default
outputTableName
Ya
Tabel hasil prediksi output.
Tidak ada nilai default
outputTablePartitions
Tidak
Partisi yang dipilih dari tabel hasil prediksi output.
Semua partisi
modelTableName
Ya
Tabel model algoritma.
Tidak ada nilai default
modelTablePartitions
Tidak
Partisi yang dipilih dari tabel model algoritma.
Semua partisi
lifecycle
Tidak
Lifecycle tabel output.
Tidak ada nilai default
coreNum
Tidak
Jumlah inti.
Ditentukan oleh sistem
memSizePerCore
Tidak
Ukuran memori setiap inti.
Ditentukan oleh sistem
Data Output
sentence_id
kata
f1
label
1
Confidence
NN
B-NP
1
in
IN
B-PP
1
the
DT
B-NP
1
pound
NN
I-NP
...
...
...
...
77
have
VBP
B-VP
77
announced
VBN
I-VP
77
similar
JJ
B-NP
77
increases
NNS
I-NP
77
.
.
O
CatatanKolom label bersifat opsional.