全部产品
Search
文档中心

Platform For AI:Conditional Random Field

更新时间:Jul 02, 2025

Topik ini menjelaskan komponen Conditional Random Field yang disediakan oleh Machine Learning Designer (sebelumnya dikenal sebagai Machine Learning Studio).

Conditional random field (CRF) adalah model distribusi probabilitas bersyarat dari sekelompok variabel acak output berdasarkan sekelompok variabel acak input. Model ini mengasumsikan bahwa variabel acak output membentuk Markov random field (MRF). CRF dapat digunakan dalam berbagai skenario prediksi. Linear chain CRF paling banyak digunakan, terutama dalam skenario anotasi. Untuk informasi lebih lanjut, lihat Wikipedia.

Konfigurasi komponen

Anda dapat menggunakan salah satu metode berikut untuk mengonfigurasi komponen Conditional Random Field.

Metode 1: Konfigurasikan komponen pada halaman pipeline

Anda dapat mengonfigurasi parameter komponen Conditional Random Field pada halaman pipeline dari Machine Learning Designer milik Platform for AI (PAI). Machine Learning Designer sebelumnya dikenal sebagai Machine Learning Studio. Tabel berikut menjelaskan parameter tersebut.

Tab

Parameter

Deskripsi

Fields Setting

ID Columns

Kolom yang berisi ID setiap sampel. Sampel disimpan dalam n-tupel.

Feature Columns

Kata yang akan dianotasi dan fiturnya jika kata tersebut memiliki fitur.

Target Columns

Kolom yang ingin Anda pilih.

Parameters Setting

Feature Generation Template

Nilai default:

[-2:0],[-1:0],[0:0],[1:0],[2:0],[-1:0]/[0:0],
[0:0]/[1:0],[-2:1],[-1:1],[0:1],[1:1],[2:1],
[-2:1]/[-1:1],[-1:1]/[0:1],[0:1]/[1:1],[1:1]/[2:1],
[-2:1]/[-1:1]/[0:1],[-1:1]/[0:1]/[1:1],
[0:1]/[1:1]/[2:1]

.

Infrequently Used Word Filtering Threshold

Nilai default: 1.

L1 Regularization Coefficient

Nilai default: 1.

L2 Regularization Coefficient

Nilai default: 0.

Maximum Iterations

Nilai default: 100.

Convergence Threshold

Nilai default: 0,00001.

Tuning

Cores

Jumlah inti. Secara default, sistem menentukan nilainya

Memory Size per Core

Ukuran memori setiap inti. Secara default, sistem menentukan nilainya

Metode 2: Gunakan perintah PAI

Konfigurasikan parameter komponen dengan menggunakan perintah PAI. Anda dapat menggunakan komponen SQL Script untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat SQL Script.

PAI -name=linearcrf    
    -project=algo_public    
    -DinputTableName=crf_input_table    
    -DidColName=sentence_id    
    -DfeatureColNames=word,f1    
    -DlabelColName=label    
    -DoutputTableName=crf_model    
    -Dlifecycle=28    
    -DcoreNum=10

Parameter

Diperlukan

Deskripsi

Nilai default

inputTableName

Ya

Tabel yang berisi fitur input.

Tidak ada nilai default

inputTablePartitions

Tidak

Partisi yang dipilih dari tabel yang berisi fitur input.

Semua partisi

featureColNames

Tidak

Kolom fitur yang dipilih dari tabel input.

Semua kolom, kecuali kolom label

labelColName

Ya

Kolom yang ingin Anda pilih.

Tidak ada nilai default

idColName

Ya

Kolom yang berisi label sampel.

Tidak ada nilai default

outputTableName

Ya

Tabel yang berisi model output.

Tidak ada nilai default

outputTablePartitions

Tidak

Partisi yang dipilih dari tabel model output.

Semua partisi

template

Tidak

Template yang digunakan untuk menghasilkan fitur.

  • Definisi

    <template .=. <template_item,<template_item,...,<template_item
    <template_item .=. [row_offset:col_index]/[row_offset:col_index]/.../[row_offset:col_index]
    row_offset .=. integer
    col_index .=. integer>
  • Nilai default

    [-2:0],[-1:0],[0:0],[1:0],[2:0],[-1:0]/[0:0],[0:0]/[1:0],[-2:1],[-1:1],[0:1],[1:1],[2:1],[-2:1]/[-1:1],[-1:1]/[0:1],[0:1]/[1:1],[1:1]/[2:1],[-2:1]/[-1:1]/[0:1],[-1:1]/[0:1]/[1:1],[0:1]/[1:1]/[2:1]

freq

Tidak

Parameter untuk menyaring fitur. Hanya nilai fitur yang lebih besar dari atau sama dengan nilai freq yang dipertahankan.

1

iterations

Tidak

Jumlah maksimum iterasi optimasi.

100

l1Weight

Tidak

Bobot parameter regularisasi L1.

1,0

l2Weight

Tidak

Bobot parameter regularisasi L2.

1,0

epsilon

Tidak

Deviasi konvergensi. Parameter ini menentukan persyaratan untuk menyelesaikan proses Limited-memory Broyden Fletcher Goldfarb Shanno (L-BFGS), yaitu deviasi antara nilai log-likelihood dalam dua iterasi.

0,0001

lbfgsStep

Tidak

Ukuran langkah historis untuk optimasi yang dilakukan menggunakan algoritma L-BFGS. Hanya algoritma L-BFGS yang mendukung parameter ini.

10

threadNum

Tidak

Jumlah thread paralel yang digunakan untuk pelatihan model.

3

lifecycle

Tidak

Lifecycle tabel output.

Tidak ada nilai default

coreNum

Tidak

Jumlah inti.

Ditentukan oleh sistem

memSizePerCore

Tidak

Ukuran memori setiap inti.

Ditentukan oleh sistem

Contoh

  • Data Input

    sentence_id

    kata

    f1

    label

    1

    Rockwell

    NNP

    B-NP

    1

    International

    NNP

    I-NP

    1

    Corp

    NNP

    I-NP

    1

    's

    POS

    B-NP

    ...

    ...

    ...

    ...

    823

    Ohio

    NNP

    B-NP

    823

    grew

    VBD

    B-VP

    823

    3,8

    CD

    B-NP

    823

    %

    NN

    I-NP

    823

    .

    .

    O

  • Algoritma Prediksi PAI Command

    PAI -name=crf_predict    
        -project=algo_public    
        -DinputTableName=crf_test_input_table    
        -DmodelTableName=crf_model    
        -DidColName=sentence_id    
        -DfeatureColNames=word,f1    
        -DlabelColName=label    
        -DoutputTableName=crf_predict_result    
        -DdetailColName=prediction_detail   
        -Dlifecycle=28    
        -DcoreNum=10

    Parameter

    Diperlukan

    Deskripsi

    Nilai default

    inputTableName

    Ya

    Tabel yang berisi fitur input.

    Tidak ada nilai default

    inputTablePartitions

    Tidak

    Partisi yang dipilih dari tabel yang berisi fitur input.

    Semua partisi

    featureColNames

    Tidak

    Kolom fitur yang dipilih dari tabel input.

    Semua kolom, kecuali kolom label

    labelColName

    Tidak

    Kolom yang ingin Anda pilih.

    Tidak ada nilai default

    IdColName

    Ya

    Kolom yang berisi label sampel.

    Tidak ada nilai default

    resultColName

    Tidak

    Kolom hasil di tabel output.

    prediction_result

    scoreColName

    Tidak

    Kolom skor di tabel output.

    prediction_score

    detailColName

    Tidak

    Kolom detail di tabel output.

    Tidak ada nilai default

    outputTableName

    Ya

    Tabel hasil prediksi output.

    Tidak ada nilai default

    outputTablePartitions

    Tidak

    Partisi yang dipilih dari tabel hasil prediksi output.

    Semua partisi

    modelTableName

    Ya

    Tabel model algoritma.

    Tidak ada nilai default

    modelTablePartitions

    Tidak

    Partisi yang dipilih dari tabel model algoritma.

    Semua partisi

    lifecycle

    Tidak

    Lifecycle tabel output.

    Tidak ada nilai default

    coreNum

    Tidak

    Jumlah inti.

    Ditentukan oleh sistem

    memSizePerCore

    Tidak

    Ukuran memori setiap inti.

    Ditentukan oleh sistem

  • Data Output

    sentence_id

    kata

    f1

    label

    1

    Confidence

    NN

    B-NP

    1

    in

    IN

    B-PP

    1

    the

    DT

    B-NP

    1

    pound

    NN

    I-NP

    ...

    ...

    ...

    ...

    77

    have

    VBP

    B-VP

    77

    announced

    VBN

    I-VP

    77

    similar

    JJ

    B-NP

    77

    increases

    NNS

    I-NP

    77

    .

    .

    O

    Catatan

    Kolom label bersifat opsional.