全部产品
Search
文档中心

Platform For AI:Penghitungan N-gram

更新时间:Jul 02, 2025

Proses ngram-count merupakan langkah penting dalam pelatihan model bahasa, yang melibatkan pembentukan dan penghitungan frekuensi n-gram. Dalam proses ini, algoritma mengidentifikasi urutan n kata berturut-turut (n-gram) di seluruh korpus serta menghitung frekuensi kemunculannya untuk membangun hubungan statistik antar kata. Hasilnya mencerminkan jumlah keseluruhan n-gram di seluruh korpus, bukan hanya statistik dokumen tunggal.

Konfigurasikan komponen

Gunakan salah satu metode berikut untuk mengonfigurasi komponen Penghitungan N-gram:

Metode 1: Konfigurasikan komponen di halaman pipeline

Anda dapat mengonfigurasi parameter komponen Penghitungan N-gram di halaman pipeline Machine Learning Designer dari Platform for AI (PAI). Machine Learning Designer sebelumnya dikenal sebagai Machine Learning Studio. Tabel berikut menjelaskan parameter-parameter tersebut:

Tab

Parameter

Deskripsi

Fields Setting

Column of Sentences in Input Table

Kolom yang berisi kalimat-kalimat di tabel input.

Column of Words in the Bag-of-Words

Kolom yang berisi kata-kata dalam tas kata.

Words Column in Input Counting Result Table

Kolom kata dalam tabel hasil penghitungan input.

Count Column in Input Counting Result Table

Kolom hitungan dalam tabel hasil penghitungan input.

Sentence Weight Column

Kolom yang berisi bobot kalimat input.

Parameters Setting

Maximum N-gram Length

Panjang maksimum N-gram. Nilai default: 3.

Tuning

Optional. The number of cores.

Jumlah core. Secara default, sistem menentukan nilainya.

Optional. Memory size per core.

Ukuran memori setiap core. Secara default, sistem menentukan nilainya. Satuan: MB.

Metode 2: Gunakan perintah PAI

Konfigurasikan parameter komponen menggunakan perintah PAI. Anda dapat menggunakan komponen SQL Script untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat SQL Script.

PAI -name ngram_count    
    -project algo_public    
    -DinputTableName=pai_ngram_input    
    -DoutputTableName=pai_ngram_output    
    -DinputSelectedColNames=col0    
    -DweightColName=weight    
    -DcoreNum=2    
    -DmemSizePerCore=1000;

Parameter

Diperlukan

Nilai default

Deskripsi

inputTableName

Ya

Tidak ada nilai default

Nama tabel input.

outputTableName

Ya

Tidak ada nilai default

Nama tabel output.

inputSelectedColNames

Tidak

Nama kolom STRING pertama

Nama kolom yang dipilih dari tabel input.

weightColName

Tidak

1

Nama kolom bobot.

inputTablePartitions

Tidak

Semua partisi

Partisi yang dipilih dari tabel input.

countTableName

Tidak

Tidak ada nilai default

Tabel output penghitungan N-gram yang sebelumnya dibuat. Tabel ini digabungkan ke dalam hasil output.

countWordColName

Tidak

Kolom kedua

Nama kolom kata dalam tabel penghitungan.

countCountColName

Tidak

Kolom ketiga

Nama kolom hitungan dalam tabel penghitungan.

countTablePartitions

Tidak

Tidak ada nilai default

Partisi dalam tabel penghitungan.

vocabTableName

Tidak

Tidak ada nilai default

Nama tabel tas kata. Kata-kata yang tidak termasuk dalam tas kata ditandai sebagai \<unk\.

vocabSelectedColName

Tidak

Kolom STRING pertama

Nama kolom yang berisi kata-kata dalam tas kata.

vocabTablePartitions

Tidak

Tidak ada nilai default

Partisi dalam tabel tas kata.

order

Tidak

3

Panjang maksimum N-gram.

lifecycle

Tidak

Tidak ada nilai default

Lifecycle tabel output.

coreNum

Tidak

Tidak ada nilai default

Jumlah core.

memSizePerCore

Tidak

Tidak ada nilai default

Ukuran memori untuk setiap core. Satuan: MB.