Konfigurasi komponen N-gram Counting - Platform For AI

Proses ngram-count merupakan langkah penting dalam pelatihan model bahasa, yang melibatkan pembentukan dan penghitungan frekuensi n-gram. Dalam proses ini, algoritma mengidentifikasi urutan n kata berturut-turut (n-gram) di seluruh korpus serta menghitung frekuensi kemunculannya untuk membangun hubungan statistik antar kata. Hasilnya mencerminkan jumlah keseluruhan n-gram di seluruh korpus, bukan hanya statistik dokumen tunggal.

Konfigurasikan komponen

Gunakan salah satu metode berikut untuk mengonfigurasi komponen Penghitungan N-gram:

Metode 1: Konfigurasikan komponen di halaman pipeline

Anda dapat mengonfigurasi parameter komponen Penghitungan N-gram di halaman pipeline Machine Learning Designer dari Platform for AI (PAI). Machine Learning Designer sebelumnya dikenal sebagai Machine Learning Studio. Tabel berikut menjelaskan parameter-parameter tersebut:

Tab	Parameter	Deskripsi
Fields Setting	Column of Sentences in Input Table	Kolom yang berisi kalimat-kalimat di tabel input.
	Column of Words in the Bag-of-Words	Kolom yang berisi kata-kata dalam tas kata.
	Words Column in Input Counting Result Table	Kolom kata dalam tabel hasil penghitungan input.
	Count Column in Input Counting Result Table	Kolom hitungan dalam tabel hasil penghitungan input.
	Sentence Weight Column	Kolom yang berisi bobot kalimat input.
Parameters Setting	Maximum N-gram Length	Panjang maksimum N-gram. Nilai default: 3.
Tuning	Optional. The number of cores.	Jumlah core. Secara default, sistem menentukan nilainya.
Tuning	Optional. Memory size per core.	Ukuran memori setiap core. Secara default, sistem menentukan nilainya. Satuan: MB.

Metode 2: Gunakan perintah PAI

Konfigurasikan parameter komponen menggunakan perintah PAI. Anda dapat menggunakan komponen SQL Script untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat SQL Script.

PAI -name ngram_count    
    -project algo_public    
    -DinputTableName=pai_ngram_input    
    -DoutputTableName=pai_ngram_output    
    -DinputSelectedColNames=col0    
    -DweightColName=weight    
    -DcoreNum=2    
    -DmemSizePerCore=1000;

Parameter	Diperlukan	Nilai default	Deskripsi
inputTableName	Ya	Tidak ada nilai default	Nama tabel input.
outputTableName	Ya	Tidak ada nilai default	Nama tabel output.
inputSelectedColNames	Tidak	Nama kolom STRING pertama	Nama kolom yang dipilih dari tabel input.
weightColName	Tidak	1	Nama kolom bobot.
inputTablePartitions	Tidak	Semua partisi	Partisi yang dipilih dari tabel input.
countTableName	Tidak	Tidak ada nilai default	Tabel output penghitungan N-gram yang sebelumnya dibuat. Tabel ini digabungkan ke dalam hasil output.
countWordColName	Tidak	Kolom kedua	Nama kolom kata dalam tabel penghitungan.
countCountColName	Tidak	Kolom ketiga	Nama kolom hitungan dalam tabel penghitungan.
countTablePartitions	Tidak	Tidak ada nilai default	Partisi dalam tabel penghitungan.
vocabTableName	Tidak	Tidak ada nilai default	Nama tabel tas kata. Kata-kata yang tidak termasuk dalam tas kata ditandai sebagai \<unk\.
vocabSelectedColName	Tidak	Kolom STRING pertama	Nama kolom yang berisi kata-kata dalam tas kata.
vocabTablePartitions	Tidak	Tidak ada nilai default	Partisi dalam tabel tas kata.
order	Tidak	3	Panjang maksimum N-gram.
lifecycle	Tidak	Tidak ada nilai default	Lifecycle tabel output.
coreNum	Tidak	Tidak ada nilai default	Jumlah core.
memSizePerCore	Tidak	Tidak ada nilai default	Ukuran memori untuk setiap core. Satuan: MB.