Proses ngram-count merupakan langkah penting dalam pelatihan model bahasa, yang melibatkan pembentukan dan penghitungan frekuensi n-gram. Dalam proses ini, algoritma mengidentifikasi urutan n kata berturut-turut (n-gram) di seluruh korpus serta menghitung frekuensi kemunculannya untuk membangun hubungan statistik antar kata. Hasilnya mencerminkan jumlah keseluruhan n-gram di seluruh korpus, bukan hanya statistik dokumen tunggal.
Konfigurasikan komponen
Gunakan salah satu metode berikut untuk mengonfigurasi komponen Penghitungan N-gram:
Metode 1: Konfigurasikan komponen di halaman pipeline
Anda dapat mengonfigurasi parameter komponen Penghitungan N-gram di halaman pipeline Machine Learning Designer dari Platform for AI (PAI). Machine Learning Designer sebelumnya dikenal sebagai Machine Learning Studio. Tabel berikut menjelaskan parameter-parameter tersebut:
Tab | Parameter | Deskripsi |
Fields Setting | Column of Sentences in Input Table | Kolom yang berisi kalimat-kalimat di tabel input. |
Column of Words in the Bag-of-Words | Kolom yang berisi kata-kata dalam tas kata. | |
Words Column in Input Counting Result Table | Kolom kata dalam tabel hasil penghitungan input. | |
Count Column in Input Counting Result Table | Kolom hitungan dalam tabel hasil penghitungan input. | |
Sentence Weight Column | Kolom yang berisi bobot kalimat input. | |
Parameters Setting | Maximum N-gram Length | Panjang maksimum N-gram. Nilai default: 3. |
Tuning | Optional. The number of cores. | Jumlah core. Secara default, sistem menentukan nilainya. |
Optional. Memory size per core. | Ukuran memori setiap core. Secara default, sistem menentukan nilainya. Satuan: MB. |
Metode 2: Gunakan perintah PAI
Konfigurasikan parameter komponen menggunakan perintah PAI. Anda dapat menggunakan komponen SQL Script untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat SQL Script.
PAI -name ngram_count
-project algo_public
-DinputTableName=pai_ngram_input
-DoutputTableName=pai_ngram_output
-DinputSelectedColNames=col0
-DweightColName=weight
-DcoreNum=2
-DmemSizePerCore=1000;Parameter | Diperlukan | Nilai default | Deskripsi |
inputTableName | Ya | Tidak ada nilai default | Nama tabel input. |
outputTableName | Ya | Tidak ada nilai default | Nama tabel output. |
inputSelectedColNames | Tidak | Nama kolom STRING pertama | Nama kolom yang dipilih dari tabel input. |
weightColName | Tidak | 1 | Nama kolom bobot. |
inputTablePartitions | Tidak | Semua partisi | Partisi yang dipilih dari tabel input. |
countTableName | Tidak | Tidak ada nilai default | Tabel output penghitungan N-gram yang sebelumnya dibuat. Tabel ini digabungkan ke dalam hasil output. |
countWordColName | Tidak | Kolom kedua | Nama kolom kata dalam tabel penghitungan. |
countCountColName | Tidak | Kolom ketiga | Nama kolom hitungan dalam tabel penghitungan. |
countTablePartitions | Tidak | Tidak ada nilai default | Partisi dalam tabel penghitungan. |
vocabTableName | Tidak | Tidak ada nilai default | Nama tabel tas kata. Kata-kata yang tidak termasuk dalam tas kata ditandai sebagai \<unk\. |
vocabSelectedColName | Tidak | Kolom STRING pertama | Nama kolom yang berisi kata-kata dalam tas kata. |
vocabTablePartitions | Tidak | Tidak ada nilai default | Partisi dalam tabel tas kata. |
order | Tidak | 3 | Panjang maksimum N-gram. |
lifecycle | Tidak | Tidak ada nilai default | Lifecycle tabel output. |
coreNum | Tidak | Tidak ada nilai default | Jumlah core. |
memSizePerCore | Tidak | Tidak ada nilai default | Ukuran memori untuk setiap core. Satuan: MB. |