Topik ini menjelaskan komponen Pemisahan Kata (Hasilkan Model) yang disediakan oleh Machine Learning Designer (sebelumnya dikenal sebagai Machine Learning Studio).
Komponen Pemisahan Kata (Hasilkan Model) didasarkan pada Alibaba Word Segmenter (AliWS). Komponen ini digunakan untuk menghasilkan model segmentasi kata berdasarkan parameter dan kamus kustom.
Komponen ini hanya mendukung segmentasi kata Taobao Tiongkok dan segmentasi kata Internet.
Komponen Pemisahan Kata (Hasilkan Model) berbeda dari komponen Pemisahan Kata dalam beberapa hal berikut:
Komponen Pemisahan Kata membagi teks menjadi kata-kata.
Komponen Pemisahan Kata (Hasilkan Model) menghasilkan model segmentasi kata. Untuk membagi teks, Anda harus menerapkan model dan membuat prediksi atau memanggil operasi API.
Konfigurasikan komponen
Anda dapat menggunakan salah satu metode berikut untuk mengonfigurasi komponen Pemisahan Kata (Hasilkan Model).
Metode 1: Konfigurasikan komponen di halaman pipeline
Anda dapat mengonfigurasi parameter komponen Pemisahan Kata (Hasilkan Model) di halaman pipeline Machine Learning Designer dari Platform for AI (PAI). Machine Learning Designer sebelumnya dikenal sebagai Machine Learning Studio. Tabel berikut menjelaskan parameter tersebut.
Tab | Parameter | Deskripsi |
Fields Setting | Select Columns | Kolom yang digunakan untuk menghasilkan model. |
Parameters Setting | Recognition Options | Jenis konten untuk pengenalan. Nilai valid:
Secara default, opsi berikut dipilih: Kenali Entitas Sederhana, Kenali Nomor Telepon, Kenali Waktu, Kenali Tanggal, dan Kenali Karakter Alfanumerik. |
Merge Options | Jenis konten untuk penggabungan. Nilai valid:
Nilai default: Gabungkan Angka Arab. | |
Tokenizer | Tipe filter. Nilai valid: TAOBAO_CHN dan INTERNET_CHN. Nilai default: TAOBAO_CHN. | |
POS Tagger | Menentukan apakah akan melakukan penandaan bagian ucapan. Secara default, penandaan bagian ucapan tidak dilakukan. | |
Semantic Tagger | Menentukan apakah akan melakukan pelabelan peran semantik. Secara default, pelabelan peran semantik tidak dilakukan. | |
Filter Out Words That Contain Only Numbers | Menentukan apakah akan menyaring kata yang hasil segmentasi katanya adalah angka. Secara default, opsi ini tidak dicentang. | |
Filter Out Words That Contain Only English Letters | Menentukan apakah akan menyaring kata yang hasil segmentasi katanya adalah huruf Inggris. Secara default, opsi ini tidak dicentang. | |
Filter Out Words That Contain Only Punctuations | Menentukan apakah akan menyaring kata yang hasil segmentasi katanya adalah tanda baca. Secara default, opsi ini tidak dicentang. | |
Tuning | Cores | Jumlah inti. Secara default, sistem menentukan nilainya. |
Memory Size per Core | Ukuran memori setiap inti. Secara default, sistem menentukan nilainya. |
Metode 2: Gunakan perintah PAI
Konfigurasikan parameter komponen dengan menggunakan perintah PAI. Anda dapat menggunakan komponen SQL Script untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat SQL Script.
pai -name split_word_model
-project algo_public
-DoutputModelName=aliws_model
-DcolName=content
-Dtokenizer=TAOBAO_CHN
-DenableDfa=true
-DenablePersonNameTagger=false
-DenableOrgnizationTagger=false
-DenablePosTagger=false
-DenableTelephoneRetrievalUnit=true
-DenableTimeRetrievalUnit=true
-DenableDateRetrievalUnit=true
-DenableNumberLetterRetrievalUnit=true
-DenableChnNumMerge=false
-DenableNumMerge=true
-DenableChnTimeMerge=false
-DenableChnDateMerge=false
-DenableSemanticTagger=trueParameter | Diperlukan | Deskripsi | Nilai default |
userDictTableName | Tidak | Menentukan apakah akan menggunakan kamus kustom. Kamus kustom hanya memiliki satu kolom, dan setiap baris hanya berisi satu kata. | Tidak ada nilai default |
outputModelName | Ya | Nama model keluaran. | Tidak ada nilai default |
colName | Tidak | Nama kolom teks prediksi. | context |
dictTableName | Tidak | Menentukan apakah akan menggunakan kamus kustom. Kamus kustom hanya memiliki satu kolom, dan setiap baris hanya berisi satu kata. | Tidak ada nilai default |
tokenizer | Tidak | Tipe filter. Nilai valid: TAOBAO_CHN dan INTERNET_CHN. | TAOBAO_CHN |
enableDfa | Tidak | Menentukan apakah akan mengenali entitas sederhana. Nilai valid: True dan False. | True |
enablePersonNameTagger | Tidak | Menentukan apakah akan mengenali nama individu. Nilai valid: True dan False. | False |
enableOrgnizationTagger | Tidak | Menentukan apakah akan mengenali nama organisasi. Nilai valid: True dan False. | False |
enablePosTagger | Tidak | Menentukan apakah akan melakukan penandaan bagian ucapan. Nilai valid: True dan False. | False |
enableTelephoneRetrievalUnit | Tidak | Menentukan apakah akan mengenali nomor telepon. Nilai valid: True dan False. | True |
enableTimeRetrievalUnit | Tidak | Menentukan apakah akan mengenali ekspresi waktu. Nilai valid: True dan False. | True |
enableDateRetrievalUnit | Tidak | Menentukan apakah akan mengenali ekspresi tanggal. Nilai valid: True dan False. | True |
enableNumberLetterRetrievalUnit | Tidak | Menentukan apakah akan mengenali digit dan huruf. Nilai valid: True dan False. | True |
enableChnNumMerge | Tidak | Menentukan apakah akan menggabungkan angka Tiongkok ke dalam unit pengambilan. Nilai valid: True dan False. | False |
enableNumMerge | Tidak | Menentukan apakah akan menggabungkan angka Arab ke dalam unit pengambilan. Nilai valid: True dan False. | True |
enableChnTimeMerge | Tidak | Menentukan apakah akan menggabungkan ekspresi waktu Tiongkok ke dalam unit semantik. Nilai valid: True dan False. | False |
enableChnDateMerge | Tidak | Menentukan apakah akan menggabungkan ekspresi tanggal Tiongkok ke dalam unit semantik. Nilai valid: True dan False. | False |
enableSemanticTagger | Tidak | Menentukan apakah akan melakukan pelabelan peran semantik. Nilai valid: True dan False. | False |
Contoh
Perintah PAI
pai -name split_word_model -project algo_public -DoutputModelName=aliws_modelPenyebaran Model
create onlinemodel ning_test_aliws_model_2 -offlinemodelName ning_test_aliws_model -instanceNum 1 -cpu 100 -memory 4096;Segmentasi Kata Online
KVJsonRequest request = new KVJsonRequest(); Map<String, JsonFeatureValue> row = request.addRow(); row.put(col_name, new JsonFeatureValue("Platform algoritma data besar adalah baru")); KVJsonResponse res = predictClient.syncPredict(new JsonPredictRequest(project_name, model_name, request)); List<ResponseItem> ri = res.getOutputs(); for (ResponseItem item : ri) { System.out.println(item.getOutputLabel()); }Segmentasi Kata Offline
pai -name prediction -DmodelName=ning_test_aliws_model -DinputTableName=ning_test_aliws -DoutputTableName=ning_test_aliws_offline_predict;