全部产品
Search
文档中心

Platform For AI:Pemisahan Kata (Hasilkan Model)

更新时间:Jul 02, 2025

Topik ini menjelaskan komponen Pemisahan Kata (Hasilkan Model) yang disediakan oleh Machine Learning Designer (sebelumnya dikenal sebagai Machine Learning Studio).

Komponen Pemisahan Kata (Hasilkan Model) didasarkan pada Alibaba Word Segmenter (AliWS). Komponen ini digunakan untuk menghasilkan model segmentasi kata berdasarkan parameter dan kamus kustom.

Komponen ini hanya mendukung segmentasi kata Taobao Tiongkok dan segmentasi kata Internet.

Komponen Pemisahan Kata (Hasilkan Model) berbeda dari komponen Pemisahan Kata dalam beberapa hal berikut:

  • Komponen Pemisahan Kata membagi teks menjadi kata-kata.

  • Komponen Pemisahan Kata (Hasilkan Model) menghasilkan model segmentasi kata. Untuk membagi teks, Anda harus menerapkan model dan membuat prediksi atau memanggil operasi API.

Konfigurasikan komponen

Anda dapat menggunakan salah satu metode berikut untuk mengonfigurasi komponen Pemisahan Kata (Hasilkan Model).

Metode 1: Konfigurasikan komponen di halaman pipeline

Anda dapat mengonfigurasi parameter komponen Pemisahan Kata (Hasilkan Model) di halaman pipeline Machine Learning Designer dari Platform for AI (PAI). Machine Learning Designer sebelumnya dikenal sebagai Machine Learning Studio. Tabel berikut menjelaskan parameter tersebut.

Tab

Parameter

Deskripsi

Fields Setting

Select Columns

Kolom yang digunakan untuk menghasilkan model.

Parameters Setting

Recognition Options

Jenis konten untuk pengenalan. Nilai valid:

  • Kenali Entitas Sederhana

  • Kenali Nama Individu

  • Kenali Nama Organisasi

  • Kenali Nomor Telepon

  • Kenali Waktu

  • Kenali Tanggal

  • Kenali Karakter Alfanumerik

Secara default, opsi berikut dipilih: Kenali Entitas Sederhana, Kenali Nomor Telepon, Kenali Waktu, Kenali Tanggal, dan Kenali Karakter Alfanumerik.

Merge Options

Jenis konten untuk penggabungan. Nilai valid:

  • Gabungkan Angka Tiongkok

  • Gabungkan Angka Arab

  • Gabungkan Tanggal Tiongkok

  • Gabungkan Waktu Tiongkok

Nilai default: Gabungkan Angka Arab.

Tokenizer

Tipe filter. Nilai valid: TAOBAO_CHN dan INTERNET_CHN. Nilai default: TAOBAO_CHN.

POS Tagger

Menentukan apakah akan melakukan penandaan bagian ucapan. Secara default, penandaan bagian ucapan tidak dilakukan.

Semantic Tagger

Menentukan apakah akan melakukan pelabelan peran semantik. Secara default, pelabelan peran semantik tidak dilakukan.

Filter Out Words That Contain Only Numbers

Menentukan apakah akan menyaring kata yang hasil segmentasi katanya adalah angka. Secara default, opsi ini tidak dicentang.

Filter Out Words That Contain Only English Letters

Menentukan apakah akan menyaring kata yang hasil segmentasi katanya adalah huruf Inggris. Secara default, opsi ini tidak dicentang.

Filter Out Words That Contain Only Punctuations

Menentukan apakah akan menyaring kata yang hasil segmentasi katanya adalah tanda baca. Secara default, opsi ini tidak dicentang.

Tuning

Cores

Jumlah inti. Secara default, sistem menentukan nilainya.

Memory Size per Core

Ukuran memori setiap inti. Secara default, sistem menentukan nilainya.

Metode 2: Gunakan perintah PAI

Konfigurasikan parameter komponen dengan menggunakan perintah PAI. Anda dapat menggunakan komponen SQL Script untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat SQL Script.

pai -name split_word_model
    -project algo_public
    -DoutputModelName=aliws_model
    -DcolName=content
    -Dtokenizer=TAOBAO_CHN
    -DenableDfa=true
    -DenablePersonNameTagger=false
    -DenableOrgnizationTagger=false
    -DenablePosTagger=false
    -DenableTelephoneRetrievalUnit=true
    -DenableTimeRetrievalUnit=true
    -DenableDateRetrievalUnit=true
    -DenableNumberLetterRetrievalUnit=true
    -DenableChnNumMerge=false
    -DenableNumMerge=true
    -DenableChnTimeMerge=false
    -DenableChnDateMerge=false
    -DenableSemanticTagger=true

Parameter

Diperlukan

Deskripsi

Nilai default

userDictTableName

Tidak

Menentukan apakah akan menggunakan kamus kustom. Kamus kustom hanya memiliki satu kolom, dan setiap baris hanya berisi satu kata.

Tidak ada nilai default

outputModelName

Ya

Nama model keluaran.

Tidak ada nilai default

colName

Tidak

Nama kolom teks prediksi.

context

dictTableName

Tidak

Menentukan apakah akan menggunakan kamus kustom. Kamus kustom hanya memiliki satu kolom, dan setiap baris hanya berisi satu kata.

Tidak ada nilai default

tokenizer

Tidak

Tipe filter. Nilai valid: TAOBAO_CHN dan INTERNET_CHN.

TAOBAO_CHN

enableDfa

Tidak

Menentukan apakah akan mengenali entitas sederhana. Nilai valid: True dan False.

True

enablePersonNameTagger

Tidak

Menentukan apakah akan mengenali nama individu. Nilai valid: True dan False.

False

enableOrgnizationTagger

Tidak

Menentukan apakah akan mengenali nama organisasi. Nilai valid: True dan False.

False

enablePosTagger

Tidak

Menentukan apakah akan melakukan penandaan bagian ucapan. Nilai valid: True dan False.

False

enableTelephoneRetrievalUnit

Tidak

Menentukan apakah akan mengenali nomor telepon. Nilai valid: True dan False.

True

enableTimeRetrievalUnit

Tidak

Menentukan apakah akan mengenali ekspresi waktu. Nilai valid: True dan False.

True

enableDateRetrievalUnit

Tidak

Menentukan apakah akan mengenali ekspresi tanggal. Nilai valid: True dan False.

True

enableNumberLetterRetrievalUnit

Tidak

Menentukan apakah akan mengenali digit dan huruf. Nilai valid: True dan False.

True

enableChnNumMerge

Tidak

Menentukan apakah akan menggabungkan angka Tiongkok ke dalam unit pengambilan. Nilai valid: True dan False.

False

enableNumMerge

Tidak

Menentukan apakah akan menggabungkan angka Arab ke dalam unit pengambilan. Nilai valid: True dan False.

True

enableChnTimeMerge

Tidak

Menentukan apakah akan menggabungkan ekspresi waktu Tiongkok ke dalam unit semantik. Nilai valid: True dan False.

False

enableChnDateMerge

Tidak

Menentukan apakah akan menggabungkan ekspresi tanggal Tiongkok ke dalam unit semantik. Nilai valid: True dan False.

False

enableSemanticTagger

Tidak

Menentukan apakah akan melakukan pelabelan peran semantik. Nilai valid: True dan False.

False

Contoh

  • Perintah PAI

    pai -name split_word_model
        -project algo_public
        -DoutputModelName=aliws_model
  • Penyebaran Model

    create onlinemodel ning_test_aliws_model_2 -offlinemodelName ning_test_aliws_model -instanceNum 1 -cpu 100 -memory 4096;
  • Segmentasi Kata Online

    KVJsonRequest request = new KVJsonRequest();
    Map<String, JsonFeatureValue> row = request.addRow();
    row.put(col_name, new JsonFeatureValue("Platform algoritma data besar adalah baru"));
    KVJsonResponse res = predictClient.syncPredict(new JsonPredictRequest(project_name, model_name, request));
    List<ResponseItem> ri = res.getOutputs();
    for (ResponseItem item : ri) {
            System.out.println(item.getOutputLabel());
     }
  • Segmentasi Kata Offline

    pai -name prediction
        -DmodelName=ning_test_aliws_model
        -DinputTableName=ning_test_aliws
        -DoutputTableName=ning_test_aliws_offline_predict;