Konfigurasi Word Splitting - Platform For AI

Topik ini menjelaskan komponen Split Word yang disediakan oleh Designer.

Komponen Split Word menggunakan Alibaba Word Segmenter (AliWS) untuk melakukan tokenisasi konten pada kolom tertentu. Token hasilnya dipisahkan dengan spasi. Jika Anda mengonfigurasi penandaan part-of-speech (POS) atau penandaan semantik, output akan mencakup token, tag POS, dan tag semantik. Tag POS dipisahkan dengan garis miring (/), sedangkan tag semantik dipisahkan dengan garis vertikal (|).

Komponen Split Word hanya mendukung tokenizer TAOBAO_CHN dan INTERNET_CHN.

Anda dapat mengonfigurasi komponen Split Word di Designer menggunakan GUI atau perintah PAI.

Konfigurasi komponen

Anda dapat mengonfigurasi komponen Split Word dengan cara berikut.

Metode 1: Gunakan GUI

Anda dapat mengonfigurasi komponen pada halaman alur kerja Designer.

Tab	Parameter	Description
Fields Setting	Column Name	Kolom yang akan ditokenisasi.
Parameters Setting	Recognition Options	Jenis konten yang akan dideteksi. Nilai yang valid: Detect simple entities Detect person names Detect organization names Detect phone numbers Detect time Detect date Detect numbers and letters Nilai default: Detect simple entities, Detect phone numbers, Detect time, Detect date, dan Detect numbers and letters.
	Merge Options	Jenis konten yang akan digabungkan. Nilai yang valid: Merge Chinese numbers Merge Arabic numerals Merge Chinese dates Merge Chinese times Nilai default adalah Merge Arabic numerals.
	Filter	Jenis filter. Nilai yang valid adalah TAOBAO_CHN dan INTERNET_CHN. Nilai default adalah TAOBAO_CHN.
	Pos Tagger	Menentukan apakah akan melakukan penandaan part-of-speech. Secara default, fitur ini diaktifkan.
	Semantic Tagger	Menentukan apakah akan melakukan penandaan semantik. Secara default, fitur ini dinonaktifkan.
	Filter tokens that are numbers	Menentukan apakah akan memfilter token yang berupa angka. Secara default, fitur ini dinonaktifkan.
	Filter tokens that are all-English words	Menentukan apakah akan memfilter token yang terdiri dari huruf Inggris saja. Secara default, fitur ini dinonaktifkan.
	Filter tokens that are punctuation marks	Menentukan apakah akan memfilter token yang berupa tanda baca. Secara default, fitur ini dinonaktifkan.
Execution Tuning	Number of cores	Nilai default dialokasikan secara otomatis oleh sistem.
Execution Tuning	Memory per core	Nilai default dialokasikan secara otomatis oleh sistem.

Metode 2: Gunakan perintah PAI

Anda dapat menggunakan perintah PAI untuk mengonfigurasi komponen. Komponen SQL Script dapat digunakan untuk menjalankan perintah PAI tersebut. Untuk informasi selengkapnya, lihat SQL Script.

pai -name split_word_model
    -project algo_public
    -DoutputModelName=aliws_model
    -DcolName=content
    -Dtokenizer=TAOBAO_CHN
    -DenableDfa=true
    -DenablePersonNameTagger=false
    -DenableOrgnizationTagger=false
    -DenablePosTagger=false
    -DenableTelephoneRetrievalUnit=true
    -DenableTimeRetrievalUnit=true
    -DenableDateRetrievalUnit=true
    -DenableNumberLetterRetrievalUnit=true
    -DenableChnNumMerge=false
    -DenableNumMerge=true
    -DenableChnTimeMerge=false
    -DenableChnDateMerge=false
    -DenableSemanticTagger=true

Parameter Name	Required	Description	Default Value
inputTableName	Yes	Nama tabel input.	None
inputTablePartitions	No	Partisi dalam tabel input yang akan ditokenisasi. Formatnya adalah `partition_name=value`. Untuk partisi multi-level, gunakan format `name1=value1/name2=value2`. Pisahkan beberapa partisi dengan koma (,).	All partitions
selectedColNames	Yes	Kolom dalam tabel input yang akan ditokenisasi. Pisahkan beberapa nama kolom dengan koma (,).	None
dictTableName	No	Menentukan apakah akan menggunakan tabel kamus kustom. Tabel kamus kustom hanya memiliki satu kolom, dan setiap baris berisi satu kata.	None
tokenizer	No	Jenis filter. Nilai yang valid adalah TAOBAO_CHN dan INTERNET_CHN.	TAOBAO_CHN
enableDfa	No	Menentukan apakah akan mendeteksi entitas sederhana. Nilai yang valid: True atau False.	True
enablePersonNameTagger	No	Menentukan apakah akan mendeteksi nama orang. Nilai yang valid: True atau False.	False
enableOrgnizationTagger	No	Menentukan apakah akan mendeteksi nama organisasi. Nilai yang valid: True atau False.	False
enablePosTagger	No	Menentukan apakah akan melakukan penandaan part-of-speech. Nilai yang valid: True atau False.	False
enableTelephoneRetrievalUnit	No	Menentukan apakah akan mendeteksi nomor telepon. Nilai yang valid: True atau False.	True
enableTimeRetrievalUnit	No	Menentukan apakah akan mendeteksi waktu. Nilai yang valid: True atau False.	True
enableDateRetrievalUnit	No	Menentukan apakah akan mendeteksi tanggal. Nilai yang valid: True atau False.	True
enableNumberLetterRetrievalUnit	No	Menentukan apakah akan mendeteksi angka dan huruf. Nilai yang valid: True atau False.	True
enableChnNumMerge	No	Menentukan apakah akan menggabungkan angka Tiongkok menjadi satu unit pengambilan. Nilai yang valid: True atau False.	False
enableNumMerge	No	Menentukan apakah akan menggabungkan angka standar menjadi satu unit pengambilan. Nilai yang valid: True atau False.	True
enableChnTimeMerge	No	Menentukan apakah akan menggabungkan ekspresi waktu Tiongkok menjadi satu unit semantik. Nilai yang valid: True atau False.	False
enableChnDateMerge	No	Menentukan apakah akan menggabungkan ekspresi tanggal Tiongkok menjadi satu unit semantik. Nilai yang valid: True atau False.	False
enableSemanticTagger	No	Menentukan apakah akan melakukan penandaan semantik. Nilai yang valid: True atau False.	False
outputTableName	Yes	Nama tabel output.	None
outputTablePartition	No	Nama partisi tabel output.	None
coreNum	No	Jumlah worker. Parameter ini hanya berlaku jika parameter memSizePerCore juga diatur. Nilainya harus berupa bilangan bulat positif dalam rentang [1,9999].	Automatically allocated by the system
memSizePerCore	No	Ukuran memori per core, dalam MB. Nilainya harus berupa bilangan bulat positif dalam rentang [1024,64×1024].	Automatically allocated by the system
lifecycle	No	Siklus hidup tabel output. Nilainya harus berupa bilangan bulat positif.	None

Jika input berupa tabel standar, jangan atur parameter coreNum dan memSizePerCore. Komponen Split Word akan menghitung nilai-nilai tersebut secara otomatis.

Jika sumber daya terbatas, Anda dapat menggunakan kode berikut untuk menghitung jumlah worker dan memori per worker.

def CalcCoreNumAndMem(row, col, kOneCoreDataSize=1024):
    """Hitung jumlah worker dan memori per worker.
       Args:
           row: Jumlah baris dalam tabel input.
           col: Jumlah kolom dalam tabel input.
           kOneCoreDataSize: Volume data yang diproses oleh satu worker, dalam MB. Harus berupa bilangan bulat positif. Nilai default adalah 1024.
       Return:
           coreNum, memSizePerCore
       Contoh:
           coreNum, memSizePerCore = CalcCoreNumAndMem(1000, 99, kOneCoreDataSize=2048)
    """
    kMBytes = 1024.0 * 1024.0
    # Hitung jumlah worker berdasarkan volume data.
    coreNum = max(1, int(row * col * 1000/ kMBytes / kOneCoreDataSize))
    # Memori per worker = Ukuran volume data.
    memSizePerCore = max(1024,  int(kOneCoreDataSize*2))
    return coreNum,  memSizePerCore

Contoh

Buat data

create table pai_aliws_test
as select
    1 as id,
    'Today is a good day. The weather is nice and sunny.' as content;

Perintah PAI

pai -name split_word
    -project algo_public
    -DinputTableName=pai_aliws_test
    -DselectedColNames=content
    -DoutputTableName=doc_test_split_word

Deskripsi input

Tabel input berisi dua kolom: kolom ID dan kolom content.

+------------+-----------------------------------------------------+
| id         | content                                             |
+------------+-----------------------------------------------------+
| 1          | Today is a good day. The weather is fine and sunny. |

Deskripsi output
- Komponen melakukan tokenisasi pada kolom yang ditentukan dan membiarkan kolom lainnya tidak berubah.
- Jika Anda menggunakan kamus kustom, sistem akan melakukan tokenisasi teks berdasarkan kamus tersebut dan konteksnya. Namun, tokenisasi mungkin tidak sepenuhnya mengikuti kamus kustom.