Konfigurasi komponen Sentence Splitting - Platform For AI - Alibaba Cloud - Platform For AI

Komponen Sentence Splitting memisahkan teks dokumen menjadi kalimat-kalimat individual berdasarkan tanda baca. Gunakan komponen ini untuk melakukan pra-pemrosesan teks sebelum menjalankan ringkasan teks dalam pipeline Machine Learning Designer.

Konfigurasikan komponen

Machine Learning Designer (sebelumnya Machine Learning Studio) mendukung dua metode konfigurasi.

Metode 1: Konfigurasi pada halaman pipeline

Di tab Fields Setting, atur kolom input dan delimiter. Di tab Tuning, sesuaikan sumber daya komputasi jika diperlukan.

Fields Setting tab

Parameter	Deskripsi
Column of Marked Document IDs	Nama kolom ID dokumen pada tabel input.
Marked Document Content Column	Nama kolom konten dokumen pada tabel input.
Sentence Delimiter Set	Karakter tanda baca yang menandai batas kalimat. Nilai default-nya adalah titik (`.`), tanda seru (`!`), dan tanda tanya (`?`).

Tab Tuning

Parameter	Deskripsi
Cores	Jumlah core yang digunakan untuk pemrosesan. Nilai default ditentukan oleh sistem.
Memory Size per Core	Memori yang dialokasikan untuk setiap core. Nilai default ditentukan oleh sistem.

Metode 2: Jalankan perintah PAI

Kirimkan perintah PAI melalui komponen SQL Script. Untuk detail tentang cara mengatur komponen SQL Script, lihat SQL Script.

PAI -name SplitSentences
    -project algo_public
    -DinputTableName="test_input"
    -DoutputTableName="test_output"
    -DdocIdCol="doc_id"
    -DdocContent="content"
    -Dlifecycle=30

Parameter

Parameter	Wajib	Deskripsi	Default
`inputTableName`	Ya	Nama tabel input.	—
`inputTablePartitions`	Tidak	Partisi dari tabel input yang akan digunakan untuk pemrosesan.	Semua partisi
`outputTableName`	Ya	Nama tabel output.	—
`docIdCol`	Ya	Nama kolom ID dokumen.	—
`docContent`	Ya	Nama kolom konten dokumen. Hanya menerima satu kolom.	—
`delimiter`	Tidak	Karakter tanda baca yang menandai batas kalimat.	Titik (`.`), tanda seru (`!`), dan tanda tanya (`?`)
`lifecycle`	Tidak	Siklus hidup tabel input dan output.	—
`coreNum`	Tidak	Jumlah core yang digunakan untuk pemrosesan.	Ditentukan oleh sistem
`memSizePerCore`	Tidak	Memori yang dialokasikan untuk setiap core.	Ditentukan oleh sistem

Contoh

Contoh berikut menunjukkan cara komponen memisahkan sebuah dokumen menjadi kalimat-kalimat individual.

Dokumen input (doc_id = 1000894) berisi dua kalimat yang dipisahkan oleh titik. Setelah diproses, tabel output berisi satu baris per kalimat:

doc_id	sentence
1000894	Pada tahun 2008, Bursa Efek Shanghai menerbitkan panduan pengungkapan mengenai tanggung jawab sosial perusahaan (CSR) bagi perusahaan tercatat. Tiga jenis perusahaan diminta untuk mengungkapkan laporan CSR mereka, dan perusahaan tercatat lain yang memenuhi syarat didorong untuk secara sukarela mengungkapkan laporan CSR mereka.
1000894	Pada tahun 2012, total 379 perusahaan tercatat atau sekitar 40% dari seluruh perusahaan tercatat mengungkapkan laporan CSR. Di antara perusahaan-perusahaan tersebut, 305 diwajibkan untuk mengungkapkan laporan CSR dan 74 secara sukarela mengungkapkan laporan CSR.

Tabel output berisi dua kolom: doc_id dan sentence.