Komponen Sentence Splitting memisahkan teks dokumen menjadi kalimat-kalimat individual berdasarkan tanda baca. Gunakan komponen ini untuk melakukan pra-pemrosesan teks sebelum menjalankan ringkasan teks dalam pipeline Machine Learning Designer.
Konfigurasikan komponen
Machine Learning Designer (sebelumnya Machine Learning Studio) mendukung dua metode konfigurasi.
Metode 1: Konfigurasi pada halaman pipeline
Di tab Fields Setting, atur kolom input dan delimiter. Di tab Tuning, sesuaikan sumber daya komputasi jika diperlukan.
Fields Setting tab
| Parameter | Deskripsi |
|---|---|
| Column of Marked Document IDs | Nama kolom ID dokumen pada tabel input. |
| Marked Document Content Column | Nama kolom konten dokumen pada tabel input. |
| Sentence Delimiter Set | Karakter tanda baca yang menandai batas kalimat. Nilai default-nya adalah titik (.), tanda seru (!), dan tanda tanya (?). |
Tab Tuning
| Parameter | Deskripsi |
|---|---|
| Cores | Jumlah core yang digunakan untuk pemrosesan. Nilai default ditentukan oleh sistem. |
| Memory Size per Core | Memori yang dialokasikan untuk setiap core. Nilai default ditentukan oleh sistem. |
Metode 2: Jalankan perintah PAI
Kirimkan perintah PAI melalui komponen SQL Script. Untuk detail tentang cara mengatur komponen SQL Script, lihat SQL Script.
PAI -name SplitSentences
-project algo_public
-DinputTableName="test_input"
-DoutputTableName="test_output"
-DdocIdCol="doc_id"
-DdocContent="content"
-Dlifecycle=30Parameter
| Parameter | Wajib | Deskripsi | Default |
|---|---|---|---|
inputTableName | Ya | Nama tabel input. | — |
inputTablePartitions | Tidak | Partisi dari tabel input yang akan digunakan untuk pemrosesan. | Semua partisi |
outputTableName | Ya | Nama tabel output. | — |
docIdCol | Ya | Nama kolom ID dokumen. | — |
docContent | Ya | Nama kolom konten dokumen. Hanya menerima satu kolom. | — |
delimiter | Tidak | Karakter tanda baca yang menandai batas kalimat. | Titik (.), tanda seru (!), dan tanda tanya (?) |
lifecycle | Tidak | Siklus hidup tabel input dan output. | — |
coreNum | Tidak | Jumlah core yang digunakan untuk pemrosesan. | Ditentukan oleh sistem |
memSizePerCore | Tidak | Memori yang dialokasikan untuk setiap core. | Ditentukan oleh sistem |
Contoh
Contoh berikut menunjukkan cara komponen memisahkan sebuah dokumen menjadi kalimat-kalimat individual.
Dokumen input (doc_id = 1000894) berisi dua kalimat yang dipisahkan oleh titik. Setelah diproses, tabel output berisi satu baris per kalimat:
| doc_id | sentence |
|---|---|
| 1000894 | Pada tahun 2008, Bursa Efek Shanghai menerbitkan panduan pengungkapan mengenai tanggung jawab sosial perusahaan (CSR) bagi perusahaan tercatat. Tiga jenis perusahaan diminta untuk mengungkapkan laporan CSR mereka, dan perusahaan tercatat lain yang memenuhi syarat didorong untuk secara sukarela mengungkapkan laporan CSR mereka. |
| 1000894 | Pada tahun 2012, total 379 perusahaan tercatat atau sekitar 40% dari seluruh perusahaan tercatat mengungkapkan laporan CSR. Di antara perusahaan-perusahaan tersebut, 305 diwajibkan untuk mengungkapkan laporan CSR dan 74 secara sukarela mengungkapkan laporan CSR. |
Tabel output berisi dua kolom: doc_id dan sentence.