All Products
Search
Document Center

Platform For AI:Pemisahan kalimat

Last Updated:Apr 02, 2026

Komponen Sentence Splitting memisahkan teks dokumen menjadi kalimat-kalimat individual berdasarkan tanda baca. Gunakan komponen ini untuk melakukan pra-pemrosesan teks sebelum menjalankan ringkasan teks dalam pipeline Machine Learning Designer.

Konfigurasikan komponen

Machine Learning Designer (sebelumnya Machine Learning Studio) mendukung dua metode konfigurasi.

Metode 1: Konfigurasi pada halaman pipeline

Di tab Fields Setting, atur kolom input dan delimiter. Di tab Tuning, sesuaikan sumber daya komputasi jika diperlukan.

Fields Setting tab

ParameterDeskripsi
Column of Marked Document IDsNama kolom ID dokumen pada tabel input.
Marked Document Content ColumnNama kolom konten dokumen pada tabel input.
Sentence Delimiter SetKarakter tanda baca yang menandai batas kalimat. Nilai default-nya adalah titik (.), tanda seru (!), dan tanda tanya (?).

Tab Tuning

ParameterDeskripsi
CoresJumlah core yang digunakan untuk pemrosesan. Nilai default ditentukan oleh sistem.
Memory Size per CoreMemori yang dialokasikan untuk setiap core. Nilai default ditentukan oleh sistem.

Metode 2: Jalankan perintah PAI

Kirimkan perintah PAI melalui komponen SQL Script. Untuk detail tentang cara mengatur komponen SQL Script, lihat SQL Script.

PAI -name SplitSentences
    -project algo_public
    -DinputTableName="test_input"
    -DoutputTableName="test_output"
    -DdocIdCol="doc_id"
    -DdocContent="content"
    -Dlifecycle=30

Parameter

ParameterWajibDeskripsiDefault
inputTableNameYaNama tabel input.
inputTablePartitionsTidakPartisi dari tabel input yang akan digunakan untuk pemrosesan.Semua partisi
outputTableNameYaNama tabel output.
docIdColYaNama kolom ID dokumen.
docContentYaNama kolom konten dokumen. Hanya menerima satu kolom.
delimiterTidakKarakter tanda baca yang menandai batas kalimat.Titik (.), tanda seru (!), dan tanda tanya (?)
lifecycleTidakSiklus hidup tabel input dan output.
coreNumTidakJumlah core yang digunakan untuk pemrosesan.Ditentukan oleh sistem
memSizePerCoreTidakMemori yang dialokasikan untuk setiap core.Ditentukan oleh sistem

Contoh

Contoh berikut menunjukkan cara komponen memisahkan sebuah dokumen menjadi kalimat-kalimat individual.

Dokumen input (doc_id = 1000894) berisi dua kalimat yang dipisahkan oleh titik. Setelah diproses, tabel output berisi satu baris per kalimat:

doc_idsentence
1000894Pada tahun 2008, Bursa Efek Shanghai menerbitkan panduan pengungkapan mengenai tanggung jawab sosial perusahaan (CSR) bagi perusahaan tercatat. Tiga jenis perusahaan diminta untuk mengungkapkan laporan CSR mereka, dan perusahaan tercatat lain yang memenuhi syarat didorong untuk secara sukarela mengungkapkan laporan CSR mereka.
1000894Pada tahun 2012, total 379 perusahaan tercatat atau sekitar 40% dari seluruh perusahaan tercatat mengungkapkan laporan CSR. Di antara perusahaan-perusahaan tersebut, 305 diwajibkan untuk mengungkapkan laporan CSR dan 74 secara sukarela mengungkapkan laporan CSR.

Tabel output berisi dua kolom: doc_id dan sentence.