全部产品
Search
文档中心

Platform For AI:Pemisahan Kalimat

更新时间:Jul 02, 2025

Topik ini menjelaskan komponen Pemisahan Kalimat yang disediakan oleh Machine Learning Studio.

Teks dalam dokumen dapat dipisahkan berdasarkan tanda baca. Komponen ini digunakan untuk memproses teks sebelum pembuatan ringkasan teks. Komponen ini membagi teks menjadi baris, di mana setiap baris hanya berisi satu kalimat.

Konfigurasi komponen

Anda dapat menggunakan salah satu metode berikut untuk mengonfigurasi komponen Pemisahan Kalimat.

Metode 1: Konfigurasikan komponen di halaman pipeline

Anda dapat mengonfigurasi parameter komponen Pemisahan Kalimat di halaman pipeline Machine Learning Designer dari Platform for AI (PAI). Machine Learning Designer sebelumnya dikenal sebagai Machine Learning Studio. Tabel berikut menjelaskan parameter.
TabParameterDeskripsi
Fields SettingColumn of Marked Document IDsNama kolom ID dokumen.
Marked Document Content ColumnNama kolom dokumen.
Sentence Delimiter SetPemisah yang digunakan untuk memisahkan kalimat. Pemisah default adalah titik (.), tanda seru (!), dan tanda tanya (?).
TuningCoresJumlah core. Secara default, sistem menentukan nilainya.
Memory Size per CoreUkuran memori setiap core. Secara default, sistem menentukan nilainya.

Metode 2: Gunakan perintah PAI

Konfigurasikan parameter komponen dengan menggunakan perintah PAI. Anda dapat menggunakan komponen SQL Script untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat SQL Script.
PAI -name SplitSentences    
    -project algo_public    
    -DinputTableName="test_input"    
    -DoutputTableName="test_output"    
    -DdocIdCol="doc_id"    
    -DdocContent="content"    
    -Dlifecycle=30
ParameterDiperlukanDeskripsiNilai default
inputTableNameYaNama tabel input.Tidak ada nilai default
inputTablePartitionsTidakPartisi yang dipilih dari tabel input untuk perhitungan.Semua partisi
outputTableNameYaNama tabel output.Tidak ada nilai default
docIdColYaNama kolom ID dokumen.Tidak ada nilai default
docContentYaNama kolom konten dokumen. Anda hanya dapat menentukan satu kolom. Tidak ada nilai default
delimiterTidakPemisah yang digunakan untuk memisahkan kalimat.Titik (.), tanda seru (!), dan tanda tanya (?)
lifecycleTidakSiklus hidup tabel input dan output.Tidak ada nilai default
coreNumTidakJumlah core yang digunakan untuk perhitungan.Ditentukan oleh sistem
memSizePerCoreTidakUkuran memori setiap core.Ditentukan oleh sistem

Contoh

Tabel output berisi kolom doc_id dan sentence.
doc_idsentence
1000894Pada tahun 2008, Bursa Efek Shanghai menerbitkan pedoman pengungkapan tentang tanggung jawab sosial perusahaan (CSR) dari perusahaan terdaftar. Tiga jenis perusahaan didesak untuk mengungkapkan laporan CSR mereka, dan perusahaan terdaftar lainnya yang memenuhi syarat didorong untuk secara sukarela mengungkapkan laporan CSR mereka.
1000894Pada tahun 2012, total 379 perusahaan terdaftar yang mencakup 40% dari semua perusahaan terdaftar mengungkapkan laporan CSR. Di antara perusahaan-perusahaan tersebut, 305 diwajibkan untuk mengungkapkan laporan CSR dan 74 secara sukarela mengungkapkan laporan CSR.