Topik ini menjelaskan komponen Pemisahan Kalimat yang disediakan oleh Machine Learning Studio.
Teks dalam dokumen dapat dipisahkan berdasarkan tanda baca. Komponen ini digunakan untuk memproses teks sebelum pembuatan ringkasan teks. Komponen ini membagi teks menjadi baris, di mana setiap baris hanya berisi satu kalimat.
Konfigurasi komponen
Anda dapat menggunakan salah satu metode berikut untuk mengonfigurasi komponen Pemisahan Kalimat.
Metode 1: Konfigurasikan komponen di halaman pipeline
Anda dapat mengonfigurasi parameter komponen Pemisahan Kalimat di halaman pipeline Machine Learning Designer dari Platform for AI (PAI). Machine Learning Designer sebelumnya dikenal sebagai Machine Learning Studio. Tabel berikut menjelaskan parameter.
| Tab | Parameter | Deskripsi |
| Fields Setting | Column of Marked Document IDs | Nama kolom ID dokumen. |
| Marked Document Content Column | Nama kolom dokumen. | |
| Sentence Delimiter Set | Pemisah yang digunakan untuk memisahkan kalimat. Pemisah default adalah titik (.), tanda seru (!), dan tanda tanya (?). | |
| Tuning | Cores | Jumlah core. Secara default, sistem menentukan nilainya. |
| Memory Size per Core | Ukuran memori setiap core. Secara default, sistem menentukan nilainya. |
Metode 2: Gunakan perintah PAI
Konfigurasikan parameter komponen dengan menggunakan perintah PAI. Anda dapat menggunakan komponen SQL Script untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat SQL Script.
PAI -name SplitSentences
-project algo_public
-DinputTableName="test_input"
-DoutputTableName="test_output"
-DdocIdCol="doc_id"
-DdocContent="content"
-Dlifecycle=30| Parameter | Diperlukan | Deskripsi | Nilai default |
| inputTableName | Ya | Nama tabel input. | Tidak ada nilai default |
| inputTablePartitions | Tidak | Partisi yang dipilih dari tabel input untuk perhitungan. | Semua partisi |
| outputTableName | Ya | Nama tabel output. | Tidak ada nilai default |
| docIdCol | Ya | Nama kolom ID dokumen. | Tidak ada nilai default |
| docContent | Ya | Nama kolom konten dokumen. Anda hanya dapat menentukan satu kolom. | Tidak ada nilai default |
| delimiter | Tidak | Pemisah yang digunakan untuk memisahkan kalimat. | Titik (.), tanda seru (!), dan tanda tanya (?) |
| lifecycle | Tidak | Siklus hidup tabel input dan output. | Tidak ada nilai default |
| coreNum | Tidak | Jumlah core yang digunakan untuk perhitungan. | Ditentukan oleh sistem |
| memSizePerCore | Tidak | Ukuran memori setiap core. | Ditentukan oleh sistem |
Contoh
Tabel output berisi kolom doc_id dan sentence.
| doc_id | sentence |
| 1000894 | Pada tahun 2008, Bursa Efek Shanghai menerbitkan pedoman pengungkapan tentang tanggung jawab sosial perusahaan (CSR) dari perusahaan terdaftar. Tiga jenis perusahaan didesak untuk mengungkapkan laporan CSR mereka, dan perusahaan terdaftar lainnya yang memenuhi syarat didorong untuk secara sukarela mengungkapkan laporan CSR mereka. |
| 1000894 | Pada tahun 2012, total 379 perusahaan terdaftar yang mencakup 40% dari semua perusahaan terdaftar mengungkapkan laporan CSR. Di antara perusahaan-perusahaan tersebut, 305 diwajibkan untuk mengungkapkan laporan CSR dan 74 secara sukarela mengungkapkan laporan CSR. |