Komponen Ringkasan Teks dapat secara otomatis menghasilkan abstrak berdasarkan model TextRank. Abstrak adalah teks pendek yang sederhana dan koheren, mencerminkan gagasan utama dokumen dengan akurat. Komponen ini memungkinkan komputer mengekstrak abstrak dari dokumen. Topik ini menjelaskan cara mengonfigurasi komponen Ringkasan Teks yang disediakan oleh Platform for AI (PAI).
Batasan
Komponen Ringkasan Teks hanya dapat digunakan dengan sumber daya komputasi MaxCompute.
Catatan Penggunaan
Gunakan komponen Pemisahan Kalimat sebagai komponen hulu untuk membagi teks menjadi baris. Setiap baris hanya berisi satu kalimat.
Konfigurasikan komponen
Anda dapat menggunakan salah satu metode berikut untuk mengonfigurasi komponen Ringkasan Teks:
Metode 1: Konfigurasikan komponen di konsol PAI
Anda dapat mengonfigurasi parameter komponen Ringkasan Teks di Machine Learning Designer. Tabel berikut menjelaskan parameter tersebut.
Tab | Parameter | Deskripsi |
Fields Setting | Column of Marked Document IDs | Nama kolom ID dokumen. |
Sentence Column | Kolom kalimat. Anda hanya dapat menentukan satu kolom. | |
Parameters Setting | Output First N Key Sentences | Jumlah N kalimat kunci teratas yang ingin Anda peroleh. Nilai default: 3. |
Sentence Similarity Calculation Method | Metode yang digunakan untuk menghitung kesamaan kalimat. Nilai valid:
| |
Weight of Matching String | Bobot string yang cocok. Parameter ini hanya berlaku jika Anda menyetel parameter Sentence Similarity Calculation Method ke ssk. Nilai default: 0,5. | |
Length of Substring | Panjang substring. Parameter ini hanya berlaku jika Anda menyetel parameter Sentence Similarity Calculation Method ke ssk atau Cosine. Nilai default: 2. | |
Damping Coefficient | Koefisien redaman. Nilai default: 0,85. | |
Maximum Iterations | Jumlah maksimum iterasi. Nilai default: 100. | |
Convergence Coefficient | Koefisien konvergensi. Nilai default: 0,000001. | |
Tuning | Number of Cores | Jumlah core yang digunakan untuk perhitungan. Secara default, sistem menentukan nilainya. |
Memory Size per Core | Ukuran memori setiap core. Secara default, sistem menentukan nilainya. |
Metode 2: Konfigurasikan komponen dengan menggunakan perintah PAI
Anda dapat menggunakan skrip SQL untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat Skrip SQL. Tabel berikut menjelaskan parameter tersebut.
PAI -name TextSummarization
-project algo_public
-DinputTableName="test_input"
-DoutputTableName="test_output"
-DdocIdCol="doc_id"
-DsentenceCol="sentence"
-DtopN=2
-Dlifecycle=30;Parameter | Diperlukan | Deskripsi | Nilai default |
inputTableName | Ya | Nama tabel input. | Tidak tersedia |
inputTablePartitions | Tidak | Partisi yang dipilih dari tabel input untuk perhitungan. | Semua partisi |
outputTableName | Ya | Nama tabel output. | Tidak tersedia |
docIdCol | Ya | Nama kolom ID dokumen. | Tidak tersedia |
sentenceCol | Ya | Kolom kalimat. Anda hanya dapat menentukan satu kolom. | Tidak tersedia |
topN | Tidak | Jumlah N kalimat kunci teratas yang ingin Anda peroleh. | 3 |
similarityType | Tidak | Metode yang digunakan untuk menghitung kesamaan kalimat. Nilai valid:
| lcs_sim |
lambda | Tidak | Bobot string yang cocok. Parameter ini hanya berlaku jika Anda menyetel parameter similarityType ke ssk. | 0,5 |
k | Tidak | Panjang substring. Parameter ini hanya berlaku jika Anda menyetel parameter similarityType ke ssk atau cosine. | 2 |
dampingFactor | Tidak | Koefisien redaman. | 0,85 |
maxIter | Tidak | Jumlah maksimum iterasi. | 100 |
epsilon | Tidak | Koefisien konvergensi. | 0,000001 |
lifecycle | Tidak | Lifecycle tabel input dan output. | Tidak tersedia |
coreNum | Tidak | Jumlah core yang digunakan untuk perhitungan. | Dialokasikan secara otomatis |
memSizePerCore | Tidak | Ukuran memori setiap core. | Dialokasikan secara otomatis |
Contoh
Siapkan tabel input test_input. Berikut adalah contohnya:
Anda dapat menggunakan klien MaxCompute untuk membuat tabel dan perintah Tunnel untuk mengunggah data. Untuk informasi tentang cara menginstal dan mengonfigurasi klien MaxCompute, lihat Klien MaxCompute (odpscmd). Untuk informasi lebih lanjut tentang perintah Tunnel, lihat Perintah Tunnel.
doc_id
kalimat
1000897
Sejak wabah pandemi Covid-19, isu konsumsi satwa liar telah menonjol. Isu ini membawa risiko besar bagi keamanan kesehatan masyarakat, menyebabkan kekhawatiran luas di masyarakat. Departemen keamanan publik, kehutanan, dan pengawasan pasar di seluruh negeri melaksanakan tindakan khusus terkait untuk memberantas perburuan, penjualan, dan konsumsi satwa liar secara ilegal, mencapai hasil yang luar biasa. Selama proses pemberantasan aktivitas ilegal terkait satwa liar, departemen penegak hukum menyadari bahwa konsumsi besar-besaran satwa liar, keuntungan besar dari perburuan liar, serta kesulitan dan biaya tinggi identifikasi adalah alasan penting untuk persistensi perburuan satwa liar.
Parameter:
doc_id: kolom ID topik.
kalimat: kolom kalimat.
Gunakan komponen Pemisahan Kalimat untuk membagi teks dalam kolom kalimat menjadi baris. Setiap baris hanya berisi satu kalimat. Tabel berikut menyediakan contoh tabel output bernama test_output. Untuk informasi lebih lanjut, lihat Pemisahan Kalimat.
doc_id
kalimat
1000897
Sejak wabah pandemi Covid-19, isu konsumsi satwa liar telah menonjol.
1000897
Isu ini membawa risiko besar bagi keamanan kesehatan masyarakat, menyebabkan kekhawatiran luas di masyarakat.
1000897
Departemen keamanan publik, kehutanan, dan pengawasan pasar di seluruh negeri melaksanakan tindakan khusus terkait untuk memberantas perburuan, penjualan, dan konsumsi satwa liar secara ilegal, mencapai hasil yang luar biasa.
1000897
Selama proses pemberantasan aktivitas ilegal terkait satwa liar, departemen penegak hukum menyadari bahwa konsumsi besar-besaran satwa liar, keuntungan besar dari perburuan liar, serta kesulitan dan biaya tinggi identifikasi adalah alasan penting untuk persistensi perburuan satwa liar.
Jalankan perintah PAI berikut untuk menghasilkan ringkasan teks:
Anda dapat menggunakan skrip SQL atau komponen node ODPS SQL untuk menjalankan perintah PAI berikut.
PAI -name TextSummarization -project algo_public -DinputTableName="test_output" -DoutputTableName="test_output1" -DdocIdCol="doc_id" -DsentenceCol="sentence" -DtopN=2 -Dlifecycle=30;Tabel output berisi kolom doc_id dan abstrak.
doc_id
abstrak
1000897
Sejak wabah pandemi Covid-19, isu konsumsi satwa liar telah menonjol. Departemen keamanan publik, kehutanan, dan pengawasan pasar di seluruh negeri melaksanakan tindakan khusus terkait untuk memberantas perburuan, penjualan, dan konsumsi satwa liar secara ilegal, mencapai hasil yang luar biasa.
Referensi
Gunakan komponen Pemisahan Kalimat untuk membagi teks menjadi baris. Setiap baris hanya berisi satu kalimat. Untuk informasi lebih lanjut, lihat Pemisahan Kalimat.
Untuk informasi lebih lanjut tentang Machine Learning Designer, lihat Ikhtisar Machine Learning Designer.