全部产品
Search
文档中心

Platform For AI:Ringkasan Teks

更新时间:Jul 02, 2025

Komponen Ringkasan Teks dapat secara otomatis menghasilkan abstrak berdasarkan model TextRank. Abstrak adalah teks pendek yang sederhana dan koheren, mencerminkan gagasan utama dokumen dengan akurat. Komponen ini memungkinkan komputer mengekstrak abstrak dari dokumen. Topik ini menjelaskan cara mengonfigurasi komponen Ringkasan Teks yang disediakan oleh Platform for AI (PAI).

Batasan

Komponen Ringkasan Teks hanya dapat digunakan dengan sumber daya komputasi MaxCompute.

Catatan Penggunaan

Gunakan komponen Pemisahan Kalimat sebagai komponen hulu untuk membagi teks menjadi baris. Setiap baris hanya berisi satu kalimat.

Konfigurasikan komponen

Anda dapat menggunakan salah satu metode berikut untuk mengonfigurasi komponen Ringkasan Teks:

Metode 1: Konfigurasikan komponen di konsol PAI

Anda dapat mengonfigurasi parameter komponen Ringkasan Teks di Machine Learning Designer. Tabel berikut menjelaskan parameter tersebut.

Tab

Parameter

Deskripsi

Fields Setting

Column of Marked Document IDs

Nama kolom ID dokumen.

Sentence Column

Kolom kalimat. Anda hanya dapat menentukan satu kolom.

Parameters Setting

Output First N Key Sentences

Jumlah N kalimat kunci teratas yang ingin Anda peroleh. Nilai default: 3.

Sentence Similarity Calculation Method

Metode yang digunakan untuk menghitung kesamaan kalimat. Nilai valid:

  • Ics_sim

  • leveshtein_sim

  • ssk

  • cosine

Weight of Matching String

Bobot string yang cocok. Parameter ini hanya berlaku jika Anda menyetel parameter Sentence Similarity Calculation Method ke ssk. Nilai default: 0,5.

Length of Substring

Panjang substring. Parameter ini hanya berlaku jika Anda menyetel parameter Sentence Similarity Calculation Method ke ssk atau Cosine. Nilai default: 2.

Damping Coefficient

Koefisien redaman. Nilai default: 0,85.

Maximum Iterations

Jumlah maksimum iterasi. Nilai default: 100.

Convergence Coefficient

Koefisien konvergensi. Nilai default: 0,000001.

Tuning

Number of Cores

Jumlah core yang digunakan untuk perhitungan. Secara default, sistem menentukan nilainya.

Memory Size per Core

Ukuran memori setiap core. Secara default, sistem menentukan nilainya.

Metode 2: Konfigurasikan komponen dengan menggunakan perintah PAI

Anda dapat menggunakan skrip SQL untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat Skrip SQL. Tabel berikut menjelaskan parameter tersebut.

PAI -name TextSummarization
    -project algo_public
    -DinputTableName="test_input"
    -DoutputTableName="test_output"
    -DdocIdCol="doc_id"
    -DsentenceCol="sentence"
    -DtopN=2
    -Dlifecycle=30;

Parameter

Diperlukan

Deskripsi

Nilai default

inputTableName

Ya

Nama tabel input.

Tidak tersedia

inputTablePartitions

Tidak

Partisi yang dipilih dari tabel input untuk perhitungan.

Semua partisi

outputTableName

Ya

Nama tabel output.

Tidak tersedia

docIdCol

Ya

Nama kolom ID dokumen.

Tidak tersedia

sentenceCol

Ya

Kolom kalimat. Anda hanya dapat menentukan satu kolom.

Tidak tersedia

topN

Tidak

Jumlah N kalimat kunci teratas yang ingin Anda peroleh.

3

similarityType

Tidak

Metode yang digunakan untuk menghitung kesamaan kalimat. Nilai valid:

  • Ics_sim

  • leveshtein_sim

  • ssk

  • cosine

lcs_sim

lambda

Tidak

Bobot string yang cocok. Parameter ini hanya berlaku jika Anda menyetel parameter similarityType ke ssk.

0,5

k

Tidak

Panjang substring. Parameter ini hanya berlaku jika Anda menyetel parameter similarityType ke ssk atau cosine.

2

dampingFactor

Tidak

Koefisien redaman.

0,85

maxIter

Tidak

Jumlah maksimum iterasi.

100

epsilon

Tidak

Koefisien konvergensi.

0,000001

lifecycle

Tidak

Lifecycle tabel input dan output.

Tidak tersedia

coreNum

Tidak

Jumlah core yang digunakan untuk perhitungan.

Dialokasikan secara otomatis

memSizePerCore

Tidak

Ukuran memori setiap core.

Dialokasikan secara otomatis

Contoh

  1. Siapkan tabel input test_input. Berikut adalah contohnya:

    Anda dapat menggunakan klien MaxCompute untuk membuat tabel dan perintah Tunnel untuk mengunggah data. Untuk informasi tentang cara menginstal dan mengonfigurasi klien MaxCompute, lihat Klien MaxCompute (odpscmd). Untuk informasi lebih lanjut tentang perintah Tunnel, lihat Perintah Tunnel.

    doc_id

    kalimat

    1000897

    Sejak wabah pandemi Covid-19, isu konsumsi satwa liar telah menonjol. Isu ini membawa risiko besar bagi keamanan kesehatan masyarakat, menyebabkan kekhawatiran luas di masyarakat. Departemen keamanan publik, kehutanan, dan pengawasan pasar di seluruh negeri melaksanakan tindakan khusus terkait untuk memberantas perburuan, penjualan, dan konsumsi satwa liar secara ilegal, mencapai hasil yang luar biasa. Selama proses pemberantasan aktivitas ilegal terkait satwa liar, departemen penegak hukum menyadari bahwa konsumsi besar-besaran satwa liar, keuntungan besar dari perburuan liar, serta kesulitan dan biaya tinggi identifikasi adalah alasan penting untuk persistensi perburuan satwa liar.

    Parameter:

    • doc_id: kolom ID topik.

    • kalimat: kolom kalimat.

  2. Gunakan komponen Pemisahan Kalimat untuk membagi teks dalam kolom kalimat menjadi baris. Setiap baris hanya berisi satu kalimat. Tabel berikut menyediakan contoh tabel output bernama test_output. Untuk informasi lebih lanjut, lihat Pemisahan Kalimat.

    doc_id

    kalimat

    1000897

    Sejak wabah pandemi Covid-19, isu konsumsi satwa liar telah menonjol.

    1000897

    Isu ini membawa risiko besar bagi keamanan kesehatan masyarakat, menyebabkan kekhawatiran luas di masyarakat.

    1000897

    Departemen keamanan publik, kehutanan, dan pengawasan pasar di seluruh negeri melaksanakan tindakan khusus terkait untuk memberantas perburuan, penjualan, dan konsumsi satwa liar secara ilegal, mencapai hasil yang luar biasa.

    1000897

    Selama proses pemberantasan aktivitas ilegal terkait satwa liar, departemen penegak hukum menyadari bahwa konsumsi besar-besaran satwa liar, keuntungan besar dari perburuan liar, serta kesulitan dan biaya tinggi identifikasi adalah alasan penting untuk persistensi perburuan satwa liar.

  3. Jalankan perintah PAI berikut untuk menghasilkan ringkasan teks:

    Anda dapat menggunakan skrip SQL atau komponen node ODPS SQL untuk menjalankan perintah PAI berikut.

    PAI -name TextSummarization
        -project algo_public
        -DinputTableName="test_output"
        -DoutputTableName="test_output1"
        -DdocIdCol="doc_id"
        -DsentenceCol="sentence"
        -DtopN=2
        -Dlifecycle=30;

    Tabel output berisi kolom doc_id dan abstrak.

    doc_id

    abstrak

    1000897

    Sejak wabah pandemi Covid-19, isu konsumsi satwa liar telah menonjol. Departemen keamanan publik, kehutanan, dan pengawasan pasar di seluruh negeri melaksanakan tindakan khusus terkait untuk memberantas perburuan, penjualan, dan konsumsi satwa liar secara ilegal, mencapai hasil yang luar biasa.

Referensi

  • Gunakan komponen Pemisahan Kalimat untuk membagi teks menjadi baris. Setiap baris hanya berisi satu kalimat. Untuk informasi lebih lanjut, lihat Pemisahan Kalimat.

  • Untuk informasi lebih lanjut tentang Machine Learning Designer, lihat Ikhtisar Machine Learning Designer.