全部产品
Search
文档中心

Platform For AI:Prediksi Ringkasan Teks

更新时间:Jul 06, 2025

Gunakan komponen Prediksi Ringkasan Teks yang disediakan oleh Platform for AI (PAI) untuk menguji model Ringkasan Teks yang telah dilatih sebelumnya dan mengevaluasi kinerjanya. Topik ini menjelaskan cara mengonfigurasi komponen tersebut.

Prasyarat

OSS harus diaktifkan, dan Machine Learning Studio harus diberi otorisasi untuk mengakses OSS. Untuk informasi lebih lanjut, lihat Aktifkan OSS dan Berikan izin yang diperlukan untuk menggunakan Machine Learning Designer.

Batasan

Komponen Pelatihan Ringkasan Teks hanya dapat menggunakan sumber daya komputasi Deep Learning Containers (DLC).

Konfigurasikan komponen di konsol PAI

Anda dapat mengonfigurasi parameter komponen Prediksi Ringkasan Teks di Machine Learning Designer.

  • Port Input

    Port input (dari kiri ke kanan)

    Tipe

    Komponen hulu yang direkomendasikan

    Diperlukan

    Data untuk prediksi

    OSS

    Baca Data File

    Ya

    Model prediksi

    Output komponen

    Ringkasan Teks

    Tidak

  • Konfigurasikan Komponen

    Tab

    Parameter

    Deskripsi

    Fields Setting

    Input Schema

    Kolom teks dalam tabel input. Nilai default: target:str:1,source:str:1.

    TextColumn

    Nama kolom yang menyimpan teks sumber dalam tabel input. Nilai default: source.

    AppendColumn

    Nama kolom teks yang akan ditambahkan ke tabel output dari tabel input. Pisahkan beberapa nama kolom dengan koma (,). Nilai default: source.

    Output Schema

    Nama kolom yang menyimpan hasil ringkasan teks dalam tabel output. Nilai default: predictions,beams.

    Output data file

    Path tabel output dalam Bucket Object Storage Service (OSS).

    Use User-defined Model

    Menentukan apakah menggunakan model default PAI untuk melakukan prediksi. Nilai valid:

    • yes

    • no (default)

    Whether the Model is a Megatron One

    Hanya mendukung model ringkasan teks pre-train yang memiliki awalan mg. Nilai valid:

    • yes

    • no (default)

    OSS Directory for Alink Model

    Parameter ini diperlukan hanya jika Anda mengatur parameter Use User-defined Model ke yes.

    Path model kustom dalam bucket OSS.

    Parameters Setting

    batchSize

    Jumlah sampel yang diproses pada satu waktu. Nilai harus bertipe INT. Nilai default: 8.

    Jika model dilatih pada beberapa server dengan beberapa GPU, parameter ini menunjukkan jumlah sampel yang diproses oleh setiap GPU pada satu waktu.

    sequenceLength

    Panjang maksimum urutan. Nilai harus bertipe INT. Nilai valid: 1 hingga 512. Nilai default: 512.

    The model language

    Bahasa yang digunakan. Nilai valid:

    • zh: Cina

    • en: Inggris

    Whether to copy text from input while decoding

    Tentukan apakah menyalin teks. Nilai valid:

    • false (default)

    • true

    The Minimal Length of the Predicted Sequence

    Panjang minimal teks output, yang bertipe INT. Nilai default: 12. Teks output oleh model harus lebih panjang dari nilai yang ditentukan.

    The Maximal Length of the Predicted Sequence

    Panjang maksimal teks output, yang bertipe INT. Nilai default: 32. Teks output oleh model harus lebih pendek dari nilai yang ditentukan.

    The Minimal Non-Repeated N-gram Size

    Ukuran minimal frase n-gram non-ulang, yang bertipe INT. Nilai default: 2.

    The Number of Beam Search Scope

    Ruang pencarian beam, yang bertipe INT. Nilai default: 5.

    The Number of Returned Candidate Sequences

    Jumlah hasil yang dikembalikan, yang bertipe INT. Nilai default: 5.

    Penting

    Parameter ini harus diatur ke nilai dari The Number of Beam Search Scope.

    Execution Tuning

    GPU Machine type

    Tipe instance yang dipercepat GPU dari sumber daya komputasi. Nilai default: gn5-c8g1.2xlarge.

Contoh

Anda dapat menggunakan komponen Prediksi Ringkasan Teks untuk membangun pipeline menggunakan salah satu metode berikut:

  • Metode 1: Fine-tune model yang dilatih menggunakan komponen Ringkasan Teks. 使用文本摘要训练模型

  • Metode 2: Gunakan model kustom. 使用自定义模型

Dalam contoh ini, lakukan operasi berikut untuk mengonfigurasi komponen dan menjalankan pipeline:

  1. Bangun pipeline berdasarkan instruksi membangun pipeline Ringkasan Teks. Untuk informasi lebih lanjut, lihat bagian "Contoh" dalam topik Gunakan komponen Pelatihan Ringkasan Teks.

  2. Siapkan dataset (predict_data.txt) untuk mana Anda ingin menghasilkan ringkasan dan unggah dataset ke bucket OSS. Dataset uji yang digunakan dalam contoh ini adalah file TXT yang dibatasi tab.

    Anda juga dapat mengunggah file CSV ke MaxCompute dengan menjalankan perintah Tunnel pada klien MaxCompute. Untuk informasi lebih lanjut tentang cara menginstal dan mengonfigurasi klien MaxCompute, lihat Klien MaxCompute (odpscmd). Untuk informasi lebih lanjut tentang perintah Tunnel, lihat Perintah Tunnel.

  3. Gunakan komponen Read File Data - 3 dalam Metode 1 atau komponen Read File Data - 1 dalam Metode 2 untuk membaca dataset uji. Atur parameter OSS Data Path dari komponen Read File Data ke path OSS tempat dataset uji disimpan.

  4. Sambungkan file model dan dataset uji ke komponen Text Summarization Predict dan atur parameter yang diperlukan. Untuk informasi lebih lanjut, lihat Konfigurasikan komponen di konsol PAI.

    • Jika Anda ingin menggunakan model yang fine-tuned oleh komponen Ringkasan Teks, konfigurasikan output komponen Text Summarization sebagai input komponen Text Summarization Predict.

    • Jika Anda ingin menggunakan model kustom, atur parameter Use User-defined Model ke yes pada tab Fields Setting dan atur parameter ModelSavePath ke path OSS tempat model disimpan.

  5. Klik image.png untuk menjalankan pipeline. Setelah Anda menjalankan pipeline, Anda dapat melihat output di path OSS yang Anda konfigurasikan dalam parameter Output data file dari komponen Text Summarization Predict.

Referensi