Gunakan komponen Prediksi Ringkasan Teks yang disediakan oleh Platform for AI (PAI) untuk menguji model Ringkasan Teks yang telah dilatih sebelumnya dan mengevaluasi kinerjanya. Topik ini menjelaskan cara mengonfigurasi komponen tersebut.
Prasyarat
OSS harus diaktifkan, dan Machine Learning Studio harus diberi otorisasi untuk mengakses OSS. Untuk informasi lebih lanjut, lihat Aktifkan OSS dan Berikan izin yang diperlukan untuk menggunakan Machine Learning Designer.
Batasan
Komponen Pelatihan Ringkasan Teks hanya dapat menggunakan sumber daya komputasi Deep Learning Containers (DLC).
Konfigurasikan komponen di konsol PAI
Anda dapat mengonfigurasi parameter komponen Prediksi Ringkasan Teks di Machine Learning Designer.
Port Input
Port input (dari kiri ke kanan)
Tipe
Komponen hulu yang direkomendasikan
Diperlukan
Data untuk prediksi
OSS
Ya
Model prediksi
Output komponen
Tidak
Konfigurasikan Komponen
Tab
Parameter
Deskripsi
Fields Setting
Input Schema
Kolom teks dalam tabel input. Nilai default: target:str:1,source:str:1.
TextColumn
Nama kolom yang menyimpan teks sumber dalam tabel input. Nilai default: source.
AppendColumn
Nama kolom teks yang akan ditambahkan ke tabel output dari tabel input. Pisahkan beberapa nama kolom dengan koma (,). Nilai default: source.
Output Schema
Nama kolom yang menyimpan hasil ringkasan teks dalam tabel output. Nilai default: predictions,beams.
Output data file
Path tabel output dalam Bucket Object Storage Service (OSS).
Use User-defined Model
Menentukan apakah menggunakan model default PAI untuk melakukan prediksi. Nilai valid:
yes
no (default)
Whether the Model is a Megatron One
Hanya mendukung model ringkasan teks pre-train yang memiliki awalan mg. Nilai valid:
yes
no (default)
OSS Directory for Alink Model
Parameter ini diperlukan hanya jika Anda mengatur parameter Use User-defined Model ke yes.
Path model kustom dalam bucket OSS.
Parameters Setting
batchSize
Jumlah sampel yang diproses pada satu waktu. Nilai harus bertipe INT. Nilai default: 8.
Jika model dilatih pada beberapa server dengan beberapa GPU, parameter ini menunjukkan jumlah sampel yang diproses oleh setiap GPU pada satu waktu.
sequenceLength
Panjang maksimum urutan. Nilai harus bertipe INT. Nilai valid: 1 hingga 512. Nilai default: 512.
The model language
Bahasa yang digunakan. Nilai valid:
zh: Cina
en: Inggris
Whether to copy text from input while decoding
Tentukan apakah menyalin teks. Nilai valid:
false (default)
true
The Minimal Length of the Predicted Sequence
Panjang minimal teks output, yang bertipe INT. Nilai default: 12. Teks output oleh model harus lebih panjang dari nilai yang ditentukan.
The Maximal Length of the Predicted Sequence
Panjang maksimal teks output, yang bertipe INT. Nilai default: 32. Teks output oleh model harus lebih pendek dari nilai yang ditentukan.
The Minimal Non-Repeated N-gram Size
Ukuran minimal frase n-gram non-ulang, yang bertipe INT. Nilai default: 2.
The Number of Beam Search Scope
Ruang pencarian beam, yang bertipe INT. Nilai default: 5.
The Number of Returned Candidate Sequences
Jumlah hasil yang dikembalikan, yang bertipe INT. Nilai default: 5.
PentingParameter ini harus diatur ke nilai dari The Number of Beam Search Scope.
Execution Tuning
GPU Machine type
Tipe instance yang dipercepat GPU dari sumber daya komputasi. Nilai default: gn5-c8g1.2xlarge.
Contoh
Anda dapat menggunakan komponen Prediksi Ringkasan Teks untuk membangun pipeline menggunakan salah satu metode berikut:
Metode 1: Fine-tune model yang dilatih menggunakan komponen Ringkasan Teks.

Metode 2: Gunakan model kustom.

Dalam contoh ini, lakukan operasi berikut untuk mengonfigurasi komponen dan menjalankan pipeline:
Bangun pipeline berdasarkan instruksi membangun pipeline Ringkasan Teks. Untuk informasi lebih lanjut, lihat bagian "Contoh" dalam topik Gunakan komponen Pelatihan Ringkasan Teks.
Siapkan dataset (predict_data.txt) untuk mana Anda ingin menghasilkan ringkasan dan unggah dataset ke bucket OSS. Dataset uji yang digunakan dalam contoh ini adalah file TXT yang dibatasi tab.
Anda juga dapat mengunggah file CSV ke MaxCompute dengan menjalankan perintah Tunnel pada klien MaxCompute. Untuk informasi lebih lanjut tentang cara menginstal dan mengonfigurasi klien MaxCompute, lihat Klien MaxCompute (odpscmd). Untuk informasi lebih lanjut tentang perintah Tunnel, lihat Perintah Tunnel.
Gunakan komponen Read File Data - 3 dalam Metode 1 atau komponen Read File Data - 1 dalam Metode 2 untuk membaca dataset uji. Atur parameter OSS Data Path dari komponen Read File Data ke path OSS tempat dataset uji disimpan.
Sambungkan file model dan dataset uji ke komponen Text Summarization Predict dan atur parameter yang diperlukan. Untuk informasi lebih lanjut, lihat Konfigurasikan komponen di konsol PAI.
Jika Anda ingin menggunakan model yang fine-tuned oleh komponen Ringkasan Teks, konfigurasikan output komponen Text Summarization sebagai input komponen Text Summarization Predict.
Jika Anda ingin menggunakan model kustom, atur parameter Use User-defined Model ke yes pada tab Fields Setting dan atur parameter ModelSavePath ke path OSS tempat model disimpan.
Klik
untuk menjalankan pipeline. Setelah Anda menjalankan pipeline, Anda dapat melihat output di path OSS yang Anda konfigurasikan dalam parameter Output data file dari komponen Text Summarization Predict.
Referensi
Untuk informasi lebih lanjut tentang cara mengonfigurasi komponen pelatihan ringkasan teks, lihat Gunakan komponen Pelatihan Ringkasan Teks.