All Products
Search
Document Center

Platform For AI:Pelatihan ringkasan teks

Last Updated:Mar 11, 2026

Lakukan pelatihan model ringkasan teks untuk tugas pembuatan konten otomatis, seperti merangkum dokumen dan menghasilkan judul berita.

Batasan

Komponen ini hanya dapat dijalankan pada resource komputasi DLC.

Arsitektur model

Komponen ini menggunakan arsitektur Transformer standar dengan struktur encoder-decoder. Selama pelatihan, model menerima artikel asli sebagai input dan judul target sebagai output.

Prasyarat

Sambungkan komponen Sentence Split di hulu untuk memisahkan teks menjadi satu kalimat per baris.

Konfigurasikan parameter komponen

Konfigurasikan parameter komponen di antarmuka Designer.

  • Port input

    Port input (dari kiri ke kanan)

    Tipe data

    Komponen hulu yang direkomendasikan

    Wajib

    Input data pelatihan

    OSS

    Read OSS Data

    Ya

    Input data validasi

    OSS

    Read OSS Data

    Ya

  • Parameter komponen

    Tab

    Parameter

    Deskripsi

    Field Settings

    Input data format

    Kolom teks dalam file input. Default: target:str:1,source:str:1.

    Source column

    Nama kolom untuk teks sumber dalam tabel input. Default: source.

    Summary Column Selection

    Nama kolom untuk teks ringkasan dalam tabel input. Default: target.

    Model save path

    Direktori Bucket OSS untuk menyimpan file model yang telah dilatih.

    Parameter Settings

    Pre-trained model

    Model pra-latih yang akan digunakan. Pilih dari tab Parameter Settings. Default: alibaba-pai/mt5-title-generation-zh.

    Batch size

    Ukuran batch selama pelatihan. Tipe INT. Default: 16.

    Untuk server multi-GPU, nilai ini menentukan ukuran batch per GPU.

    Maximum text length

    Panjang maksimum urutan yang diproses. Tipe INT. Rentang valid: 1–512. Default: 512.

    Number of epochs

    Total epoch pelatihan. Tipe INT. Default: 3.

    Learning rate

    Laju pembelajaran untuk pelatihan model. Tipe FLOAT. Default: 3e-5.

    Steps to Save a Model File

    Jumlah langkah pelatihan yang memicu evaluasi dan penyimpanan model terbaik. Nilai default: 150.

    Language

    Bahasa yang didukung:

    • zh: Chinese

    • en: English

    Copy text from source

    Apakah segmen teks dari sumber akan disalin ke output:

    • false: (Default) Tidak menyalin teks

    • true: Menyalin teks

    Minimum decoder length

    Panjang output minimum. Tipe INT. Default: 12.

    Maximum decoder length

    Panjang output maksimum. Tipe INT. Default: 32.

    Minimum non-repeated n-gram

    n-gram minimum yang tidak boleh berulang dalam output. Tipe INT. Default: 2. Misalnya, jika diatur ke 1, kata berulang seperti "day day" akan dicegah.

    Beam search size

    Ukuran ruang pencarian saat menghasilkan kandidat jawaban. Tipe INT. Default: 5. Nilai yang lebih besar memperlambat prediksi.

    Number of returned candidates

    Jumlah kandidat peringkat teratas yang dikembalikan. Tipe INT. Default: 5.

    Execution Tuning

    GPU machine type

    Tipe instans GPU untuk resource komputasi. Default: gn5-c8g1.2xlarge.

  • Port output

    Port output

    Tipe data

    Komponen hilir yang direkomendasikan

    Wajib

    Output model

    Jalur OSS yang ditentukan dalam parameter Model save path pada tab Field Settings. Model yang telah dilatih, dalam format SavedModel, disimpan di sini.

    Text Summarization Predict

    Tidak

Contoh penggunaan

Alur kerja berikut menunjukkan cara menggunakan komponen Text Summarization Training.Workflow Konfigurasikan dan jalankan alur kerja sebagai berikut:

  1. Siapkan set data pelatihan (cn_train.txt) dan set data validasi (cn_dev.txt), lalu unggah ke bucket OSS. Contoh ini berupa file TXT dengan bidang yang dipisahkan tab.

    File CSV juga didukung. Gunakan perintah Tunnel di klien MaxCompute untuk mengunggah set data ke MaxCompute. Untuk informasi selengkapnya, lihat Connect using the client (odpscmd) dan Tunnel commands.

  2. Gunakan komponen Read OSS Data-1 dan Read OSS Data-2 untuk membaca set data pelatihan dan validasi. Atur parameter OSS Data Path ke jalur OSS tempat set data disimpan.

  3. Sambungkan set data pelatihan dan validasi ke komponen Text Summarization Training-1. Konfigurasikan parameter seperti yang dijelaskan dalam Konfigurasikan parameter komponen.

  4. Klik image.png untuk menjalankan alur kerja. Setelah alur kerja berhasil selesai, lihat model ringkasan output. Model disimpan ke jalur OSS yang ditentukan dalam parameter Model save path pada komponen Text Summarization Training-1.

Topik terkait