全部产品
Search
文档中心

Platform For AI:Prediksi Pemahaman Membaca Mesin

更新时间:Jul 02, 2025

Komponen prediksi pemahaman membaca mesin dari Platform for AI (PAI) memungkinkan Anda membuat prediksi batch menggunakan model yang dilatih oleh komponen pelatihan pemahaman membaca mesin. Topik ini menjelaskan cara mengonfigurasi komponen dan memberikan contoh penggunaannya.

Batasan

Komponen prediksi pemahaman membaca mesin dapat digunakan berdasarkan sumber daya Deep Learning Containers (DLC).

Konfigurasikan komponen di Machine Learning Designer

  • Port Masukan

    Port Masukan

    Tipe Data

    Komponen Hulu yang Direkomendasikan

    Diperlukan

    input saved model

    OSS

    pelatihan pemahaman membaca mesin

    Ya

    Data untuk Prediksi

    OSS

    Baca Data Berkas

    Ya

  • Parameter Komponen

    Konfigurasikan komponen pada halaman pipeline Machine Learning Designer. Tabel berikut menjelaskan parameter-parameter tersebut.

    Tab

    Parameter

    Deskripsi

    Fields Setting

    Language

    Bahasa dari file masukan. Nilai default: zh. Nilai valid:

    • zh

    • en

    Input Schema

    Skema data dari setiap kolom dalam file masukan. Pisahkan beberapa kolom dengan koma (,). Nilai default: qas_id:str:1,context_text:str:1,question_text:str:1,answer_text:str:1,start_position_character:str:1,title:str:1.

    Question Column

    Nama kolom yang berisi pertanyaan dalam file masukan. Nilai default: question_text.

    Context Column

    Nama kolom yang berisi teks dalam file masukan. Nilai default: context_text.

    Answer Column

    Nama kolom yang berisi jawaban dalam file masukan. Nilai default: answer_text.

    Id Column

    Nama kolom ID dalam file masukan. Nilai default: qas_id.

    Start Position Column

    Nama kolom yang berisi posisi awal rentang jawaban dalam file masukan. Jika jawaban dari sebuah pertanyaan ditemukan dalam teks, posisi awal rentang jawaban dicatat dalam kolom ini. Nilai default: start_position_character.

    Output data file

    Path Bucket Object Storage Service (OSS) yang menyimpan file jawaban yang digunakan oleh komponen ini.

    Use User-defined Model

    Menentukan apakah akan menggunakan model kustom. Nilai default: no. Nilai valid:

    • no

    • yes

    OSS Directory for Alink Model

    Parameter ini hanya diperlukan jika Anda menetapkan parameter Use User-defined Model ke yes.

    Path bucket OSS yang menyimpan model kustom.

    Parameters Setting

    batchSize

    Jumlah sampel yang ingin Anda proses pada saat yang sama. Jika model dilatih pada beberapa server yang menggunakan beberapa GPU, parameter ini menentukan jumlah sampel yang diproses oleh setiap GPU pada saat yang sama. Nilainya harus bertipe INT. Nilai default: 256.

    Sequence Length

    Panjang maksimum teks yang dapat ditangani. Nilainya harus bertipe INT. Nilai default: 384.

    Max Query Length

    Panjang maksimum pertanyaan yang dapat ditangani. Nilainya harus bertipe INT. Nilai default: 64.

    Max Answer Length

    Panjang maksimum jawaban yang dapat ditangani. Nilainya harus bertipe INT. Nilai default: 30.

    Doc Stride

    Panjang jendela geser untuk setiap potongan teks. Nilainya harus bertipe INT. Nilai default: 128.

    pretrainModelNameOrPath

    Nama atau path model pra-latih yang disediakan oleh sistem. Nilai default: hfl/macbert-base-zh. Nilai valid:

    • User Defined

    • hfl/macbert-base-zh

    • hfl/macbert-large-zh

    • bert-base-uncased

    • bert-large-uncased

    Additional Parameters

    Parameter kustom. Anda dapat menyesuaikan parameter model berdasarkan data Anda.

    Format: {A: xxx, B: xxx}. Pisahkan kunci dan nilai dengan titik dua (:). Pisahkan beberapa parameter dengan koma (,).

    Tuning

    GPU Machine type

    Tipe instans dari node yang dipercepat GPU yang ingin Anda gunakan. Nilai default adalah gn5-c8g1.2xlarge, yang menunjukkan bahwa node menggunakan 8 vCPU, 80 GB memori, dan satu GPU P100.

    num_GPU_worker

    Jumlah GPU untuk setiap pekerja. Nilai default: 1.

Contoh

Gambar berikut menunjukkan pipeline sampel dengan penggunaan komponen prediksi pemahaman membaca mesin.image

Ikuti langkah-langkah berikut untuk mengonfigurasi komponen:

  1. Siapkan dataset prediksi dan unggah dataset tersebut ke bucket OSS. Untuk informasi lebih lanjut, lihat bagian "Unggah objek" dalam topik Memulai dengan Menggunakan Konsol OSS.

    Dataset dapat berupa format TSV atau TEXT dan mencakup kolom-kolom berikut: ID, teks, pertanyaan, jawaban (opsional), posisi awal (opsional), dan judul (opsional).

    Pada contoh ini, file TSV digunakan untuk menunjukkan cara melatih model.

  2. Gunakan komponen Read File Data -3 untuk membaca dataset prediksi. Atur parameter OSS Data Path dari komponen Read File Data ke path OSS tempat dataset prediksi disimpan.

  3. Sambungkan komponen Read File Data-3 ke komponen machine reading comprehension predict sebagai node hulu dan konfigurasikan komponen prediksi pemahaman membaca mesin. Untuk informasi lebih lanjut, lihat bagian "Parameter Komponen" dari topik ini.

Referensi

  • Komponen prediksi pemahaman membaca mesin dapat digunakan bersama dengan komponen pelatihan pemahaman membaca mesin. Untuk informasi lebih lanjut, lihat pelatihan pemahaman membaca mesin.

  • Untuk informasi lebih lanjut tentang komponen Machine Learning Designer, lihat Ikhtisar Machine Learning Designer.

  • Machine Learning Designer menyediakan berbagai komponen algoritma preset. Anda dapat memilih komponen sesuai dengan skenario bisnis aktual Anda. Untuk informasi lebih lanjut, lihat Ikhtisar Komponen Designer.