All Products
Search
Document Center

Platform For AI:Pelatihan Pemahaman Membaca Mesin

Last Updated:Mar 07, 2026

Melatih model pemahaman membaca mesin yang mengekstraksi jawaban dari dokumen berdasarkan pertanyaan.

Batasan

Komponen ini hanya dapat dijalankan pada resource komputasi DLC.

Konfigurasikan parameter komponen

  • Port input

    Port input (dari kiri ke kanan)

    Batasan Tipe Data

    Komponen hulu yang direkomendasikan

    Wajib

    Input data pelatihan

    OSS

    Read OSS Data

    Yes

    Input data validasi

    OSS

    Read OSS Data

    Yes

  • Parameter komponen

    Tab

    Parameter

    Deskripsi

    Fields setting

    Select language

    Bahasa file input. Bahasa yang didukung untuk machine reading comprehension:

    • zh (default)

    • en

    Input data format

    Format data setiap kolom dalam file input. Gunakan koma (,) untuk memisahkan kolom. Nilai default: qas_id:str:1,context_text:str:1,question_text:str:1,answer_text:str:1,start_position_character:str:1,title:str:1.

    Question column

    Nama kolom yang berisi pertanyaan dalam file input. Nilai default: question_text.

    Context column

    Nama kolom yang berisi teks konteks dalam file input. Nilai default: context_text.

    Answer column

    Nama kolom yang berisi jawaban dalam file input. Nilai default: answer_text.

    ID column

    Nama kolom yang berisi ID dalam file input. Nilai default: qas_id.

    Start position column

    Nama kolom yang berisi posisi awal jawaban dalam teks konteks pada file input. Nilai default: start_position_character.

    Model save path

    Jalur folder Bucket OSS untuk menyimpan file model yang dihasilkan setelah pelatihan atau fine-tuning.

    Parameters setting

    Batch size

    Ukuran batch untuk pelatihan. Integer. Nilai default: 4. Untuk server multi-GPU, nilai ini menentukan ukuran batch per GPU.

    Maximum context length

    Panjang maksimum konteks yang dapat diproses sistem. Integer. Nilai default: 384.

    Maximum question length

    Panjang maksimum pertanyaan yang dapat diproses sistem. Integer. Nilai default: 64.

    Sliding window size

    Ukuran jendela geser yang digunakan untuk membagi konteks menjadi chunk. Integer. Nilai default: 128.

    Number of epochs

    Jumlah total epoch pelatihan. Integer. Nilai default: 3.

    Learning rate

    Laju pembelajaran untuk pembuatan model. Float. Nilai default: 3.5e-5.

    Save checkpoint steps

    Jumlah langkah pelatihan setelah model dievaluasi dan model dengan performa terbaik disimpan. Integer. Nilai default: 600.

    Select model

    Jalur model pra-latih yang disediakan sistem. Nilai yang valid:

    • Custom

    • hfl/macbert-base-zh (default)

    • hfl/macbert-large-zh

    • bert-base-uncased

    • bert-large-uncased

    Custom model path

    Tersedia ketika Select model diatur ke Custom.

    Untuk menggunakan model pra-latih atau fine-tuned kustom, tentukan jalurnya di sini. Format: {A: xxx, B: xxx}. Gunakan tanda titik dua (:) untuk memisahkan kunci dan nilai. Gunakan koma (,) untuk memisahkan beberapa parameter.

    Execution tuning

    GPU instance type

    Tipe instans GPU dari resource komputasi. Nilai default: gn5-c8g1.2xlarge (8 core CPU, memori 80 GB, satu kartu P100).

    Number of GPUs per worker

    Jumlah GPU per worker. Nilai default: 1.

  • Port output

    Port output (dari kiri ke kanan)

    Tipe data

    Komponen hilir

    Model save path

    Jalur OSS. Ini adalah jalur OSS yang ditentukan untuk parameter Model save path pada tab Fields setting. Model yang telah dilatih disimpan di jalur ini.

    Machine Reading Comprehension Prediction

Contoh

Buat alur kerja menggunakan komponen ini seperti yang ditunjukkan pada gambar berikut.image

Konfigurasikan komponen sebagai berikut:

  1. Siapkan set data pelatihan dan set data validasi, lalu unggah ke Bucket OSS. Untuk informasi selengkapnya, lihat Langkah 2: Unggah file.

    Set data dapat berupa file TSV atau TXT dan harus mencakup kolom-kolom berikut:

    • Set data pelatihan

      Kolom ID, kolom konteks, kolom pertanyaan, kolom jawaban, kolom posisi awal, dan kolom judul (opsional).

    • Set data validasi

      Kolom ID, kolom konteks, kolom pertanyaan, kolom jawaban (opsional), kolom posisi awal (opsional), dan kolom judul (opsional).

    Contoh ini menggunakan file TSV untuk mendemonstrasikan pelatihan model.

  2. Gunakan komponen Read OSS Data-1 dan Read OSS Data-2 untuk membaca set data pelatihan dan validasi. Atur parameter OSS Data Path ke jalur OSS tempat set data disimpan.

  3. Hubungkan set data pelatihan dan validasi ke komponen Machine Reading Comprehension Training dan konfigurasikan parameternya. Untuk informasi selengkapnya, lihat Parameter komponen dalam topik ini.

Referensi

  • Hubungkan komponen Machine Reading Comprehension Prediction di hilir komponen Machine Reading Comprehension Training untuk melakukan prediksi offline pada model yang dihasilkan. Untuk informasi selengkapnya, lihat Machine Reading Comprehension Prediction.

  • Untuk informasi selengkapnya tentang komponen Designer, lihat Ikhtisar Designer.

  • Designer menyediakan berbagai komponen algoritma. Pilih komponen yang sesuai untuk pemrosesan data berdasarkan skenario Anda. Untuk informasi selengkapnya, lihat Ikhtisar komponen Designer.