Konfigurasikan komponen prediksi pemahaman membaca mesin untuk prediksi batch - Platform For AI

Komponen prediksi pemahaman membaca mesin dari Platform for AI (PAI) memungkinkan Anda membuat prediksi batch menggunakan model yang dilatih oleh komponen pelatihan pemahaman membaca mesin. Topik ini menjelaskan cara mengonfigurasi komponen dan memberikan contoh penggunaannya.

Batasan

Komponen prediksi pemahaman membaca mesin dapat digunakan berdasarkan sumber daya Deep Learning Containers (DLC).

Konfigurasikan komponen di Machine Learning Designer

Port Masukan
Port Masukan
Tipe Data
Komponen Hulu yang Direkomendasikan
Diperlukan
input saved model
OSS
pelatihan pemahaman membaca mesin
Ya
Data untuk Prediksi
OSS
Baca Data Berkas
Ya

Parameter Komponen

Konfigurasikan komponen pada halaman pipeline Machine Learning Designer. Tabel berikut menjelaskan parameter-parameter tersebut.

Tab	Parameter	Deskripsi
Fields Setting	Language	Bahasa dari file masukan. Nilai default: zh. Nilai valid: zh en
	Input Schema	Skema data dari setiap kolom dalam file masukan. Pisahkan beberapa kolom dengan koma (,). Nilai default: qas_id:str:1,context_text:str:1,question_text:str:1,answer_text:str:1,start_position_character:str:1,title:str:1.
	Question Column	Nama kolom yang berisi pertanyaan dalam file masukan. Nilai default: question_text.
	Context Column	Nama kolom yang berisi teks dalam file masukan. Nilai default: context_text.
	Answer Column	Nama kolom yang berisi jawaban dalam file masukan. Nilai default: answer_text.
	Id Column	Nama kolom ID dalam file masukan. Nilai default: qas_id.
	Start Position Column	Nama kolom yang berisi posisi awal rentang jawaban dalam file masukan. Jika jawaban dari sebuah pertanyaan ditemukan dalam teks, posisi awal rentang jawaban dicatat dalam kolom ini. Nilai default: start_position_character.
	Output data file	Path Bucket Object Storage Service (OSS) yang menyimpan file jawaban yang digunakan oleh komponen ini.
	Use User-defined Model	Menentukan apakah akan menggunakan model kustom. Nilai default: no. Nilai valid: no yes
	OSS Directory for Alink Model	Parameter ini hanya diperlukan jika Anda menetapkan parameter Use User-defined Model ke yes. Path bucket OSS yang menyimpan model kustom.
Parameters Setting	batchSize	Jumlah sampel yang ingin Anda proses pada saat yang sama. Jika model dilatih pada beberapa server yang menggunakan beberapa GPU, parameter ini menentukan jumlah sampel yang diproses oleh setiap GPU pada saat yang sama. Nilainya harus bertipe INT. Nilai default: 256.
	Sequence Length	Panjang maksimum teks yang dapat ditangani. Nilainya harus bertipe INT. Nilai default: 384.
	Max Query Length	Panjang maksimum pertanyaan yang dapat ditangani. Nilainya harus bertipe INT. Nilai default: 64.
	Max Answer Length	Panjang maksimum jawaban yang dapat ditangani. Nilainya harus bertipe INT. Nilai default: 30.
	Doc Stride	Panjang jendela geser untuk setiap potongan teks. Nilainya harus bertipe INT. Nilai default: 128.
	pretrainModelNameOrPath	Nama atau path model pra-latih yang disediakan oleh sistem. Nilai default: hfl/macbert-base-zh. Nilai valid: User Defined hfl/macbert-base-zh hfl/macbert-large-zh bert-base-uncased bert-large-uncased
	Additional Parameters	Parameter kustom. Anda dapat menyesuaikan parameter model berdasarkan data Anda. Format: `{A: xxx, B: xxx}`. Pisahkan kunci dan nilai dengan titik dua (:). Pisahkan beberapa parameter dengan koma (,).
Tuning	GPU Machine type	Tipe instans dari node yang dipercepat GPU yang ingin Anda gunakan. Nilai default adalah gn5-c8g1.2xlarge, yang menunjukkan bahwa node menggunakan 8 vCPU, 80 GB memori, dan satu GPU P100.
Tuning	num_GPU_worker	Jumlah GPU untuk setiap pekerja. Nilai default: 1.

Contoh

Gambar berikut menunjukkan pipeline sampel dengan penggunaan komponen prediksi pemahaman membaca mesin.

Ikuti langkah-langkah berikut untuk mengonfigurasi komponen:

Siapkan dataset prediksi dan unggah dataset tersebut ke bucket OSS. Untuk informasi lebih lanjut, lihat bagian "Unggah objek" dalam topik Memulai dengan Menggunakan Konsol OSS.
Dataset dapat berupa format TSV atau TEXT dan mencakup kolom-kolom berikut: ID, teks, pertanyaan, jawaban (opsional), posisi awal (opsional), dan judul (opsional).
Pada contoh ini, file TSV digunakan untuk menunjukkan cara melatih model.
Gunakan komponen Read File Data -3 untuk membaca dataset prediksi. Atur parameter OSS Data Path dari komponen Read File Data ke path OSS tempat dataset prediksi disimpan.
Sambungkan komponen Read File Data-3 ke komponen machine reading comprehension predict sebagai node hulu dan konfigurasikan komponen prediksi pemahaman membaca mesin. Untuk informasi lebih lanjut, lihat bagian "Parameter Komponen" dari topik ini.

Referensi

Komponen prediksi pemahaman membaca mesin dapat digunakan bersama dengan komponen pelatihan pemahaman membaca mesin. Untuk informasi lebih lanjut, lihat pelatihan pemahaman membaca mesin.
Untuk informasi lebih lanjut tentang komponen Machine Learning Designer, lihat Ikhtisar Machine Learning Designer.
Machine Learning Designer menyediakan berbagai komponen algoritma preset. Anda dapat memilih komponen sesuai dengan skenario bisnis aktual Anda. Untuk informasi lebih lanjut, lihat Ikhtisar Komponen Designer.

Port Masukan	Tipe Data	Komponen Hulu yang Direkomendasikan	Diperlukan
input saved model	OSS	pelatihan pemahaman membaca mesin	Ya
Data untuk Prediksi	OSS	Baca Data Berkas	Ya