Atur filter panjang teks LLM di MaxCompute untuk data yang lebih bersih - Platform For AI

Komponen LLM-Length Filter (MaxCompute) digunakan untuk memproses data teks yang digunakan dalam melatih model bahasa besar (LLMs). Komponen ini menyaring sampel teks berdasarkan panjang teks, rata-rata panjang baris, dan panjang baris maksimum. Secara default, jika sampel teks diperoleh berdasarkan rata-rata panjang baris dan panjang baris maksimum, teks tersebut dibagi per baris lalu dihitung.

Batasan

Komponen LLM-Length Filter (MaxCompute) hanya mendukung sumber daya MaxCompute.

Konfigurasi komponen

Anda dapat mengonfigurasi parameter komponen di modul Machine Learning Designer pada konsol Platform for AI (PAI). Tabel berikut menjelaskan parameter-parameter tersebut.

Tab	Parameter	Wajib	Deskripsi	Nilai default
Fields Setting	Select Target Column	Ya	Kolom-kolom yang ingin Anda proses. Anda dapat memilih beberapa kolom.	Tidak ada nilai default
	Whether to Filter with Text Length	Tidak	Text Separator: pemisah yang digunakan untuk membagi sampel teks menjadi daftar. Setelah sampel teks dibagi, komponen menghitung panjang daftar. Secara default, parameter ini dibiarkan kosong. Dalam hal ini, komponen langsung menghitung panjang sampel teks tanpa melakukan pembagian. Letakkan pemisah dalam tanda kutip ganda ("). Minimum Length: Jika panjang yang dihitung kurang dari nilai parameter ini, sampel teks disaring. Maximal Length: Jika panjang yang dihitung lebih besar dari nilai parameter ini, sampel teks disaring.	Tidak ada nilai default
	Whether to Filter with the Average Length of the Sample	Tidak	Minimum average length: Jika rata-rata panjang yang dihitung kurang dari nilai parameter ini, sampel teks disaring. Maximal average length: Jika rata-rata panjang yang dihitung lebih besar dari nilai parameter ini, sampel teks disaring.	Tidak ada nilai default
	Whether to Filter with the Longest Line Length of the Sample.	Tidak	Minimum length of the Longest Line: Jika panjang maksimum yang dihitung kurang dari nilai parameter ini, sampel teks disaring. Maximal length of the Longest Line: Jika panjang maksimum yang dihitung lebih besar dari nilai parameter ini, sampel teks disaring.	Tidak ada nilai default
	Siklus hidup tabel keluaran	Tidak	Nilainya adalah bilangan bulat positif. Satuan: hari. Nilai default: 28. Setelah siklus hidup tabel berakhir, tabel-tabel sementara yang dihasilkan oleh komponen akan didaur ulang.	28
Tuning	Number of CPUs per instance of map task	Tidak	Jumlah CPU untuk setiap instance tugas map. Nilai valid: [50,800].	100
	The memory size per instance of map task	Tidak	Ukuran memori untuk setiap instance tugas map. Satuan: MB. Nilai valid: [256,12288].	1024
	The maximum size of input data for a map	Tidak	Jumlah maksimum data yang dapat diproses oleh setiap instance tugas map. Anda dapat menggunakan parameter ini untuk mengelola masukan sebuah map. Satuan: MB. Nilai valid: [1,Integer.MAX_VALUE].	256

Referensi

Untuk informasi lebih lanjut tentang Machine Learning Designer, lihat Ikhtisar Machine Learning Designer.