Komponen LLM-Length Filter (MaxCompute) digunakan untuk memproses data teks yang digunakan dalam melatih model bahasa besar (LLMs). Komponen ini menyaring sampel teks berdasarkan panjang teks, rata-rata panjang baris, dan panjang baris maksimum. Secara default, jika sampel teks diperoleh berdasarkan rata-rata panjang baris dan panjang baris maksimum, teks tersebut dibagi per baris lalu dihitung.
Batasan
Komponen LLM-Length Filter (MaxCompute) hanya mendukung sumber daya MaxCompute.
Konfigurasi komponen
Anda dapat mengonfigurasi parameter komponen di modul Machine Learning Designer pada konsol Platform for AI (PAI). Tabel berikut menjelaskan parameter-parameter tersebut.
Tab | Parameter | Wajib | Deskripsi | Nilai default |
Fields Setting | Select Target Column | Ya | Kolom-kolom yang ingin Anda proses. Anda dapat memilih beberapa kolom. | Tidak ada nilai default |
Whether to Filter with Text Length | Tidak |
| Tidak ada nilai default | |
Whether to Filter with the Average Length of the Sample | Tidak |
| Tidak ada nilai default | |
Whether to Filter with the Longest Line Length of the Sample. | Tidak |
| Tidak ada nilai default | |
Siklus hidup tabel keluaran | Tidak | Nilainya adalah bilangan bulat positif. Satuan: hari. Nilai default: 28. Setelah siklus hidup tabel berakhir, tabel-tabel sementara yang dihasilkan oleh komponen akan didaur ulang. | 28 | |
Tuning | Number of CPUs per instance of map task | Tidak | Jumlah CPU untuk setiap instance tugas map. Nilai valid: [50,800]. | 100 |
The memory size per instance of map task | Tidak | Ukuran memori untuk setiap instance tugas map. Satuan: MB. Nilai valid: [256,12288]. | 1024 | |
The maximum size of input data for a map | Tidak | Jumlah maksimum data yang dapat diproses oleh setiap instance tugas map. Anda dapat menggunakan parameter ini untuk mengelola masukan sebuah map. Satuan: MB. Nilai valid: [1,Integer.MAX_VALUE]. | 256 |
Referensi
Untuk informasi lebih lanjut tentang Machine Learning Designer, lihat Ikhtisar Machine Learning Designer.