Komponen LLM-Filter Rasio Karakter Khusus (MaxCompute) digunakan untuk menyaring sampel teks berdasarkan rasio karakter khusus dalam teks. Komponen ini dapat digunakan selama pra-pemrosesan teks model bahasa besar (LLMs).
Batasan
Komponen LLM-Filter Rasio Karakter Khusus (MaxCompute) hanya mendukung sumber daya MaxCompute.
Algoritma
Algoritma memeriksa setiap karakter dalam teks dan menghitung rasio jumlah karakter khusus terhadap panjang teks.
Karakter khusus mencakup tanda baca (string.punctuation), digit (string.digits), spasi (string.whitespace), emoji, dan karakter khusus lainnya.
Konfigurasikan komponen
Anda dapat mengonfigurasi parameter komponen LLM-Filter Rasio Karakter Khusus (MaxCompute) di Machine Learning Designer. Tabel berikut menjelaskan parameter tersebut.
Tab | Parameter | Diperlukan | Deskripsi | Nilai default |
Fields Setting | Select Target Column | Ya | Kolom yang ingin Anda proses. Anda dapat memilih beberapa kolom. | Tidak ada nilai default |
Minimum Ratio | Tidak | Jika rasio jumlah karakter khusus terhadap panjang teks lebih kecil dari nilai ini, teks akan disaring. | 0 | |
Maximum Ratio | Ya | Jika rasio jumlah karakter khusus terhadap panjang teks lebih besar dari nilai ini, teks akan disaring. | Tidak ada nilai default | |
Siklus hidup tabel keluaran | Tidak | Nilainya adalah bilangan bulat positif. Satuan: hari. Nilai default: 28. Setelah siklus hidup default tabel berakhir, tabel-tabel sementara yang dihasilkan oleh komponen akan didaur ulang. | 28 | |
Tuning | Number of CPUs per instance of map task | Tidak | Jumlah CPU untuk setiap instance tugas peta. Nilai valid: 50 hingga 800. | 100 |
The memory size per instance of map task | Tidak | Ukuran memori untuk setiap instance tugas peta. Satuan: MB. Nilai valid: 256 hingga 12288. | 1024 | |
The maximum size of input data for a map | Tidak | Jumlah maksimum data yang dapat diproses oleh setiap instance tugas peta. Anda dapat menggunakan parameter ini untuk mengelola masukan peta. Satuan: MB. Nilai valid: 1 hingga Integer.MAX_VALUE. | 256 |
Referensi
Untuk informasi lebih lanjut tentang Machine Learning Designer, lihat Ikhtisar Machine Learning Designer.