Komponen LLM-N-Gram Repetition Filter (MaxCompute) dari Platform for AI (PAI) digunakan untuk memproses data teks yang diperlukan dalam melatih model bahasa besar (LLMs). Komponen ini menyaring teks berdasarkan rasio pengulangan N-Gram pada tingkat karakter atau kata.
Batasan
Komponen LLM-N-Gram Repetition Filter (MaxCompute) hanya dapat digunakan dengan sumber daya MaxCompute.
Deskripsi algoritma
Komponen LLM-N-Gram Repetition Filter (MaxCompute) memindahkan jendela N-karakter di seluruh teks untuk menghasilkan urutan N karakter atau kata, yang disebut N-gram. Frekuensi setiap N-gram dihitung, lalu rasio pengulangan dihitung menggunakan rumus berikut: Frekuensi kumulatif N-gram yang muncul lebih dari sekali/Total frekuensi semua N-gram. Rasio ini digunakan untuk menyaring teks.
Jika N-gram adalah urutan kata, semua kata dikonversi menjadi huruf kecil sebelum perhitungan rasio pengulangan.
Konfigurasikan komponen
Parameter komponen LLM-N-Gram Repetition Filter (MaxCompute) dapat dikonfigurasi di Machine Learning Designer. Parameter tersebut dijelaskan dalam tabel berikut.
Tab | Parameter | Diperlukan | Deskripsi | Nilai default |
Fields Setting | Select Target Column | Ya | Kolom yang ingin Anda proses. Anda dapat memilih beberapa kolom. | Tidak tersedia |
Whether to Filter with Character-level N-Gram Repetition Ratio | Tidak |
| Tidak tersedia | |
Whether to Filter with Word-level N-Gram Repetition Ratio | Tidak |
| Tidak tersedia | |
Siklus hidup tabel keluaran | Tidak | Nilainya harus bilangan bulat positif. Satuan: hari. Nilai default: 28. Tabel sementara yang dihasilkan oleh komponen ini didaur ulang setelah 28 hari. | 28 | |
Tuning | Number of CPUs per instance of map task | Tidak | Jumlah CPU untuk setiap instance tugas peta. Nilai valid: 50 hingga 800. | 100 |
The memory size per instance of map task | Tidak | Ukuran memori setiap instance tugas peta. Satuan: MB. Nilai valid: 256 hingga 12288. | 1024 | |
The maximum size of input data for a map | Tidak | Jumlah maksimum data yang dapat diproses setiap instance tugas peta. Anda dapat menggunakan parameter ini untuk mengontrol ukuran data masukan. Satuan: MB. Nilai valid: 1 hingga Integer.MAX_VALUE. | 256 |
Referensi
Untuk informasi lebih lanjut tentang komponen Machine Learning Designer, lihat Ikhtisar Machine Learning Designer.