Gunakan komponen LLM-Count Filter (MaxCompute) untuk memproses data teks yang digunakan dalam melatih model bahasa besar (LLMs). Komponen ini menyaring sampel teks berdasarkan metrik terkait huruf, angka, atau pemisah.
Batasan
Komponen LLM-Count Filter (MaxCompute) hanya mendukung sumber daya MaxCompute.
Algoritma
Komponen LLM-Count Filter (MaxCompute) menyaring sampel teks berdasarkan metrik berikut:
Jumlah digit atau rasio digit terhadap total karakter
Jika Anda menentukan pemisah, komponen membagi sampel teks menjadi daftar kata dan menghitung nilai metrik berdasarkan kata-kata tersebut.
Jumlah huruf atau rasio huruf terhadap total karakter
Jika Anda menentukan pemisah, komponen membagi sampel teks menjadi daftar kata dan menghitung nilai metrik berdasarkan kata-kata tersebut.
Jumlah karakter alfanumerik atau rasio karakter alfanumerik terhadap total karakter
Jika Anda menentukan pemisah, komponen membagi sampel teks menjadi daftar kata dan menghitung nilai metrik berdasarkan kata-kata tersebut.
Rasio huruf terhadap total token
Komponen menggunakan model pythia-6.9b-deduped untuk membagi sampel teks menjadi token dan membagi jumlah huruf dengan total jumlah token untuk menghitung rasio.
Jumlah pemisah
Konfigurasi komponen
Anda dapat mengonfigurasi parameter komponen LLM-Count Filter (MaxCompute) di modul Machine Learning Designer pada konsol Platform for AI (PAI). Tabel berikut menjelaskan parameter tersebut.
Tab | Parameter | Wajib | Deskripsi | Nilai default |
Fields Setting | Select Target Column | Ya | Kolom yang ingin Anda proses. Anda dapat memilih beberapa kolom. | Tidak ada nilai default |
Text Separator | Tidak | Pemisah yang digunakan untuk membagi sampel teks menjadi daftar kata. Setelah dibagi, nilai metrik dihitung berdasarkan kata-kata. Jika Anda tidak mengisi parameter ini, komponen menghitung nilai metrik berdasarkan karakter. Letakkan pemisah dalam tanda kutip ganda (""). | " " | |
Whether to Filter with Numeric Count or Ratio | Tidak |
| Tidak ada nilai default | |
Whether to Filter with Alpha Count or Ratio | Tidak |
| Tidak ada nilai default | |
Whether to Filter with AlphaNumeric Count or Ratio | Tidak |
| Tidak ada nilai default | |
Whether to Filter with the Ratio of the Number of alpha chars to the Number of Text Tokens | Tidak |
| Tidak ada nilai default | |
Whether to Filter with Separator Count | Tidak |
| Tidak ada nilai default | |
Siklus hidup tabel keluaran | Tidak | Nilainya adalah bilangan bulat positif. Satuan: hari. Nilai default: 28. Setelah siklus hidup default tabel berakhir, tabel sementara yang dihasilkan oleh komponen akan didaur ulang. | 28 | |
Tuning | Number of CPUs per instance of map task | Tidak | Jumlah CPU untuk setiap instance tugas map. Nilai valid: [50,800]. | 100 |
The memory size per instance of map task | Tidak | Ukuran memori untuk setiap instance tugas map. Satuan: MB. Nilai valid: [256,12288]. | 1024 | |
The maximum size of input data for a map | Tidak | Jumlah maksimum data yang dapat diproses oleh setiap instance tugas map. Anda dapat menggunakan parameter ini untuk mengelola masukan sebuah map. Satuan: MB. Nilai valid: [1,Integer.MAX_VALUE]. | 256 |
Referensi
Untuk informasi lebih lanjut tentang Machine Learning Designer, lihat Ikhtisar Machine Learning Designer.