Praproses data pelatihan LLM dengan filter teks berbasis hitungan pada MaxCompute - Platform for AI

Gunakan komponen LLM-Count Filter (MaxCompute) untuk memproses data teks yang digunakan dalam melatih model bahasa besar (LLMs). Komponen ini menyaring sampel teks berdasarkan metrik terkait huruf, angka, atau pemisah.

Batasan

Komponen LLM-Count Filter (MaxCompute) hanya mendukung sumber daya MaxCompute.

Algoritma

Komponen LLM-Count Filter (MaxCompute) menyaring sampel teks berdasarkan metrik berikut:

Jumlah digit atau rasio digit terhadap total karakter
Jika Anda menentukan pemisah, komponen membagi sampel teks menjadi daftar kata dan menghitung nilai metrik berdasarkan kata-kata tersebut.
Jumlah huruf atau rasio huruf terhadap total karakter
Jika Anda menentukan pemisah, komponen membagi sampel teks menjadi daftar kata dan menghitung nilai metrik berdasarkan kata-kata tersebut.
Jumlah karakter alfanumerik atau rasio karakter alfanumerik terhadap total karakter
Jika Anda menentukan pemisah, komponen membagi sampel teks menjadi daftar kata dan menghitung nilai metrik berdasarkan kata-kata tersebut.
Rasio huruf terhadap total token
Komponen menggunakan model pythia-6.9b-deduped untuk membagi sampel teks menjadi token dan membagi jumlah huruf dengan total jumlah token untuk menghitung rasio.
Jumlah pemisah

Konfigurasi komponen

Anda dapat mengonfigurasi parameter komponen LLM-Count Filter (MaxCompute) di modul Machine Learning Designer pada konsol Platform for AI (PAI). Tabel berikut menjelaskan parameter tersebut.

Tab	Parameter	Wajib	Deskripsi	Nilai default
Fields Setting	Select Target Column	Ya	Kolom yang ingin Anda proses. Anda dapat memilih beberapa kolom.	Tidak ada nilai default
	Text Separator	Tidak	Pemisah yang digunakan untuk membagi sampel teks menjadi daftar kata. Setelah dibagi, nilai metrik dihitung berdasarkan kata-kata. Jika Anda tidak mengisi parameter ini, komponen menghitung nilai metrik berdasarkan karakter. Letakkan pemisah dalam tanda kutip ganda ("").	" "
	Whether to Filter with Numeric Count or Ratio	Tidak	Minimum Counts or Ratio of Numeric Chars: Jika jumlah digit atau rasio digit terhadap total karakter kurang dari nilai ini, sampel teks disaring. Untuk menyaring sampel teks berdasarkan jumlah digit, tentukan nilai lebih dari 1. Untuk menyaring sampel teks berdasarkan rasio digit terhadap total karakter, tentukan nilai antara 0,0 dan 1,0. Maximum Counts or Ratio of Numeric Chars: Jika jumlah digit atau rasio digit terhadap total karakter lebih dari nilai ini, sampel teks disaring. Untuk menyaring sampel teks berdasarkan jumlah digit, tentukan nilai lebih dari 1. Untuk menyaring sampel teks berdasarkan rasio digit terhadap total karakter, tentukan nilai antara 0,0 dan 1,0.	Tidak ada nilai default
	Whether to Filter with Alpha Count or Ratio	Tidak	Minimum Counts or Ratio of Alpha chars: Jika jumlah huruf atau rasio huruf terhadap total karakter kurang dari nilai ini, sampel teks disaring. Untuk menyaring sampel teks berdasarkan jumlah huruf, tentukan nilai lebih dari 1. Untuk menyaring sampel teks berdasarkan rasio huruf terhadap total karakter, tentukan nilai antara 0,0 dan 1,0. Maximum Counts or Ratio of Alpha Chars: Jika jumlah huruf atau rasio huruf terhadap total karakter lebih dari nilai ini, sampel teks disaring. Untuk menyaring sampel teks berdasarkan jumlah huruf, tentukan nilai lebih dari 1. Untuk menyaring sampel teks berdasarkan rasio huruf terhadap total karakter, tentukan nilai antara 0,0 dan 1,0.	Tidak ada nilai default
	Whether to Filter with AlphaNumeric Count or Ratio	Tidak	Minimum Counts or Ratio of AlphaNumeric Chars: Jika jumlah karakter alfanumerik atau rasio karakter alfanumerik terhadap total karakter kurang dari nilai ini, sampel teks disaring. Untuk menyaring sampel teks berdasarkan jumlah karakter alfanumerik, tentukan nilai lebih dari 1. Untuk menyaring sampel teks berdasarkan rasio karakter alfanumerik terhadap total karakter, tentukan nilai antara 0,0 dan 1,0. Maximum Counts or Ratio of AlphaNumeric Chars: Jika jumlah karakter alfanumerik atau rasio karakter alfanumerik terhadap total karakter lebih dari nilai ini, sampel teks disaring. Untuk menyaring sampel teks berdasarkan jumlah karakter alfanumerik, tentukan nilai lebih dari 1. Untuk menyaring sampel teks berdasarkan rasio karakter alfanumerik terhadap total karakter, tentukan nilai antara 0,0 dan 1,0.	Tidak ada nilai default
	Whether to Filter with the Ratio of the Number of alpha chars to the Number of Text Tokens	Tidak	Minimum Ratio of Alpha Chars to Text Tokens: Jika rasio huruf terhadap total token kurang dari nilai ini, sampel teks disaring. Komponen menggunakan model pythia-6.9b-deduped untuk membagi sampel teks menjadi token dan membagi jumlah huruf dengan total jumlah token untuk menghitung rasio. Maximum Ratio of Alpha Chars to Text Tokens: Jika rasio huruf terhadap total token lebih dari nilai ini, sampel teks disaring. Komponen menggunakan model pythia-6.9b-deduped untuk membagi sampel teks menjadi token dan membagi jumlah huruf dengan total jumlah token untuk menghitung rasio.	Tidak ada nilai default
	Whether to Filter with Separator Count	Tidak	Minimum Counts of Separators: Jika jumlah pemisah dalam sampel teks kurang dari nilai ini, sampel teks disaring. Maximum Counts of Separators: Jika jumlah pemisah dalam sampel teks lebih dari nilai ini, sampel teks disaring.	Tidak ada nilai default
	Siklus hidup tabel keluaran	Tidak	Nilainya adalah bilangan bulat positif. Satuan: hari. Nilai default: 28. Setelah siklus hidup default tabel berakhir, tabel sementara yang dihasilkan oleh komponen akan didaur ulang.	28
Tuning	Number of CPUs per instance of map task	Tidak	Jumlah CPU untuk setiap instance tugas map. Nilai valid: [50,800].	100
	The memory size per instance of map task	Tidak	Ukuran memori untuk setiap instance tugas map. Satuan: MB. Nilai valid: [256,12288].	1024
	The maximum size of input data for a map	Tidak	Jumlah maksimum data yang dapat diproses oleh setiap instance tugas map. Anda dapat menggunakan parameter ini untuk mengelola masukan sebuah map. Satuan: MB. Nilai valid: [1,Integer.MAX_VALUE].	256

Referensi

Untuk informasi lebih lanjut tentang Machine Learning Designer, lihat Ikhtisar Machine Learning Designer.