Normalisasi teks pelatihan LLM dengan MaxCompute pada PAI-Platform for AI-Alibaba Cloud

Gunakan komponen LLM-Text Normalizer (MaxCompute) dari Platform for AI (PAI) untuk melakukan operasi seperti normalisasi teks Unicode atau konversi dari Tiongkok tradisional ke Tiongkok sederhana. Komponen ini dapat digunakan selama pra-pemrosesan model bahasa besar (LLMs).

Batasan

Komponen LLM-Text Normalizer (MaxCompute) hanya mendukung sumber daya MaxCompute.

Algoritma

Komponen LLM-Text Normalizer (MaxCompute) mendukung fitur berikut:

Normalisasi teks Unicode menggunakan metode Normalization Form Compatibility Composition (NFKC).
ftfy.fix_text(text, normalization='NFKC')
Konversi dari Tiongkok tradisional ke Tiongkok sederhana menggunakan paket opencc.
opencc

Gambar berikut menunjukkan hasilnya.

Sebelum pemrosesan:
Setelah pemrosesan:

Konfigurasikan komponen

Anda dapat mengonfigurasi parameter komponen LLM-Text Normalizer (MaxCompute) di Machine Learning Designer. Tabel berikut menjelaskan parameter tersebut.

Tab	Parameter	Diperlukan	Deskripsi	Nilai default
Fields Setting	Select Target Column	Ya	Kolom yang ingin Anda proses. Anda dapat memilih beberapa kolom.	Tidak ada nilai default
Fields Setting	Siklus hidup tabel keluaran	Tidak	Nilainya adalah bilangan bulat positif. Satuan: hari. Nilai default: 28. Setelah siklus hidup default tabel berakhir, tabel-tabel sementara yang dihasilkan oleh komponen akan didaur ulang.	28
Tuning	Number of CPUs per instance of map task	Tidak	Jumlah CPU untuk setiap instance tugas peta. Nilai valid: 50 hingga 800.	100
	The memory size per instance of map task	Tidak	Ukuran memori setiap instance tugas peta. Satuan: MB. Nilai valid: 256 hingga 12288.	1024
	The maximum size of input data for a map	Tidak	Jumlah maksimum data yang dapat diproses setiap instance tugas peta. Anda dapat menggunakan parameter ini untuk mengelola input peta. Satuan: MB. Nilai valid: 1 hingga Integer.MAX_VALUE.	256

Referensi

Untuk informasi lebih lanjut tentang Machine Learning Designer, lihat Ikhtisar Machine Learning Designer.