Gunakan komponen LLM-Text Normalizer (MaxCompute) dari Platform for AI (PAI) untuk melakukan operasi seperti normalisasi teks Unicode atau konversi dari Tiongkok tradisional ke Tiongkok sederhana. Komponen ini dapat digunakan selama pra-pemrosesan model bahasa besar (LLMs).
Batasan
Komponen LLM-Text Normalizer (MaxCompute) hanya mendukung sumber daya MaxCompute.
Algoritma
Komponen LLM-Text Normalizer (MaxCompute) mendukung fitur berikut:
Normalisasi teks Unicode menggunakan metode Normalization Form Compatibility Composition (NFKC).
ftfy.fix_text(text, normalization='NFKC')Konversi dari Tiongkok tradisional ke Tiongkok sederhana menggunakan paket opencc.
opencc
Gambar berikut menunjukkan hasilnya.
Sebelum pemrosesan:

Setelah pemrosesan:

Konfigurasikan komponen
Anda dapat mengonfigurasi parameter komponen LLM-Text Normalizer (MaxCompute) di Machine Learning Designer. Tabel berikut menjelaskan parameter tersebut.
Tab | Parameter | Diperlukan | Deskripsi | Nilai default |
Fields Setting | Select Target Column | Ya | Kolom yang ingin Anda proses. Anda dapat memilih beberapa kolom. | Tidak ada nilai default |
Siklus hidup tabel keluaran | Tidak | Nilainya adalah bilangan bulat positif. Satuan: hari. Nilai default: 28. Setelah siklus hidup default tabel berakhir, tabel-tabel sementara yang dihasilkan oleh komponen akan didaur ulang. | 28 | |
Tuning | Number of CPUs per instance of map task | Tidak | Jumlah CPU untuk setiap instance tugas peta. Nilai valid: 50 hingga 800. | 100 |
The memory size per instance of map task | Tidak | Ukuran memori setiap instance tugas peta. Satuan: MB. Nilai valid: 256 hingga 12288. | 1024 | |
The maximum size of input data for a map | Tidak | Jumlah maksimum data yang dapat diproses setiap instance tugas peta. Anda dapat menggunakan parameter ini untuk mengelola input peta. Satuan: MB. Nilai valid: 1 hingga Integer.MAX_VALUE. | 256 |
Referensi
Untuk informasi lebih lanjut tentang Machine Learning Designer, lihat Ikhtisar Machine Learning Designer.