全部产品
Search
文档中心

Platform For AI:LLM-Text Normalizer (MaxCompute)

更新时间:Jul 02, 2025

Gunakan komponen LLM-Text Normalizer (MaxCompute) dari Platform for AI (PAI) untuk melakukan operasi seperti normalisasi teks Unicode atau konversi dari Tiongkok tradisional ke Tiongkok sederhana. Komponen ini dapat digunakan selama pra-pemrosesan model bahasa besar (LLMs).

Batasan

Komponen LLM-Text Normalizer (MaxCompute) hanya mendukung sumber daya MaxCompute.

Algoritma

Komponen LLM-Text Normalizer (MaxCompute) mendukung fitur berikut:

  • Normalisasi teks Unicode menggunakan metode Normalization Form Compatibility Composition (NFKC).

    ftfy.fix_text(text, normalization='NFKC')

  • Konversi dari Tiongkok tradisional ke Tiongkok sederhana menggunakan paket opencc.

    opencc

Gambar berikut menunjukkan hasilnya.

  • Sebelum pemrosesan:

    image

  • Setelah pemrosesan:

    image

Konfigurasikan komponen

Anda dapat mengonfigurasi parameter komponen LLM-Text Normalizer (MaxCompute) di Machine Learning Designer. Tabel berikut menjelaskan parameter tersebut.

Tab

Parameter

Diperlukan

Deskripsi

Nilai default

Fields Setting

Select Target Column

Ya

Kolom yang ingin Anda proses. Anda dapat memilih beberapa kolom.

Tidak ada nilai default

Siklus hidup tabel keluaran

Tidak

Nilainya adalah bilangan bulat positif. Satuan: hari. Nilai default: 28. Setelah siklus hidup default tabel berakhir, tabel-tabel sementara yang dihasilkan oleh komponen akan didaur ulang.

28

Tuning

Number of CPUs per instance of map task

Tidak

Jumlah CPU untuk setiap instance tugas peta. Nilai valid: 50 hingga 800.

100

The memory size per instance of map task

Tidak

Ukuran memori setiap instance tugas peta. Satuan: MB. Nilai valid: 256 hingga 12288.

1024

The maximum size of input data for a map

Tidak

Jumlah maksimum data yang dapat diproses setiap instance tugas peta. Anda dapat menggunakan parameter ini untuk mengelola input peta. Satuan: MB. Nilai valid: 1 hingga Integer.MAX_VALUE.

256

Referensi

Untuk informasi lebih lanjut tentang Machine Learning Designer, lihat Ikhtisar Machine Learning Designer.