全部产品
Search
文档中心

Platform For AI:LLM-Filter Rasio Karakter Khusus (MaxCompute)

更新时间:Jul 02, 2025

Komponen LLM-Filter Rasio Karakter Khusus (MaxCompute) digunakan untuk menyaring sampel teks berdasarkan rasio karakter khusus dalam teks. Komponen ini dapat digunakan selama pra-pemrosesan teks model bahasa besar (LLMs).

Batasan

Komponen LLM-Filter Rasio Karakter Khusus (MaxCompute) hanya mendukung sumber daya MaxCompute.

Algoritma

Algoritma memeriksa setiap karakter dalam teks dan menghitung rasio jumlah karakter khusus terhadap panjang teks.

Karakter khusus mencakup tanda baca (string.punctuation), digit (string.digits), spasi (string.whitespace), emoji, dan karakter khusus lainnya.

Konfigurasikan komponen

Anda dapat mengonfigurasi parameter komponen LLM-Filter Rasio Karakter Khusus (MaxCompute) di Machine Learning Designer. Tabel berikut menjelaskan parameter tersebut.

Tab

Parameter

Diperlukan

Deskripsi

Nilai default

Fields Setting

Select Target Column

Ya

Kolom yang ingin Anda proses. Anda dapat memilih beberapa kolom.

Tidak ada nilai default

Minimum Ratio

Tidak

Jika rasio jumlah karakter khusus terhadap panjang teks lebih kecil dari nilai ini, teks akan disaring.

0

Maximum Ratio

Ya

Jika rasio jumlah karakter khusus terhadap panjang teks lebih besar dari nilai ini, teks akan disaring.

Tidak ada nilai default

Siklus hidup tabel keluaran

Tidak

Nilainya adalah bilangan bulat positif. Satuan: hari. Nilai default: 28. Setelah siklus hidup default tabel berakhir, tabel-tabel sementara yang dihasilkan oleh komponen akan didaur ulang.

28

Tuning

Number of CPUs per instance of map task

Tidak

Jumlah CPU untuk setiap instance tugas peta. Nilai valid: 50 hingga 800.

100

The memory size per instance of map task

Tidak

Ukuran memori untuk setiap instance tugas peta. Satuan: MB. Nilai valid: 256 hingga 12288.

1024

The maximum size of input data for a map

Tidak

Jumlah maksimum data yang dapat diproses oleh setiap instance tugas peta. Anda dapat menggunakan parameter ini untuk mengelola masukan peta. Satuan: MB. Nilai valid: 1 hingga Integer.MAX_VALUE.

256

Referensi

Untuk informasi lebih lanjut tentang Machine Learning Designer, lihat Ikhtisar Machine Learning Designer.