全部产品
Search
文档中心

Platform For AI:LLM-Length Filter (MaxCompute)

更新时间:Jul 02, 2025

Komponen LLM-Length Filter (MaxCompute) digunakan untuk memproses data teks yang digunakan dalam melatih model bahasa besar (LLMs). Komponen ini menyaring sampel teks berdasarkan panjang teks, rata-rata panjang baris, dan panjang baris maksimum. Secara default, jika sampel teks diperoleh berdasarkan rata-rata panjang baris dan panjang baris maksimum, teks tersebut dibagi per baris lalu dihitung.

Batasan

Komponen LLM-Length Filter (MaxCompute) hanya mendukung sumber daya MaxCompute.

Konfigurasi komponen

Anda dapat mengonfigurasi parameter komponen di modul Machine Learning Designer pada konsol Platform for AI (PAI). Tabel berikut menjelaskan parameter-parameter tersebut.

Tab

Parameter

Wajib

Deskripsi

Nilai default

Fields Setting

Select Target Column

Ya

Kolom-kolom yang ingin Anda proses. Anda dapat memilih beberapa kolom.

Tidak ada nilai default

Whether to Filter with Text Length

Tidak

  • Text Separator: pemisah yang digunakan untuk membagi sampel teks menjadi daftar. Setelah sampel teks dibagi, komponen menghitung panjang daftar. Secara default, parameter ini dibiarkan kosong. Dalam hal ini, komponen langsung menghitung panjang sampel teks tanpa melakukan pembagian. Letakkan pemisah dalam tanda kutip ganda (").

  • Minimum Length: Jika panjang yang dihitung kurang dari nilai parameter ini, sampel teks disaring.

  • Maximal Length: Jika panjang yang dihitung lebih besar dari nilai parameter ini, sampel teks disaring.

Tidak ada nilai default

Whether to Filter with the Average Length of the Sample

Tidak

  • Minimum average length: Jika rata-rata panjang yang dihitung kurang dari nilai parameter ini, sampel teks disaring.

  • Maximal average length: Jika rata-rata panjang yang dihitung lebih besar dari nilai parameter ini, sampel teks disaring.

Tidak ada nilai default

Whether to Filter with the Longest Line Length of the Sample.

Tidak

  • Minimum length of the Longest Line: Jika panjang maksimum yang dihitung kurang dari nilai parameter ini, sampel teks disaring.

  • Maximal length of the Longest Line: Jika panjang maksimum yang dihitung lebih besar dari nilai parameter ini, sampel teks disaring.

Tidak ada nilai default

Siklus hidup tabel keluaran

Tidak

Nilainya adalah bilangan bulat positif. Satuan: hari. Nilai default: 28. Setelah siklus hidup tabel berakhir, tabel-tabel sementara yang dihasilkan oleh komponen akan didaur ulang.

28

Tuning

Number of CPUs per instance of map task

Tidak

Jumlah CPU untuk setiap instance tugas map. Nilai valid: [50,800].

100

The memory size per instance of map task

Tidak

Ukuran memori untuk setiap instance tugas map. Satuan: MB. Nilai valid: [256,12288].

1024

The maximum size of input data for a map

Tidak

Jumlah maksimum data yang dapat diproses oleh setiap instance tugas map. Anda dapat menggunakan parameter ini untuk mengelola masukan sebuah map. Satuan: MB. Nilai valid: [1,Integer.MAX_VALUE].

256

Referensi

Untuk informasi lebih lanjut tentang Machine Learning Designer, lihat Ikhtisar Machine Learning Designer.