全部产品
Search
文档中心

Platform For AI:LLM-Count Filter (MaxCompute)

更新时间:Jul 02, 2025

Gunakan komponen LLM-Count Filter (MaxCompute) untuk memproses data teks yang digunakan dalam melatih model bahasa besar (LLMs). Komponen ini menyaring sampel teks berdasarkan metrik terkait huruf, angka, atau pemisah.

Batasan

Komponen LLM-Count Filter (MaxCompute) hanya mendukung sumber daya MaxCompute.

Algoritma

Komponen LLM-Count Filter (MaxCompute) menyaring sampel teks berdasarkan metrik berikut:

  • Jumlah digit atau rasio digit terhadap total karakter

    Jika Anda menentukan pemisah, komponen membagi sampel teks menjadi daftar kata dan menghitung nilai metrik berdasarkan kata-kata tersebut.

  • Jumlah huruf atau rasio huruf terhadap total karakter

    Jika Anda menentukan pemisah, komponen membagi sampel teks menjadi daftar kata dan menghitung nilai metrik berdasarkan kata-kata tersebut.

  • Jumlah karakter alfanumerik atau rasio karakter alfanumerik terhadap total karakter

    Jika Anda menentukan pemisah, komponen membagi sampel teks menjadi daftar kata dan menghitung nilai metrik berdasarkan kata-kata tersebut.

  • Rasio huruf terhadap total token

    Komponen menggunakan model pythia-6.9b-deduped untuk membagi sampel teks menjadi token dan membagi jumlah huruf dengan total jumlah token untuk menghitung rasio.

  • Jumlah pemisah

Konfigurasi komponen

Anda dapat mengonfigurasi parameter komponen LLM-Count Filter (MaxCompute) di modul Machine Learning Designer pada konsol Platform for AI (PAI). Tabel berikut menjelaskan parameter tersebut.

Tab

Parameter

Wajib

Deskripsi

Nilai default

Fields Setting

Select Target Column

Ya

Kolom yang ingin Anda proses. Anda dapat memilih beberapa kolom.

Tidak ada nilai default

Text Separator

Tidak

Pemisah yang digunakan untuk membagi sampel teks menjadi daftar kata. Setelah dibagi, nilai metrik dihitung berdasarkan kata-kata.

Jika Anda tidak mengisi parameter ini, komponen menghitung nilai metrik berdasarkan karakter. Letakkan pemisah dalam tanda kutip ganda ("").

" "

Whether to Filter with Numeric Count or Ratio

Tidak

  • Minimum Counts or Ratio of Numeric Chars: Jika jumlah digit atau rasio digit terhadap total karakter kurang dari nilai ini, sampel teks disaring.

    Untuk menyaring sampel teks berdasarkan jumlah digit, tentukan nilai lebih dari 1. Untuk menyaring sampel teks berdasarkan rasio digit terhadap total karakter, tentukan nilai antara 0,0 dan 1,0.

  • Maximum Counts or Ratio of Numeric Chars: Jika jumlah digit atau rasio digit terhadap total karakter lebih dari nilai ini, sampel teks disaring.

    Untuk menyaring sampel teks berdasarkan jumlah digit, tentukan nilai lebih dari 1. Untuk menyaring sampel teks berdasarkan rasio digit terhadap total karakter, tentukan nilai antara 0,0 dan 1,0.

Tidak ada nilai default

Whether to Filter with Alpha Count or Ratio

Tidak

  • Minimum Counts or Ratio of Alpha chars: Jika jumlah huruf atau rasio huruf terhadap total karakter kurang dari nilai ini, sampel teks disaring.

    Untuk menyaring sampel teks berdasarkan jumlah huruf, tentukan nilai lebih dari 1. Untuk menyaring sampel teks berdasarkan rasio huruf terhadap total karakter, tentukan nilai antara 0,0 dan 1,0.

  • Maximum Counts or Ratio of Alpha Chars: Jika jumlah huruf atau rasio huruf terhadap total karakter lebih dari nilai ini, sampel teks disaring.

    Untuk menyaring sampel teks berdasarkan jumlah huruf, tentukan nilai lebih dari 1. Untuk menyaring sampel teks berdasarkan rasio huruf terhadap total karakter, tentukan nilai antara 0,0 dan 1,0.

Tidak ada nilai default

Whether to Filter with AlphaNumeric Count or Ratio

Tidak

  • Minimum Counts or Ratio of AlphaNumeric Chars: Jika jumlah karakter alfanumerik atau rasio karakter alfanumerik terhadap total karakter kurang dari nilai ini, sampel teks disaring.

    Untuk menyaring sampel teks berdasarkan jumlah karakter alfanumerik, tentukan nilai lebih dari 1. Untuk menyaring sampel teks berdasarkan rasio karakter alfanumerik terhadap total karakter, tentukan nilai antara 0,0 dan 1,0.

  • Maximum Counts or Ratio of AlphaNumeric Chars: Jika jumlah karakter alfanumerik atau rasio karakter alfanumerik terhadap total karakter lebih dari nilai ini, sampel teks disaring.

    Untuk menyaring sampel teks berdasarkan jumlah karakter alfanumerik, tentukan nilai lebih dari 1. Untuk menyaring sampel teks berdasarkan rasio karakter alfanumerik terhadap total karakter, tentukan nilai antara 0,0 dan 1,0.

Tidak ada nilai default

Whether to Filter with the Ratio of the Number of alpha chars to the Number of Text Tokens

Tidak

  • Minimum Ratio of Alpha Chars to Text Tokens: Jika rasio huruf terhadap total token kurang dari nilai ini, sampel teks disaring. Komponen menggunakan model pythia-6.9b-deduped untuk membagi sampel teks menjadi token dan membagi jumlah huruf dengan total jumlah token untuk menghitung rasio.

  • Maximum Ratio of Alpha Chars to Text Tokens: Jika rasio huruf terhadap total token lebih dari nilai ini, sampel teks disaring. Komponen menggunakan model pythia-6.9b-deduped untuk membagi sampel teks menjadi token dan membagi jumlah huruf dengan total jumlah token untuk menghitung rasio.

Tidak ada nilai default

Whether to Filter with Separator Count

Tidak

  • Minimum Counts of Separators: Jika jumlah pemisah dalam sampel teks kurang dari nilai ini, sampel teks disaring.

  • Maximum Counts of Separators: Jika jumlah pemisah dalam sampel teks lebih dari nilai ini, sampel teks disaring.

Tidak ada nilai default

Siklus hidup tabel keluaran

Tidak

Nilainya adalah bilangan bulat positif. Satuan: hari. Nilai default: 28. Setelah siklus hidup default tabel berakhir, tabel sementara yang dihasilkan oleh komponen akan didaur ulang.

28

Tuning

Number of CPUs per instance of map task

Tidak

Jumlah CPU untuk setiap instance tugas map. Nilai valid: [50,800].

100

The memory size per instance of map task

Tidak

Ukuran memori untuk setiap instance tugas map. Satuan: MB. Nilai valid: [256,12288].

1024

The maximum size of input data for a map

Tidak

Jumlah maksimum data yang dapat diproses oleh setiap instance tugas map. Anda dapat menggunakan parameter ini untuk mengelola masukan sebuah map. Satuan: MB. Nilai valid: [1,Integer.MAX_VALUE].

256

Referensi

Untuk informasi lebih lanjut tentang Machine Learning Designer, lihat Ikhtisar Machine Learning Designer.