全部产品
Search
文档中心

Platform For AI:LLM-N-Gram Repetition Filter (MaxCompute)

更新时间:Jul 02, 2025

Komponen LLM-N-Gram Repetition Filter (MaxCompute) dari Platform for AI (PAI) digunakan untuk memproses data teks yang diperlukan dalam melatih model bahasa besar (LLMs). Komponen ini menyaring teks berdasarkan rasio pengulangan N-Gram pada tingkat karakter atau kata.

Batasan

Komponen LLM-N-Gram Repetition Filter (MaxCompute) hanya dapat digunakan dengan sumber daya MaxCompute.

Deskripsi algoritma

Komponen LLM-N-Gram Repetition Filter (MaxCompute) memindahkan jendela N-karakter di seluruh teks untuk menghasilkan urutan N karakter atau kata, yang disebut N-gram. Frekuensi setiap N-gram dihitung, lalu rasio pengulangan dihitung menggunakan rumus berikut: Frekuensi kumulatif N-gram yang muncul lebih dari sekali/Total frekuensi semua N-gram. Rasio ini digunakan untuk menyaring teks.

Jika N-gram adalah urutan kata, semua kata dikonversi menjadi huruf kecil sebelum perhitungan rasio pengulangan.

Konfigurasikan komponen

Parameter komponen LLM-N-Gram Repetition Filter (MaxCompute) dapat dikonfigurasi di Machine Learning Designer. Parameter tersebut dijelaskan dalam tabel berikut.

Tab

Parameter

Diperlukan

Deskripsi

Nilai default

Fields Setting

Select Target Column

Ya

Kolom yang ingin Anda proses. Anda dapat memilih beberapa kolom.

Tidak tersedia

Whether to Filter with Character-level N-Gram Repetition Ratio

Tidak

  • Length N: panjang N-gram.

  • Minimum Ratio Value: Nilai valid: 0,0 hingga 1,0. Teks dengan rasio pengulangan lebih kecil dari nilai ini disaring.

  • Maximum Ratio Value: Nilai valid: 0,0 hingga 1,0. Teks dengan rasio pengulangan lebih besar dari nilai ini disaring.

Tidak tersedia

Whether to Filter with Word-level N-Gram Repetition Ratio

Tidak

  • Text Separator: pemisah yang digunakan untuk membagi teks menjadi kata-kata. Nilai default: spasi (" "). Letakkan pemisah dalam tanda kutip ganda ("").

  • Length N: panjang N-gram.

  • Minimum Ratio Value: Nilai valid: 0,0 hingga 1,0. Teks dengan rasio pengulangan lebih kecil dari nilai ini disaring.

  • Maximum Ratio Value: Nilai valid: 0,0 hingga 1,0. Teks dengan rasio pengulangan lebih besar dari nilai ini disaring.

Tidak tersedia

Siklus hidup tabel keluaran

Tidak

Nilainya harus bilangan bulat positif. Satuan: hari. Nilai default: 28. Tabel sementara yang dihasilkan oleh komponen ini didaur ulang setelah 28 hari.

28

Tuning

Number of CPUs per instance of map task

Tidak

Jumlah CPU untuk setiap instance tugas peta. Nilai valid: 50 hingga 800.

100

The memory size per instance of map task

Tidak

Ukuran memori setiap instance tugas peta. Satuan: MB. Nilai valid: 256 hingga 12288.

1024

The maximum size of input data for a map

Tidak

Jumlah maksimum data yang dapat diproses setiap instance tugas peta. Anda dapat menggunakan parameter ini untuk mengontrol ukuran data masukan. Satuan: MB. Nilai valid: 1 hingga Integer.MAX_VALUE.

256

Referensi

Untuk informasi lebih lanjut tentang komponen Machine Learning Designer, lihat Ikhtisar Machine Learning Designer.