全部产品
Search
文档中心

Platform For AI:LLM-N-Gram Repetition Filter (DLC)

更新时间:Jun 22, 2025

Komponen LLM-N-Gram Repetition Filter (DLC) dari Platform for AI (PAI) digunakan untuk menyaring teks berdasarkan rasio pengulangan N-Gram tingkat karakter atau kata. File data Object Storage Service (OSS) harus dalam format JSON Lines dan memenuhi persyaratan berikut: Setiap baris dalam file adalah objek JSON yang valid, tetapi file secara keseluruhan bukan objek JSON yang valid. Untuk informasi lebih lanjut, lihat Contoh.

Sumber daya komputasi yang didukung

Deep Learning Containers (DLC)

Deskripsi algoritma

Komponen LLM-N-Gram Repetition Filter (DLC) memindahkan jendela N-karakter di seluruh teks untuk menghasilkan urutan N karakter atau kata, yang disebut N-gram. Komponen menghitung frekuensi setiap N-gram dan kemudian menghitung rasio pengulangan menggunakan rumus berikut: Frekuensi kumulatif N-gram yang muncul lebih dari sekali / Total frekuensi semua N-gram. Berdasarkan hasil ini, komponen menyaring teks sesuai dengan rasio pengulangan.

Jika N-gram adalah urutan kata, komponen mengonversi semua kata menjadi huruf kecil sebelum menghitung rasio pengulangan.

Konfigurasikan komponen

Di halaman pipeline Machine Learning Designer, konfigurasikan parameter dari komponen LLM-N-Gram Repetition Filter (DLC).

Tab

Parameter

Diperlukan

Deskripsi

Nilai default

Pengaturan Bidang

Bidang Proses Target

Ya

Nama bidang yang ingin Anda proses.

Tidak tersedia

Apakah akan Menyaring dengan Rasio Pengulangan N-Gram Tingkat Karakter

Tidak

Jika Anda memilih opsi ini, Anda harus mengonfigurasi parameter berikut:

  • Panjang N: panjang N-gram.

  • Nilai Minimum Rasio: Nilai valid: 0,0 hingga 1,0. Teks dengan rasio pengulangan lebih kecil dari nilai ini disaring.

  • Nilai Maksimum Rasio: Nilai valid: 0,0 hingga 1,0. Teks dengan rasio pengulangan lebih besar dari nilai ini disaring.

Tidak dipilih

Apakah akan Menyaring dengan Rasio Pengulangan N-Gram Tingkat Kata

Tidak

Jika Anda memilih opsi ini, Anda harus mengonfigurasi parameter berikut:

  • Panjang N: panjang N-gram.

  • Rasio Minimum: Nilai valid: 0,0 hingga 1,0. Teks dengan rasio pengulangan lebih kecil dari nilai ini disaring.

  • Rasio Maksimum: Nilai valid: 0,0 hingga 1,0. Teks dengan rasio pengulangan lebih besar dari nilai ini disaring.

Tidak dipilih

Direktori OSS untuk Menyimpan OutputData

Tidak

Direktori OSS tempat data yang dihasilkan disimpan. Jika Anda tidak menentukan parameter ini, jalur default ruang kerja digunakan.

Tidak tersedia

Pengaturan

Jumlah Proses

Tidak

Jumlah proses.

8

Pilih Grup Sumber Daya

Grup Sumber Daya Publik

Tidak

Tipe instans (CPU atau GPU), jumlah instans, dan virtual private cloud (VPC) yang ingin Anda gunakan.

Tidak tersedia

Grup sumber daya khusus

Tidak

Jumlah vCPU, memori, memori bersama, jumlah GPU, dan jumlah instans yang ingin Anda gunakan.

Tidak tersedia

Durasi Maksimum Berjalan

Tidak

Periode maksimum waktu komponen dapat berjalan. Jika periode ini terlampaui, tugas dihentikan.

Tidak tersedia