全部产品
Search
文档中心

Platform For AI:LLM-Count Filter (DLC)

更新时间:Jun 22, 2025

Komponen LLM-Count Filter (DLC) dari Platform for AI (PAI) digunakan untuk menyaring teks berdasarkan rasio digit dan huruf. File data Object Storage Service (OSS) input harus dalam format JSON Lines, dengan setiap baris sebagai objek JSON yang valid. Namun, file tersebut secara keseluruhan bukan objek JSON yang valid. Untuk informasi lebih lanjut, lihat Contoh.

Sumber daya komputasi yang didukung

Deep Learning Containers (DLC)

Deskripsi algoritma

Komponen LLM-Count Filter (DLC) mendukung fitur berikut:

  • Menyaring teks berdasarkan jumlah atau rasio digit dan huruf.

    Algoritma menghitung jumlah digit dan huruf dalam teks dan menyaring teks berdasarkan nilai ambang batas.

  • Menyaring teks berdasarkan rasio huruf terhadap token teks.

    Algoritma membagi teks menjadi token menggunakan model pythia-6.9b-deduped, menghitung rasio digit dan huruf terhadap token, dan menyaring teks berdasarkan rasio tersebut.

Konfigurasikan komponen

Di halaman pipeline Machine Learning Designer, konfigurasikan parameter dari komponen LLM-Count Filtering (DLC).

Tab

Parameter

Diperlukan

Deskripsi

Nilai default

Pengaturan Bidang

Bidang Proses Target

Ya

Nama bidang yang ingin Anda proses.

Tidak tersedia

Apakah akan Menyaring dengan Jumlah atau Rasio Alfanumerik

Tidak

Menentukan apakah akan menyaring teks berdasarkan rasio digit dan huruf terhadap panjang teks. Jika Anda memilih opsi ini, Anda harus mengonfigurasi parameter berikut:

  • Jumlah Minimum atau Rasio Karakter Alfanumerik

  • Jumlah Maksimum atau Rasio Karakter Alfanumerik

Tidak dipilih

Apakah akan Menyaring dengan Rasio Jumlah Huruf Alfanumerik terhadap Jumlah Token Teks

Tidak

Algoritma membagi teks menjadi token menggunakan model pythia-6.9b-deduped, menghitung rasio digit dan huruf terhadap token, lalu menyaring teks berdasarkan rasio tersebut. Jika Anda memilih opsi ini, Anda harus mengonfigurasi parameter berikut:

  • Rasio Minimum Huruf Alfanumerik terhadap Token Teks

  • Rasio Maksimum Huruf Alfanumerik terhadap Token Teks

Tidak dipilih

Direktori OSS untuk Menyimpan OutputData

Tidak

Direktori OSS tempat data yang dihasilkan disimpan. Jika Anda tidak menentukan parameter ini, jalur default ruang kerja yang digunakan.

Tidak tersedia

Pengaturan

Jumlah Proses

Tidak

Jumlah proses.

8

Pilih Grup Sumber Daya

Grup Sumber Daya Publik

Tidak

Tipe instans (CPU atau GPU), jumlah instans, dan virtual private cloud (VPC) yang ingin Anda gunakan.

Tidak tersedia

Grup sumber daya khusus

Tidak

Jumlah vCPU, memori, memori bersama, jumlah GPU, dan jumlah instans yang ingin Anda gunakan.

Tidak tersedia

Durasi Maksimum Berjalan

Tidak

Periode maksimum waktu selama komponen dapat berjalan. Jika periode ini terlampaui, tugas dihentikan.

Tidak tersedia