全部产品
Search
文档中心

Platform For AI:LLM-Special Characters Ratio Filter (DLC)

更新时间:Jun 22, 2025

Komponen LLM-Special Characters Ratio Filter (DLC) dari Platform for AI (PAI) digunakan untuk menyaring teks berdasarkan rasio karakter khusus. File input Object Storage Service (OSS) harus dalam format JSON Lines dengan setiap baris sebagai objek JSON yang valid, tetapi file secara keseluruhan bukan objek JSON yang valid. Untuk detail lebih lanjut, lihat Contoh.

Sumber daya komputasi yang didukung

Deep Learning Containers (DLC)

Deskripsi algoritma

Algoritma ini memindai setiap karakter dalam teks dan menghitung rasio jumlah karakter khusus terhadap panjang teks.

Karakter khusus meliputi tanda baca (string.punctuation), digit (string.digits), spasi (string.whitespace), emoji, dan karakter khusus lainnya.

Konfigurasikan komponen

Di halaman pipeline Machine Learning Designer, konfigurasikan parameter komponen LLM-Special Characters Ratio Filter (DLC).

Tab

Parameter

Diperlukan

Deskripsi

Nilai default

Pengaturan Bidang

Bidang Proses Target

Ya

Nama bidang yang ingin Anda proses.

Tidak tersedia

Rasio Minimum

Tidak

Jika rasio jumlah karakter khusus terhadap panjang teks lebih kecil dari nilai ini, teks akan disaring. Nilainya bertipe FLOAT.

0

Rasio Maksimum

Ya

Jika rasio jumlah karakter khusus terhadap panjang teks lebih besar dari nilai ini, teks akan disaring. Nilainya bertipe FLOAT.

Tidak tersedia

Direktori OSS untuk Menyimpan OutputData

Tidak

Direktori OSS tempat data yang dihasilkan disimpan. Jika Anda tidak menentukan parameter ini, jalur default ruang kerja yang digunakan.

Tidak tersedia

Penyetelan

Jumlah Proses

Tidak

Jumlah proses.

8

Pilih Grup Sumber Daya

Grup Sumber Daya Publik

Tidak

Tipe instans (CPU atau GPU), jumlah instans, dan virtual private cloud (VPC) yang ingin Anda gunakan.

Tidak tersedia

Grup sumber daya khusus

Tidak

Jumlah vCPU, memori, memori bersama, jumlah GPU, dan jumlah instans yang ingin Anda gunakan.

Tidak tersedia

Durasi Maksimum Berjalan

Tidak

Periode waktu maksimum selama komponen dapat berjalan. Jika periode waktu ini terlampaui, pekerjaan dihentikan.

Tidak tersedia