全部产品
Search
文档中心

Platform For AI:Filter Panjang LLM (DLC)

更新时间:Jun 22, 2025

Komponen Filter Panjang LLM (DLC) dari Platform for AI (PAI) digunakan untuk menyaring teks berdasarkan panjang teks, rata-rata panjang baris dalam teks, dan panjang baris maksimum. File data Object Storage Service (OSS) input harus dalam format JSON Lines, dengan setiap baris sebagai objek JSON yang valid. File tersebut terdiri dari beberapa baris objek JSON, tetapi bukan merupakan objek JSON yang valid secara keseluruhan. Untuk informasi lebih lanjut, lihat Contoh.

Sumber daya komputasi yang didukung

Deep Learning Containers (DLC)

Konfigurasikan komponen

Di halaman pipeline Machine Learning Designer, konfigurasikan parameter untuk komponen LLM-Length Filter (DLC).

Tab

Parameter

Diperlukan

Deskripsi

Nilai default

Pengaturan Bidang

Bidang Proses Target

Ya

Nama bidang yang ingin Anda proses.

Tidak tersedia

Apakah akan Menyaring dengan Panjang Teks

Tidak

Menentukan apakah akan menyaring teks berdasarkan panjang teks. Jika Anda memilih opsi ini, Anda harus mengonfigurasi parameter berikut:

  • Panjang Minimum: Teks dengan panjang kurang dari nilai ini disaring.

  • Panjang Maksimum: Teks dengan panjang lebih dari nilai ini disaring.

Tidak dipilih

Apakah akan Menyaring dengan Rata-rata Panjang Sampel

Tidak

Algoritma membagi teks berdasarkan jeda baris, menghitung rata-rata panjang baris teks, lalu menyaring teks berdasarkan rata-rata panjang baris teks. Jika Anda memilih opsi ini, Anda harus mengonfigurasi parameter berikut:

  • Rata-rata panjang minimum: Teks dengan rata-rata panjang baris kurang dari nilai ini disaring.

  • Rata-rata Panjang Maksimum: Teks dengan rata-rata panjang baris lebih dari nilai ini disaring.

Tidak dipilih

Apakah akan Menyaring dengan Panjang Baris Terpanjang dari Sampel

Tidak

Algoritma membagi teks berdasarkan jeda baris, menghitung panjang baris maksimum teks, dan menyaring teks berdasarkan panjang baris maksimum teks. Jika Anda memilih opsi ini, Anda harus mengonfigurasi parameter berikut:

  • Panjang minimum dari Baris Terpanjang: Teks dengan panjang baris maksimum kurang dari nilai ini disaring.

  • Panjang maksimum dari Baris Terpanjang: Teks dengan panjang baris maksimum lebih dari nilai ini disaring.

Tidak dipilih

Direktori OSS untuk Menyimpan OutputData

Tidak

Direktori OSS tempat data yang dihasilkan disimpan. Jika Anda tidak menentukan parameter ini, jalur default dari ruang kerja digunakan.

Tidak tersedia

Pengaturan

Jumlah Proses

Tidak

Jumlah proses.

8

Pilih Grup Sumber Daya

Grup Sumber Daya Publik

Tidak

Tipe instans (CPU atau GPU), jumlah instans, dan virtual private cloud (VPC) yang ingin Anda gunakan.

Tidak tersedia

Grup sumber daya khusus

Tidak

Jumlah vCPU, memori, memori bersama, jumlah GPU, dan jumlah instans yang ingin Anda gunakan.

Tidak tersedia

Durasi Maksimum Berjalan

Tidak

Periode waktu maksimum selama komponen dapat berjalan. Jika periode waktu ini terlampaui, tugas dihentikan.

Tidak tersedia