Komponen Filter Panjang LLM (DLC) dari Platform for AI (PAI) digunakan untuk menyaring teks berdasarkan panjang teks, rata-rata panjang baris dalam teks, dan panjang baris maksimum. File data Object Storage Service (OSS) input harus dalam format JSON Lines, dengan setiap baris sebagai objek JSON yang valid. File tersebut terdiri dari beberapa baris objek JSON, tetapi bukan merupakan objek JSON yang valid secara keseluruhan. Untuk informasi lebih lanjut, lihat Contoh.
Sumber daya komputasi yang didukung
Konfigurasikan komponen
Di halaman pipeline Machine Learning Designer, konfigurasikan parameter untuk komponen LLM-Length Filter (DLC).
Tab | Parameter | Diperlukan | Deskripsi | Nilai default | |
Pengaturan Bidang | Bidang Proses Target | Ya | Nama bidang yang ingin Anda proses. | Tidak tersedia | |
Apakah akan Menyaring dengan Panjang Teks | Tidak | Menentukan apakah akan menyaring teks berdasarkan panjang teks. Jika Anda memilih opsi ini, Anda harus mengonfigurasi parameter berikut:
| Tidak dipilih | ||
Apakah akan Menyaring dengan Rata-rata Panjang Sampel | Tidak | Algoritma membagi teks berdasarkan jeda baris, menghitung rata-rata panjang baris teks, lalu menyaring teks berdasarkan rata-rata panjang baris teks. Jika Anda memilih opsi ini, Anda harus mengonfigurasi parameter berikut:
| Tidak dipilih | ||
Apakah akan Menyaring dengan Panjang Baris Terpanjang dari Sampel | Tidak | Algoritma membagi teks berdasarkan jeda baris, menghitung panjang baris maksimum teks, dan menyaring teks berdasarkan panjang baris maksimum teks. Jika Anda memilih opsi ini, Anda harus mengonfigurasi parameter berikut:
| Tidak dipilih | ||
Direktori OSS untuk Menyimpan OutputData | Tidak | Direktori OSS tempat data yang dihasilkan disimpan. Jika Anda tidak menentukan parameter ini, jalur default dari ruang kerja digunakan. | Tidak tersedia | ||
Pengaturan | Jumlah Proses | Tidak | Jumlah proses. | 8 | |
Pilih Grup Sumber Daya | Grup Sumber Daya Publik | Tidak | Tipe instans (CPU atau GPU), jumlah instans, dan virtual private cloud (VPC) yang ingin Anda gunakan. | Tidak tersedia | |
Grup sumber daya khusus | Tidak | Jumlah vCPU, memori, memori bersama, jumlah GPU, dan jumlah instans yang ingin Anda gunakan. | Tidak tersedia | ||
Durasi Maksimum Berjalan | Tidak | Periode waktu maksimum selama komponen dapat berjalan. Jika periode waktu ini terlampaui, tugas dihentikan. | Tidak tersedia | ||