Komponen LLM-Clean Konten Khusus (DLC) dari Platform for AI (PAI) digunakan untuk menghapus URL dari teks, menghapus karakter berformat HTML, serta mem-parsing teks HTML. File data Object Storage Service (OSS) input harus dalam format JSON Lines dan memenuhi persyaratan berikut: Setiap baris dalam file adalah objek JSON yang valid, tetapi keseluruhan file bukan merupakan objek JSON yang valid. Untuk informasi lebih lanjut, lihat Contoh.
Sumber daya komputasi yang didukung
Deskripsi algoritma
Komponen LLM-Clean Konten Khusus (DLC) melakukan operasi berikut pada teks:
Hapus URL
Hapus karakter dari teks yang cocok dengan ekspresi reguler berikut:
r'(https?|http)?:\/\/[\w\.\/\?\=\&\%\-\_]+'.Hapus karakter berformat HTML dan parse teks HTML
Lakukan operasi berikut pada teks: ganti
'<li>'dengan'\n*', ganti'<ol>'dengan'\n*', hapus karakter'</li>'dan'</ol>', lalu parse teks HTML dan kembalikan hasilnya.
Contoh penghapusan URL dari teks:
Sebelum diproses
| Setelah diproses
|
Konfigurasikan komponen
Di halaman pipeline Machine Learning Designer, konfigurasikan parameter dari komponen LLM-Clean Special Content (DLC).
Tab | Parameter | Diperlukan | Deskripsi | Nilai default | |
Pengaturan Bidang | Bidang Proses Target | Ya | Nama bidang yang ingin Anda proses. | Tidak tersedia | |
Apakah akan menghapus tautan URL | Tidak | Menentukan apakah akan menghapus URL dari teks. | Terpilih | ||
Apakah akan menghapus karakter format html dan mem-parsing teks html | Tidak | Menentukan apakah akan menghapus karakter berformat HTML dan mem-parsing teks HTML. | Tidak terpilih | ||
Direktori OSS untuk Menyimpan OutputData | Tidak | Direktori OSS tempat data yang dihasilkan disimpan. Jika Anda tidak menentukan parameter ini, jalur default ruang kerja digunakan. | Tidak tersedia | ||
Penyetelan | Jumlah Proses | Tidak | Jumlah proses. | 8 | |
Pilih Grup Sumber Daya | Grup Sumber Daya Publik | Tidak | Tipe instans (CPU atau GPU), jumlah instans, dan virtual private cloud (VPC) yang ingin Anda gunakan. | Tidak tersedia | |
Grup sumber daya khusus | Tidak | Jumlah vCPU, memori, memori bersama, jumlah GPU, dan jumlah instans yang ingin Anda gunakan. | Tidak tersedia | ||
Durasi Maksimum Berjalan | Tidak | Periode maksimum waktu selama komponen dapat berjalan. Jika periode waktu ini terlampaui, pekerjaan dihentikan. | Tidak tersedia | ||

