全部产品
Search
文档中心

Platform For AI:LLM-Clean Konten Khusus (DLC)

更新时间:Jun 22, 2025

Komponen LLM-Clean Konten Khusus (DLC) dari Platform for AI (PAI) digunakan untuk menghapus URL dari teks, menghapus karakter berformat HTML, serta mem-parsing teks HTML. File data Object Storage Service (OSS) input harus dalam format JSON Lines dan memenuhi persyaratan berikut: Setiap baris dalam file adalah objek JSON yang valid, tetapi keseluruhan file bukan merupakan objek JSON yang valid. Untuk informasi lebih lanjut, lihat Contoh.

Sumber daya komputasi yang didukung

Deep Learning Containers (DLC)

Deskripsi algoritma

Komponen LLM-Clean Konten Khusus (DLC) melakukan operasi berikut pada teks:

  • Hapus URL

    Hapus karakter dari teks yang cocok dengan ekspresi reguler berikut: r'(https?|http)?:\/\/[\w\.\/\?\=\&\%\-\_]+'.

  • Hapus karakter berformat HTML dan parse teks HTML

    Lakukan operasi berikut pada teks: ganti '<li>' dengan '\n*', ganti '<ol>' dengan '\n*', hapus karakter '</li>' dan '</ol>', lalu parse teks HTML dan kembalikan hasilnya.

Contoh penghapusan URL dari teks:

Sebelum diproses

image

Setelah diproses

image

Konfigurasikan komponen

Di halaman pipeline Machine Learning Designer, konfigurasikan parameter dari komponen LLM-Clean Special Content (DLC).

Tab

Parameter

Diperlukan

Deskripsi

Nilai default

Pengaturan Bidang

Bidang Proses Target

Ya

Nama bidang yang ingin Anda proses.

Tidak tersedia

Apakah akan menghapus tautan URL

Tidak

Menentukan apakah akan menghapus URL dari teks.

Terpilih

Apakah akan menghapus karakter format html dan mem-parsing teks html

Tidak

Menentukan apakah akan menghapus karakter berformat HTML dan mem-parsing teks HTML.

Tidak terpilih

Direktori OSS untuk Menyimpan OutputData

Tidak

Direktori OSS tempat data yang dihasilkan disimpan. Jika Anda tidak menentukan parameter ini, jalur default ruang kerja digunakan.

Tidak tersedia

Penyetelan

Jumlah Proses

Tidak

Jumlah proses.

8

Pilih Grup Sumber Daya

Grup Sumber Daya Publik

Tidak

Tipe instans (CPU atau GPU), jumlah instans, dan virtual private cloud (VPC) yang ingin Anda gunakan.

Tidak tersedia

Grup sumber daya khusus

Tidak

Jumlah vCPU, memori, memori bersama, jumlah GPU, dan jumlah instans yang ingin Anda gunakan.

Tidak tersedia

Durasi Maksimum Berjalan

Tidak

Periode maksimum waktu selama komponen dapat berjalan. Jika periode waktu ini terlampaui, pekerjaan dihentikan.

Tidak tersedia