全部产品
Search
文档中心

Platform For AI:Informasi Hak Cipta LLM-Clean (DLC)

更新时间:Jun 22, 2025

Komponen Informasi Hak Cipta LLM-Clean (DLC) dari Platform for AI (PAI) digunakan untuk menghapus informasi hak cipta dari teks, seperti header komentar hak cipta dalam kode. File input Object Storage Service (OSS) harus berformat JSON Lines dan memenuhi persyaratan berikut: setiap baris adalah objek JSON yang valid, tetapi file secara keseluruhan bukan objek JSON yang valid. Untuk detail lebih lanjut, lihat Contoh.

Sumber daya komputasi yang didukung

Deep Learning Containers (DLC)

Deskripsi algoritma

Algoritma melakukan langkah-langkah berikut untuk menghapus informasi hak cipta dari teks:

  1. Periksa apakah teks mencakup string yang cocok dengan ekspresi reguler '/\\*[^*]*\\*+(?:[^/*][^*]*\\*+)*/'.

    • Jika string cocok dengan ekspresi reguler, algoritma memeriksa apakah string tersebut berisi bidang copyright. Jika ya, algoritma menghapus string tersebut dan mengembalikan hasilnya. Jika tidak, algoritma langsung mengembalikan hasilnya.

    • Jika tidak ada string yang cocok dengan ekspresi reguler, algoritma melanjutkan ke Langkah 2.

  2. Pisahkan teks berdasarkan jeda baris. Algoritma melintasi teks per baris untuk memeriksa apakah suatu baris dimulai dengan salah satu simbol komentar berikut: //, #, atau --. Jika ditemukan baris yang memenuhi kondisi ini, algoritma melanjutkan melintasi teks hingga akhir komentar. Semua baris komentar berturut-turut dihapus dari teks.

Algoritma hanya memeriksa bagian header dari teks. Contoh:

Sebelum diproses

image.png

Setelah diproses

image.png

Konfigurasikan komponen

Di halaman pipeline Machine Learning Designer, konfigurasikan parameter komponen LLM-Clean Copyright Information (DLC).

Tab

Parameter

Wajib

Deskripsi

Nilai default

Pengaturan Bidang

Bidang Proses Target

Ya

Nama bidang yang ingin Anda proses.

Tidak tersedia

Direktori OSS untuk Menyimpan OutputData

Tidak

Direktori OSS tempat data yang dihasilkan disimpan. Jika Anda tidak menentukan parameter ini, jalur default dari ruang kerja digunakan.

Tidak tersedia

Pengaturan

Jumlah Proses

Tidak

Jumlah proses.

8

Pilih Grup Sumber Daya

Grup Sumber Daya Publik

Tidak

Tipe instans (CPU atau GPU), jumlah instans, dan virtual private cloud (VPC) yang ingin Anda gunakan.

Tidak tersedia

Grup sumber daya khusus

Tidak

Jumlah vCPU, memori, memori bersama, jumlah GPU, dan jumlah instans yang ingin Anda gunakan.

Tidak tersedia

Durasi Maksimum Berjalan

Tidak

Periode maksimum waktu selama komponen dapat berjalan. Jika periode ini terlampaui, tugas akan dihentikan.

Tidak tersedia