全部产品
Search
文档中心

Platform For AI:Informasi Hak Cipta LLM-Bersih (MaxCompute)

更新时间:Jun 22, 2025

Komponen Informasi Hak Cipta LLM-Bersih dari Platform for AI (PAI) digunakan untuk menghapus informasi hak cipta dari teks, seperti header komentar hak cipta dalam kode. Komponen ini dapat digunakan selama pra-pemrosesan teks model bahasa besar (LLM).

Sumber daya komputasi yang didukung

MaxCompute

Deskripsi algoritma

Algoritma melakukan langkah-langkah berikut untuk menghapus informasi hak cipta dari teks:

  1. Memeriksa apakah teks mencakup string yang sesuai dengan ekspresi reguler '/\\*[^*]*\\*+(?:[^/*][^*]*\\*+)*/'.

    • Jika string yang sesuai ditemukan, algoritma memeriksa apakah string tersebut mengandung bidang copyright. Jika string mengandung bidang tersebut, algoritma menghapus string dan mengembalikan hasilnya. Jika tidak, algoritma langsung mengembalikan hasilnya.

    • Jika ekspresi reguler tidak cocok, lanjutkan ke langkah 2.

  2. Membagi teks menggunakan pemisah baris baru. Algoritma melintasi teks per baris untuk memeriksa apakah baris dimulai dengan karakter komentar berikut: //, #, atau --. Jika baris yang memenuhi kondisi ditemukan, algoritma terus melintasi teks hingga simbol komentar berakhir. Baris komentar berturut-turut dihapus.

Algoritma hanya memeriksa bagian header dari teks. Contoh:

Sebelum diproses

image.png

Setelah diproses

image.png

Konfigurasikan komponen

Tambahkan komponen LLM-Clean Copyright Information (MaxCompute) pada halaman pipeline Machine Learning Designer dan konfigurasikan parameter berikut.

Kategori

Parameter

Nilai default

Deskripsi

Fields Setting

Select Target Column

Tidak ada

Kolom yang ingin Anda proses. Anda dapat memilih beberapa kolom.

Siklus hidup tabel keluaran

28

Nilainya adalah bilangan bulat positif. Satuan: hari. Nilai default: 28. Setelah siklus hidup default tabel berakhir, tabel sementara yang dihasilkan oleh komponen akan didaur ulang.

Tuning

Number of CPUs per instance of map task

100

Jumlah CPU untuk setiap instance tugas map. Nilai valid: 50 hingga 800.

The memory size per instance of map task

1.024

Ukuran memori setiap instance tugas map. Satuan: MB. Nilai valid: 256 hingga 12.288.

The maximum size of input data for a map

256

Jumlah maksimum data yang dapat diproses oleh setiap instance tugas map. Anda dapat mengontrol input map menggunakan parameter ini. Satuan: MB. Nilai valid: 1 hingga Integer.MAX_VALUE.