全部产品
Search
文档中心

Platform For AI:LLM-Document Deduplicator (DLC)

更新时间:Jun 22, 2025

Komponen LLM-Document Deduplicator (DLC) dari Platform for AI (PAI) digunakan untuk menghapus duplikat teks menggunakan algoritma SimHash dalam menghitung kesamaan antar teks. File data Object Storage Service (OSS) yang diinput harus berformat JSON Lines dan memenuhi persyaratan berikut: setiap baris dalam file merupakan objek JSON yang valid, serta file terdiri dari beberapa baris objek JSON, tetapi bukan objek JSON tunggal yang valid. Untuk informasi lebih lanjut, lihat Contoh.

Sumber daya komputasi yang didukung

DLC

Konfigurasikan komponen

Di halaman pipeline Machine Learning Designer, konfigurasikan parameter untuk komponen LLM-Document Deduplicator (DLC).

Tab

Parameter

Diperlukan

Deskripsi

Nilai default

Pengaturan Bidang

Bidang Proses Target

Ya

Nama bidang yang ingin Anda proses.

Tidak tersedia

Pemisah Teks, default adalah spasi

Tidak

Algoritma membagi teks menjadi daftar kata berdasarkan pemisah. Secara default, spasi digunakan. Jika Anda meninggalkan parameter ini kosong, algoritma tidak akan membagi teks. Dalam hal ini, algoritma menghapus duplikat teks berdasarkan karakter tunggal. Lingkupi pemisah dengan menggunakan tanda kutip ganda ("").

" "

window_size

Ya

Panjang substring yang membentuk fitur dokumen. Sebagai contoh, jika konten dokumen adalah "the cute alibaba mascot" dan Anda menetapkan parameter window_size ke 2, substringnya adalah: ["the cute", "cute alibaba", "alibaba mascot"]. Algoritma kemudian menghitung nilai SimHash teks berdasarkan nilai hash substring. Nilai window_size mempengaruhi granularitas nilai SimHash. Nilai window_size yang kecil dapat menghasilkan fitur teks yang berbeda, tetapi nilai hash lebih rentan terhadap operasi edit. Nilai window_size yang besar dapat menggunakan konteks yang lebih panjang sebagai input, tetapi mungkin mengabaikan detail.

6

num_blocks

Ya

num_blocks menentukan jumlah blok ke mana nilai SimHash dibagi. Saat algoritma memeriksa kesamaan dokumen, nilai SimHash dibagi menjadi beberapa blok. Sebagai contoh, jika nilai SimHash adalah integer 64-bit dan Anda menetapkan parameter num_blocks ke 4, nilai SimHash dibagi menjadi 4 blok terpisah 16-bit. Sejumlah besar blok menghasilkan perbandingan kesamaan yang lebih halus. Ini dapat mengurangi positif palsu yang mengenali teks tidak terkait sebagai serupa, tetapi dapat meningkatkan negatif palsu yang gagal mengenali teks serupa. Dalam banyak kasus, nilai num_blocks harus lebih kecil dari jumlah bit dalam nilai SimHash.

6

hamming_distance

Ya

Ambang batas jarak Hamming antara dua nilai SimHash, yang digunakan untuk menentukan apakah dua teks serupa. Sebagai contoh, jika jarak Hamming antara nilai SimHash A dan B, yaitu jumlah bit berbeda antara nilai SimHash A dan B, kurang dari atau sama dengan nilai hamming_distance, algoritma mengenali A dan B sebagai serupa. Jika Anda menetapkan parameter hamming_distance ke nilai kecil, algoritma hanya mengenali teks yang sangat mirip sebagai duplikat, sehingga menyebabkan kegagalan untuk sepenuhnya mengenali beberapa teks dengan konten duplikat. Jika Anda menetapkan parameter hamming_distance ke nilai besar, algoritma mengenali lebih banyak teks serupa, tetapi ini dapat meningkatkan kemungkinan positif palsu. Dalam banyak kasus, kami sarankan Anda menetapkan parameter ini ke 3, 4, atau 5.

4

Direktori OSS untuk Menyimpan OutputData

Tidak

Direktori OSS tempat data yang dihasilkan disimpan. Jika Anda tidak menentukan parameter ini, jalur default ruang kerja digunakan.

Tidak tersedia

Pengaturan

Jumlah Proses

Tidak

Jumlah proses.

8

Pilih Grup Sumber Daya

Grup Sumber Daya Publik

Tidak

Tipe instans (CPU atau GPU), jumlah instans, dan virtual private cloud (VPC) yang ingin Anda gunakan.

Tidak tersedia

Grup sumber daya khusus

Tidak

Jumlah vCPU, memori, memori bersama, jumlah GPU, dan jumlah instans yang ingin Anda gunakan.

Tidak tersedia

Durasi Maksimum Berjalan

Tidak

Periode waktu maksimum selama komponen dapat berjalan. Jika periode waktu ini dilampaui, pekerjaan dihentikan.

Tidak tersedia