Komponen LLM-MD5 Deduplicator (MaxCompute) dari Platform for AI (PAI) digunakan untuk menghitung nilai hash MD5 dari teks dan menghapus duplikat berdasarkan nilai hash tersebut. Komponen ini dapat digunakan selama pra-pemrosesan teks untuk model bahasa besar (LLMs).
Batasan
Komponen LLM-MD5 Deduplicator (MaxCompute) hanya mendukung sumber daya MaxCompute.
Algoritma
Algoritma menghitung nilai hash menggunakan metode hashlib.md5 dari teks input. Jika beberapa entri memiliki nilai hash yang sama, hanya satu entri yang dipertahankan.
Setelah algoritma menghapus karakter kosong di awal dan akhir teks, nilai hash akan dihitung ulang untuk entri tersebut. Karakter bersifat peka huruf besar/kecil.
Konfigurasikan komponen
Anda dapat mengonfigurasi parameter komponen LLM-MD5 Deduplicator (MaxCompute) di Machine Learning Designer. Tabel berikut menjelaskan parameter-parameter tersebut.
Tab | Parameter | Wajib | Deskripsi | Nilai default |
Fields Setting | Select Target Column | Ya | Kolom-kolom yang ingin Anda proses. | Tidak ada nilai default |
Siklus hidup tabel output | Tidak | Nilainya adalah bilangan bulat positif. Satuan: hari. Nilai default: 28. Setelah siklus hidup default tabel berakhir, tabel-tabel sementara yang dihasilkan oleh komponen akan didaur ulang. | 28 | |
Tuning | Number of CPUs per instance of map task | Tidak | Jumlah CPU untuk setiap instance tugas map. Nilai valid: 50 hingga 800. | 100 |
The memory size per instance of map task | Tidak | Ukuran memori setiap instance tugas map. Satuan: MB. Nilai valid: 256 hingga 12288. | 1024 | |
The maximum size of input data for a map | Tidak | Jumlah maksimum data yang dapat diproses oleh setiap instance tugas map. Anda dapat menggunakan parameter ini untuk mengelola masukan sebuah map. Satuan: MB. Nilai valid: 1 hingga Integer.MAX_VALUE. | 256 |
Referensi
Untuk informasi lebih lanjut tentang Machine Learning Designer, lihat Ikhtisar Machine Learning Designer.