Komponen LLM-MD5 Deduplicator (DLC) dari Platform for AI (PAI) digunakan untuk menghitung nilai hash MD5 dari teks dan menghapus duplikat berdasarkan nilai hash tersebut. File data Object Storage Service (OSS) input harus dalam format JSON Lines dengan setiap baris sebagai objek JSON yang valid, tetapi file secara keseluruhan bukan objek JSON yang valid. Untuk informasi lebih lanjut, lihat Contoh.
Sumber daya komputasi yang didukung
Deskripsi algoritma
Algoritma menghitung nilai hash menggunakan metode hash
hashlib.md5pada teks input. Jika beberapa entri memiliki nilai hash yang sama, hanya satu entri yang dipertahankan.Algoritma menghitung nilai hash setelah menghapus karakter kosong di awal dan akhir teks. Karakter dalam teks bersifat peka huruf besar/kecil.
Konfigurasikan komponen
Pada halaman pipeline Machine Learning Designer, konfigurasikan parameter komponen LLM-MD5 Deduplicator (DLC).
Tab | Parameter | Diperlukan | Deskripsi | Nilai default | |
Pengaturan Bidang | Bidang Proses Target | Ya | Nama bidang yang ingin Anda proses. | Tidak tersedia | |
Direktori OSS untuk Menyimpan OutputData | Tidak | Direktori OSS tempat data yang dihasilkan disimpan. Jika Anda tidak menentukan parameter ini, jalur default ruang kerja digunakan. | Tidak tersedia | ||
Pengaturan | Jumlah Proses | Tidak | Jumlah proses. | 8 | |
Pilih Grup Sumber Daya | Grup Sumber Daya Publik | Tidak | Tipe instans (CPU atau GPU), jumlah instans, dan virtual private cloud (VPC) yang ingin Anda gunakan. | Tidak tersedia | |
Grup sumber daya khusus | Tidak | Jumlah vCPU, memori, memori bersama, jumlah GPU, dan jumlah instans yang ingin Anda gunakan. | Tidak tersedia | ||
Durasi Maksimum Berjalan | Tidak | Periode maksimum waktu selama komponen dapat berjalan. Jika periode ini terlampaui, tugas dihentikan. | Tidak tersedia | ||