All Products
Search
Document Center

Platform For AI:LLM-MD5 Deduplicator (MaxCompute)

Last Updated:Jul 02, 2025

Komponen LLM-MD5 Deduplicator (MaxCompute) dari Platform for AI (PAI) digunakan untuk menghitung nilai hash MD5 dari teks dan menghapus duplikat berdasarkan nilai hash tersebut. Komponen ini dapat digunakan selama pra-pemrosesan teks untuk model bahasa besar (LLMs).

Batasan

Komponen LLM-MD5 Deduplicator (MaxCompute) hanya mendukung sumber daya MaxCompute.

Algoritma

Algoritma menghitung nilai hash menggunakan metode hashlib.md5 dari teks input. Jika beberapa entri memiliki nilai hash yang sama, hanya satu entri yang dipertahankan.

Setelah algoritma menghapus karakter kosong di awal dan akhir teks, nilai hash akan dihitung ulang untuk entri tersebut. Karakter bersifat peka huruf besar/kecil.

Konfigurasikan komponen

Anda dapat mengonfigurasi parameter komponen LLM-MD5 Deduplicator (MaxCompute) di Machine Learning Designer. Tabel berikut menjelaskan parameter-parameter tersebut.

Tab

Parameter

Wajib

Deskripsi

Nilai default

Fields Setting

Select Target Column

Ya

Kolom-kolom yang ingin Anda proses.

Tidak ada nilai default

Siklus hidup tabel output

Tidak

Nilainya adalah bilangan bulat positif. Satuan: hari. Nilai default: 28. Setelah siklus hidup default tabel berakhir, tabel-tabel sementara yang dihasilkan oleh komponen akan didaur ulang.

28

Tuning

Number of CPUs per instance of map task

Tidak

Jumlah CPU untuk setiap instance tugas map. Nilai valid: 50 hingga 800.

100

The memory size per instance of map task

Tidak

Ukuran memori setiap instance tugas map. Satuan: MB. Nilai valid: 256 hingga 12288.

1024

The maximum size of input data for a map

Tidak

Jumlah maksimum data yang dapat diproses oleh setiap instance tugas map. Anda dapat menggunakan parameter ini untuk mengelola masukan sebuah map. Satuan: MB. Nilai valid: 1 hingga Integer.MAX_VALUE.

256

Referensi

Untuk informasi lebih lanjut tentang Machine Learning Designer, lihat Ikhtisar Machine Learning Designer.