Gunakan Strip LaTeX Bibliography untuk membersihkan data pelatihan LLM di MaxCompute-Platform untuk AI-Alibaba Cloud

Gunakan komponen LLM-LaTeX Hapus Bibliografi (MaxCompute) untuk memproses data teks TeX yang digunakan dalam melatih model bahasa besar (LLMs). Komponen ini menghapus bagian bibliografi di akhir dokumen LaTeX.

Sumber daya komputasi yang didukung

MaxCompute

Algoritma

Komponen LLM-LaTeX Hapus Bibliografi (MaxCompute) mengekstrak semua string yang sesuai dengan ekspresi reguler r'(\\appendix|\\begin\{references\}|\\begin\{REFERENCES\}|\\begin\{thebibliography\}|\\bibliography\{.*\}).*$' dan menggantinya dengan string kosong. Pola kecocokan ganda dipisahkan oleh tanda batang vertikal (|).

Contoh:

Sebelum pemrosesan

Setelah pemrosesan

Konfigurasikan komponen

Konfigurasikan parameter komponen LLM-LaTeX Remove Bibliography (MaxCompute) pada halaman pipeline Machine Learning Designer di konsol Platform for AI (PAI). Tabel berikut menjelaskan parameter-parameter tersebut.

Tab	Parameter	Deskripsi
Pengaturan Kolom	Pilih Kolom Target	Kolom-kolom yang ingin diproses. Anda dapat memilih beberapa kolom.
Pengaturan Kolom	Daur Hidup Tabel Keluaran	Nilai harus bilangan bulat positif. Satuan: hari. Nilai default: 28. Setelah daur hidup tabel berakhir, tabel-tabel sementara yang dihasilkan oleh komponen akan didaur ulang.
Tuning	Jumlah CPU per Instance Tugas Map	Jumlah CPU untuk setiap instance tugas map. Nilai valid: 50 hingga 800. Nilai default: 100.
	Ukuran Memori per Instance Tugas Map	Ukuran memori untuk setiap instance tugas map. Nilai valid: 256 hingga 12.288. Nilai default: 1.024. Satuan: MB.
	Ukuran Maksimum Data Masukan untuk Sebuah Map	Jumlah maksimum data yang dapat diproses oleh setiap instance tugas map. Nilai valid: 1 hingga Integer.MAX_VALUE. Nilai default: 256. Satuan: MB. Gunakan parameter ini untuk mengontrol ukuran data masukan.