Komponen LLM-LaTeX Remove Header (MaxCompute) digunakan untuk memproses data teks TeX yang digunakan dalam melatih model bahasa besar (LLMs). Komponen ini menghapus konten sebelum bagian pertama yang sesuai dengan format <section-type>[optional-args]{name}.
Sumber daya komputasi yang didukung
Algoritma
Komponen LLM-LaTeX Remove Header (MaxCompute) menggunakan ekspresi reguler berikut untuk menemukan bagian dalam teks LaTeX: r'^(.*?)(\\\bchapter\b\*?(?:\[(.*?)\])?\{(.*?)\}|\\\bpart\b\*?(?:\[(.*?)\])?\{(.*?)\}|\\\bsection\b\*?(?:\[(.*?)\])?\{(.*?)\}|\\\bsubsection\b\*?(?:\[(.*?)\])?\{(.*?)\}|\\\bsubsubsection\b\*?(?:\[(.*?)\])?\{(.*?)\}|\\\bparagraph\b\*?(?:\[(.*?)\])?\{(.*?)\}|\\\bsubparagraph\b\*?(?:\[(.*?)\])?\{(.*?)\})'. Pola pencocokan dipisahkan oleh tanda batang vertikal (|).
Komponen ini menghapus semua konten sebelum bagian pertama yang ditemukan. Baris bagian dan konten berikutnya dipertahankan. Contoh:
Sebelum pemrosesan
| Setelah pemrosesan
|
Konfigurasikan komponen
Konfigurasikan parameter komponen LLM-LaTeX Remove Header (MaxCompute) di halaman pipeline Machine Learning Designer pada konsol Platform for AI (PAI). Tabel berikut menjelaskan parameter tersebut.
Tab | Parameter | Deskripsi |
Pengaturan Kolom | Pilih Kolom Target | Kolom yang ingin diproses. Anda dapat memilih beberapa kolom. |
Apakah Menghapus Sampel Tanpa Header | Menentukan apakah sampel teks tanpa bagian yang ditemukan akan dihapus. | |
Daur Hidup Tabel Keluaran | Nilainya adalah bilangan bulat positif. Satuan: hari. Nilai default: 28. Setelah daur hidup tabel berakhir, tabel sementara yang dihasilkan oleh komponen akan didaur ulang. | |
Tuning | Jumlah CPU per Instance Tugas Map | Jumlah CPU untuk setiap instance tugas map. Nilai valid: 50 hingga 800. Nilai default: 100. |
Ukuran Memori per Instance Tugas Map | Ukuran memori untuk setiap instance tugas map. Nilai valid: 256 hingga 12.288. Nilai default: 1.024. Satuan: MB. | |
Ukuran Maksimum Data Masukan untuk Sebuah Map | Jumlah maksimum data yang dapat diproses oleh setiap instance tugas map. Nilai valid: 1 hingga Integer.MAX_VALUE. Nilai default: 256. Satuan: MB. Anda dapat menggunakan parameter ini untuk mengontrol ukuran data masukan. |

