全部产品
Search
文档中心

Platform For AI:LLM-LaTeX Remove Header (MaxCompute)

更新时间:Jun 22, 2025

Komponen LLM-LaTeX Remove Header (MaxCompute) digunakan untuk memproses data teks TeX yang digunakan dalam melatih model bahasa besar (LLMs). Komponen ini menghapus konten sebelum bagian pertama yang sesuai dengan format <section-type>[optional-args]{name}.

Sumber daya komputasi yang didukung

MaxCompute

Algoritma

Komponen LLM-LaTeX Remove Header (MaxCompute) menggunakan ekspresi reguler berikut untuk menemukan bagian dalam teks LaTeX: r'^(.*?)(\\\bchapter\b\*?(?:\[(.*?)\])?\{(.*?)\}|\\\bpart\b\*?(?:\[(.*?)\])?\{(.*?)\}|\\\bsection\b\*?(?:\[(.*?)\])?\{(.*?)\}|\\\bsubsection\b\*?(?:\[(.*?)\])?\{(.*?)\}|\\\bsubsubsection\b\*?(?:\[(.*?)\])?\{(.*?)\}|\\\bparagraph\b\*?(?:\[(.*?)\])?\{(.*?)\}|\\\bsubparagraph\b\*?(?:\[(.*?)\])?\{(.*?)\})'. Pola pencocokan dipisahkan oleh tanda batang vertikal (|).

Komponen ini menghapus semua konten sebelum bagian pertama yang ditemukan. Baris bagian dan konten berikutnya dipertahankan. Contoh:

Sebelum pemrosesan

image

Setelah pemrosesan

image

Konfigurasikan komponen

Konfigurasikan parameter komponen LLM-LaTeX Remove Header (MaxCompute) di halaman pipeline Machine Learning Designer pada konsol Platform for AI (PAI). Tabel berikut menjelaskan parameter tersebut.

Tab

Parameter

Deskripsi

Pengaturan Kolom

Pilih Kolom Target

Kolom yang ingin diproses. Anda dapat memilih beberapa kolom.

Apakah Menghapus Sampel Tanpa Header

Menentukan apakah sampel teks tanpa bagian yang ditemukan akan dihapus.

Daur Hidup Tabel Keluaran

Nilainya adalah bilangan bulat positif. Satuan: hari. Nilai default: 28. Setelah daur hidup tabel berakhir, tabel sementara yang dihasilkan oleh komponen akan didaur ulang.

Tuning

Jumlah CPU per Instance Tugas Map

Jumlah CPU untuk setiap instance tugas map. Nilai valid: 50 hingga 800. Nilai default: 100.

Ukuran Memori per Instance Tugas Map

Ukuran memori untuk setiap instance tugas map. Nilai valid: 256 hingga 12.288. Nilai default: 1.024. Satuan: MB.

Ukuran Maksimum Data Masukan untuk Sebuah Map

Jumlah maksimum data yang dapat diproses oleh setiap instance tugas map. Nilai valid: 1 hingga Integer.MAX_VALUE. Nilai default: 256. Satuan: MB.

Anda dapat menggunakan parameter ini untuk mengontrol ukuran data masukan.