全部产品
Search
文档中心

Platform For AI:LLM-LaTeX Hapus Komentar (MaxCompute)

更新时间:Jun 22, 2025

Gunakan komponen LLM-LaTeX Hapus Komentar (MaxCompute) untuk memproses data teks TeX yang digunakan dalam melatih model bahasa besar (LLMs). Komponen ini menghapus komentar dari teks LaTeX.

Sumber daya komputasi yang didukung

MaxCompute

Algoritma

Komponen LLM-LaTeX Hapus Komentar (MaxCompute) menghapus string yang sesuai dengan ekspresi reguler tertentu. Tabel berikut menjelaskan ekspresi reguler tersebut.

Jenis komentar

Ekspresi reguler

Baris komentar

r'(?m)^%.*\n?'

Komentar di dalam baris

r'[^\\]%.+$'

Komponen ini mengekstrak semua string yang cocok dengan ekspresi reguler dan menggantinya dengan string kosong. Contoh:

Sebelum diproses

image

Setelah diproses

image

Konfigurasi komponen

Konfigurasikan parameter komponen LLM-LaTeX Remove Comments (MaxCompute) pada halaman pipeline Machine Learning Designer di konsol Platform for AI (PAI). Tabel berikut menjelaskan parameter tersebut.

Tab

Parameter

Deskripsi

Pengaturan Kolom

Pilih Kolom Target

Kolom yang akan diproses. Anda dapat memilih beberapa kolom.

Hapus Semua Baris Komentar

Tentukan apakah akan menghapus semua baris komentar.

Hapus Semua Komentar di Dalam Baris

Tentukan apakah akan menghapus semua komentar di dalam baris.

Daur Hidup Tabel Keluaran

Nilai harus bilangan bulat positif. Satuan: hari. Nilai default: 28. Setelah daur hidup tabel berakhir, tabel sementara yang dihasilkan oleh komponen akan didaur ulang.

Tuning

Jumlah CPU per Instance Tugas Map

Jumlah CPU untuk setiap instance tugas map. Nilai valid: 50 hingga 800. Nilai default: 100.

Ukuran Memori per Instance Tugas Map

Ukuran memori untuk setiap instance tugas map. Nilai valid: 256 hingga 12.288. Nilai default: 1.024. Satuan: MB.

Ukuran Maksimum Data Masukan untuk Sebuah Map

Jumlah maksimum data yang dapat diproses oleh setiap instance tugas map. Nilai valid: 1 hingga Integer.MAX_VALUE. Nilai default: 256. Satuan: MB.

Gunakan parameter ini untuk mengontrol ukuran data masukan.