全部产品
Search
文档中心

Platform For AI:LLM-LaTeX Perluas Makro (MaxCompute)

更新时间:Jun 22, 2025

Gunakan komponen LLM-LaTeX Perluas Makro (MaxCompute) dari Platform for AI (PAI) untuk memproses data teks TeX yang digunakan dalam melatih model bahasa besar (LLMs). Jika sebuah makro tidak memiliki parameter dan nama makro hanya terdiri dari huruf dan angka, komponen ini akan mengganti nama makro dengan definisi makro untuk ekspansi inline.

Sumber daya komputasi yang didukung

MaxCompute

Deskripsi algoritma

Komponen LLM-LaTeX Perluas Makro (MaxCompute) melakukan ekspansi inline pada makro yang sesuai dengan ekspresi reguler berikut:

Item

Makro tanpa parameter yang didefinisikan menggunakan \newcommand

Makro tanpa parameter yang didefinisikan menggunakan \def

Ekspresi reguler

r'\\\bnewcommand\b\*?\{(\\[a-zA-Z0-9]+?)\}\{(.*?)\}$'

r'\\def\s*(\\[a-zA-Z0-9]+?)\s*\{(.*?)\}$'

Makro yang cocok

\newcommand{\macro_name}{macro_value}

\newcommand*{\macro_name}{macro_value}

\def\macro_name{macro_value}

Catatan

macro_name hanya boleh berisi huruf dan angka, sedangkan macro_value dapat berisi karakter apa pun.

Jika makro cocok dengan ekspresi reguler di atas, komponen ini mengganti nilai macro_name dengan nilai macro_value. Contoh:

Sebelum diproses

image

Setelah diproses

image

Konfigurasikan komponen

Untuk mengonfigurasi komponen di konsol PAI, ikuti langkah-langkah berikut: Masuk ke konsol PAI, buka halaman Pemodelan Visual (Designer), lalu buka pipeline. Di halaman pipeline, seret komponen LLM-LaTeX Expand Macro (MaxCompute) ke kanvas dan konfigurasikan parameter di panel sebelah kanan. Tabel berikut menjelaskan parameter tersebut.

Tab

Parameter

Deskripsi

Pengaturan Bidang

Pilih Kolom Target

Kolom yang ingin diproses. Anda dapat memilih beberapa kolom.

Daur hidup tabel keluaran

Nilainya harus bilangan bulat positif. Satuan: hari. Nilai default: 28. Tabel sementara yang dihasilkan oleh komponen ini akan didaur ulang setelah 28 hari.

Tuning

Jumlah CPU per instance tugas map

Jumlah CPU untuk setiap instance tugas map. Nilai valid: 50 hingga 800. Nilai default: 100.

Ukuran memori per instance tugas map

Ukuran memori untuk setiap instance tugas map. Nilai valid: 256 hingga 12.288. Nilai default: 1.024. Satuan: MB.

Ukuran maksimum data masukan untuk map

Jumlah maksimum data yang dapat diproses oleh setiap instance tugas map. Nilai valid: 1 hingga Integer.MAX_VALUE. Nilai default: 256. Satuan: MB.

Anda dapat menggunakan parameter ini untuk mengontrol ukuran data masukan.