全部产品
Search
文档中心

Platform For AI:LLM-LaTeX Hapus Bibliografi (MaxCompute)

更新时间:Jun 22, 2025

Gunakan komponen LLM-LaTeX Hapus Bibliografi (MaxCompute) untuk memproses data teks TeX yang digunakan dalam melatih model bahasa besar (LLMs). Komponen ini menghapus bagian bibliografi di akhir dokumen LaTeX.

Sumber daya komputasi yang didukung

MaxCompute

Algoritma

Komponen LLM-LaTeX Hapus Bibliografi (MaxCompute) mengekstrak semua string yang sesuai dengan ekspresi reguler r'(\\appendix|\\begin\{references\}|\\begin\{REFERENCES\}|\\begin\{thebibliography\}|\\bibliography\{.*\}).*$' dan menggantinya dengan string kosong. Pola kecocokan ganda dipisahkan oleh tanda batang vertikal (|).

Contoh:

Sebelum pemrosesan

image

Setelah pemrosesan

image

Konfigurasikan komponen

Konfigurasikan parameter komponen LLM-LaTeX Remove Bibliography (MaxCompute) pada halaman pipeline Machine Learning Designer di konsol Platform for AI (PAI). Tabel berikut menjelaskan parameter-parameter tersebut.

Tab

Parameter

Deskripsi

Pengaturan Kolom

Pilih Kolom Target

Kolom-kolom yang ingin diproses. Anda dapat memilih beberapa kolom.

Daur Hidup Tabel Keluaran

Nilai harus bilangan bulat positif. Satuan: hari. Nilai default: 28. Setelah daur hidup tabel berakhir, tabel-tabel sementara yang dihasilkan oleh komponen akan didaur ulang.

Tuning

Jumlah CPU per Instance Tugas Map

Jumlah CPU untuk setiap instance tugas map. Nilai valid: 50 hingga 800. Nilai default: 100.

Ukuran Memori per Instance Tugas Map

Ukuran memori untuk setiap instance tugas map. Nilai valid: 256 hingga 12.288. Nilai default: 1.024. Satuan: MB.

Ukuran Maksimum Data Masukan untuk Sebuah Map

Jumlah maksimum data yang dapat diproses oleh setiap instance tugas map. Nilai valid: 1 hingga Integer.MAX_VALUE. Nilai default: 256. Satuan: MB.

Gunakan parameter ini untuk mengontrol ukuran data masukan.