LLM-刪除LaTeX注釋行(DLC)組件適用於TEX文檔格式資料。主要功能是刪除LaTeX格式文本中的注釋行以及行內注釋。輸入的OSS資料檔案(JSONL格式,樣本)需符合:每一行是一個合法的JSON對象,檔案由多行JSON對象組成,整個檔案本身不是合法的JSON對象。
支援的計算資源
演算法說明
定義LaTeX格式文本注釋行的Regex如下:
|
注釋類型 |
Regex |
|
多行注釋 |
|
|
單行注釋 |
|
提取所有滿足上述Regex的字串,替換為空白字串。樣本如下:
|
處理前
|
處理後 在當前欄位值彈窗中,欄位內容為一段 LaTeX 論文原始碼,依次包含 |
配置組件
在Designer工作流程頁面添加LLM-刪除LaTeX注釋行(DLC)組件,並在介面右側配置相關參數:
|
參數類型 |
參數 |
是否必選 |
描述 |
預設值 |
|
|
欄位設定 |
目標處理欄位 |
是 |
要處理的欄位名稱。 |
無 |
|
|
是否刪除所有行注釋 |
否 |
是否刪除所有的注釋行。 |
選中 |
||
|
是否刪除一行內的所有注釋 |
否 |
是否刪除一行內的所有注釋 |
選中 |
||
|
資料輸出OSS目錄 |
否 |
處理後資料的OSS儲存目錄。如果為空白,使用工作空間預設路徑。 |
無 |
||
|
執行調優 |
多進程個數 |
否 |
設定進程數。 |
8 |
|
|
選擇資源群組 |
公用資源群組 |
否 |
選擇節點規格(CPU或GPU執行個體規格)、節點數量、專用網路。 |
無 |
|
|
專有資源群組 |
否 |
選擇CPU核心數、記憶體、共用記憶體、GPU卡數、節點數量。 |
無 |
||
|
最大運行時間長度 |
否 |
組件最大運行時間長度,超過這個時間,作業會被kill。 |
無 |
||