LLM-N-Gram重複比率過濾(DLC)組件主要用於保留字元級或詞語級N-Gram重複比率在指定範圍內的樣本。輸入的OSS資料檔案(JSONL格式,樣本)需符合:每一行是一個合法的JSON對象,檔案由多行JSON對象組成,整個檔案本身不是合法的JSON對象。
支援的計算資源
演算法說明
將文本中的內容按照字元或詞語進行大小為N的滑動視窗操作,形成了長度為N的片段序列。每一個片段稱為Gram,對所有Gram的出現次數進行統計。最後統計頻次大於1的Gram的頻次總和 / 所有Gram的頻次總和兩者比率作為重複比率進行樣本過濾。
如果是詞語級統計,會先將所有單詞轉成小寫格式再計算重複度。
配置組件
在Designer工作流程頁面添加LLM-N-Gram重複比率過濾(DLC)組件,並在介面右側配置相關參數:
參數類型 | 參數 | 是否必選 | 描述 | 預設值 | |
欄位設定 | 目標處理欄位 | 是 | 要處理的欄位名稱。 | 無 | |
是否根據字元級N-Gram重複比率過濾 | 否 | 如果選中,需配置以下參數:
| 未選中 | ||
是否根據詞語級N-Gram重複比率過濾 | 否 | 如果選中,需配置以下參數:
| 未選中 | ||
資料輸出OSS目錄 | 否 | 處理後資料的OSS儲存目錄。如果為空白,使用工作空間預設路徑。 | 無 | ||
執行調優 | 多進程個數 | 否 | 設定進程數。 | 8 | |
選擇資源群組 | 公用資源群組 | 否 | 選擇節點規格(CPU或GPU執行個體規格)、節點數量、專用網路。 | 無 | |
專有資源群組 | 否 | 選擇CPU核心數、記憶體、共用記憶體、GPU卡數、節點數量。 | 無 | ||
最大運行時間長度 | 否 | 組件最大運行時間長度,超過這個時間,作業會被kill。 | 無 | ||