LLM-文章相似性去重(DLC)組件主要用於通過SimHash演算法計算文本間的相似性,實現文本去重。輸入的OSS資料檔案(JSONL格式,樣本)需符合:每一行是一個合法的JSON對象,檔案由多行JSON對象組成,整個檔案本身不是合法的JSON對象。
支援的計算資源
配置組件
在Designer工作流程頁面添加LLM-文章相似性去重(DLC)組件,並在介面右側配置相關參數:
參數類型 | 參數 | 是否必選 | 描述 | 預設值 | |
欄位設定 | 目標處理欄位 | 是 | 要處理的欄位名稱。 | 無 | |
文本分隔字元,預設空格 | 否 | 根據分隔字元將文本拆分成單字清單,預設空格。如果置空,則不做拆分,根據單個字元進行統計。分隔字元需用英文雙引號""引起來。 | " " | ||
window_size | 是 | window_size用於定義構成文檔特徵的子字串的長度。例如:如果你的文檔是"the cute alibaba mascot",並且window_size設定為2,那麼子字串將會是["the cute", "cute alibaba", "alibaba mascot"]。然後,對這些子字串計算hash值,並用這些hash值產生文檔的SimHash值。window_size的選擇直接影響SimHash值的粒度。一個較小的window_size可能使文檔的局部特徵更加明顯,但可能也會使hash更容易受到小的編輯操作影響。較大的window_size可以捕捉更長範圍的上下文,但可能會損失一些細節。 | 6 | ||
num_blocks | 是 | num_blocks決定SimHash值的分塊數。在執行近似重複項的檢測時,SimHash值會被分成幾個塊。例如:如果SimHash值是一個64位的整數,並且num_blocks是4,那麼這個64位將分為4個獨立的16位塊。更多的塊意味著更細粒度的相似性比較。它可能減少誤判(認為不相關的文檔相似)但同時可能增加漏報(未能識別實際上相似的文檔)。通常num_blocks必須小於SimHash值的位元。 | 6 | ||
hamming_distance | 是 | hamming_distance是兩個SimHash值之間的漢明距離的閾值,用於決定是否應該將兩個文檔視為 “幾乎重複”(即相似)。例如:假設有兩個SimHash值A和B,如果它們之間的漢明距離(即A與B中不同bit的數量)小於或等於hamming_distance,那麼A和B將被認為是相似的。較小的hamming_distance值會導致只有高度相似的文檔被認為是重複的,可能導致較多的重複項未被識別。較大的hamming_distance值增加了誤判的可能性,但同時較好地識別了相似的文檔。典型的漢明距離值可以是3、4或5,視具體用途而定。 | 4 | ||
資料輸出OSS目錄 | 否 | 處理後資料的OSS儲存目錄。如果為空白,使用工作空間預設路徑。 | 無 | ||
執行調優 | 多進程個數 | 否 | 設定進程數。 | 8 | |
選擇資源群組 | 公用資源群組 | 否 | 選擇節點規格(CPU或GPU執行個體規格)、節點數量、專用網路。 | 無 | |
專有資源群組 | 否 | 選擇CPU核心數、記憶體、共用記憶體、GPU卡數、節點數量。 | 無 | ||
最大運行時間長度 | 否 | 組件最大運行時間長度,超過這個時間,作業會被kill。 | 無 | ||