全部產品

Platform For AI：LLM-文章相似性去重（DLC）

更新時間：Jul 13, 2024

LLM-文章相似性去重（DLC）組件主要用於通過SimHash演算法計算文本間的相似性，實現文本去重。輸入的OSS資料檔案（JSONL格式，樣本）需符合：每一行是一個合法的JSON對象，檔案由多行JSON對象組成，整個檔案本身不是合法的JSON對象。

支援的計算資源

配置組件

在Designer工作流程頁面添加LLM-文章相似性去重（DLC）組件，並在介面右側配置相關參數：

參數類型	參數		是否必選	描述	預設值
欄位設定	目標處理欄位		是	要處理的欄位名稱。	無
	文本分隔字元，預設空格		否	根據分隔字元將文本拆分成單字清單，預設空格。如果置空，則不做拆分，根據單個字元進行統計。分隔字元需用英文雙引號""引起來。	" "
	window_size		是	window_size用於定義構成文檔特徵的子字串的長度。例如：如果你的文檔是"the cute alibaba mascot"，並且window_size設定為2，那麼子字串將會是["the cute", "cute alibaba", "alibaba mascot"]。然後，對這些子字串計算hash值，並用這些hash值產生文檔的SimHash值。window_size的選擇直接影響SimHash值的粒度。一個較小的window_size可能使文檔的局部特徵更加明顯，但可能也會使hash更容易受到小的編輯操作影響。較大的window_size可以捕捉更長範圍的上下文，但可能會損失一些細節。	6
	num_blocks		是	num_blocks決定SimHash值的分塊數。在執行近似重複項的檢測時，SimHash值會被分成幾個塊。例如：如果SimHash值是一個64位的整數，並且num_blocks是4，那麼這個64位將分為4個獨立的16位塊。更多的塊意味著更細粒度的相似性比較。它可能減少誤判（認為不相關的文檔相似）但同時可能增加漏報（未能識別實際上相似的文檔）。通常num_blocks必須小於SimHash值的位元。	6
	hamming_distance		是	hamming_distance是兩個SimHash值之間的漢明距離的閾值，用於決定是否應該將兩個文檔視為 “幾乎重複”（即相似）。例如：假設有兩個SimHash值A和B，如果它們之間的漢明距離（即A與B中不同bit的數量）小於或等於hamming_distance，那麼A和B將被認為是相似的。較小的hamming_distance值會導致只有高度相似的文檔被認為是重複的，可能導致較多的重複項未被識別。較大的hamming_distance值增加了誤判的可能性，但同時較好地識別了相似的文檔。典型的漢明距離值可以是3、4或5，視具體用途而定。	4
	資料輸出OSS目錄		否	處理後資料的OSS儲存目錄。如果為空白，使用工作空間預設路徑。	無
執行調優	多進程個數		否	設定進程數。	8
	選擇資源群組	公用資源群組	否	選擇節點規格（CPU或GPU執行個體規格）、節點數量、專用網路。	無
	選擇資源群組	專有資源群組	否	選擇CPU核心數、記憶體、共用記憶體、GPU卡數、節點數量。	無
	最大運行時間長度		否	組件最大運行時間長度，超過這個時間，作業會被kill。	無