全部產品
Search
文件中心

Platform For AI:LLM-文章相似性去重(DLC)

更新時間:Jul 13, 2024

LLM-文章相似性去重(DLC)組件主要用於通過SimHash演算法計算文本間的相似性,實現文本去重。輸入的OSS資料檔案(JSONL格式,樣本)需符合:每一行是一個合法的JSON對象,檔案由多行JSON對象組成,整個檔案本身不是合法的JSON對象。

支援的計算資源

DLC

配置組件

在Designer工作流程頁面添加LLM-文章相似性去重(DLC)組件,並在介面右側配置相關參數:

參數類型

參數

是否必選

描述

預設值

欄位設定

目標處理欄位

要處理的欄位名稱。

文本分隔字元,預設空格

根據分隔字元將文本拆分成單字清單,預設空格。如果置空,則不做拆分,根據單個字元進行統計。分隔字元需用英文雙引號""引起來。

" "

window_size

window_size用於定義構成文檔特徵的子字串的長度。例如:如果你的文檔是"the cute alibaba mascot",並且window_size設定為2,那麼子字串將會是["the cute", "cute alibaba", "alibaba mascot"]。然後,對這些子字串計算hash值,並用這些hash值產生文檔的SimHash值。window_size的選擇直接影響SimHash值的粒度。一個較小的window_size可能使文檔的局部特徵更加明顯,但可能也會使hash更容易受到小的編輯操作影響。較大的window_size可以捕捉更長範圍的上下文,但可能會損失一些細節。

6

num_blocks

num_blocks決定SimHash值的分塊數。在執行近似重複項的檢測時,SimHash值會被分成幾個塊。例如:如果SimHash值是一個64位的整數,並且num_blocks是4,那麼這個64位將分為4個獨立的16位塊。更多的塊意味著更細粒度的相似性比較。它可能減少誤判(認為不相關的文檔相似)但同時可能增加漏報(未能識別實際上相似的文檔)。通常num_blocks必須小於SimHash值的位元。

6

hamming_distance

hamming_distance是兩個SimHash值之間的漢明距離的閾值,用於決定是否應該將兩個文檔視為 “幾乎重複”(即相似)。例如:假設有兩個SimHash值A和B,如果它們之間的漢明距離(即A與B中不同bit的數量)小於或等於hamming_distance,那麼A和B將被認為是相似的。較小的hamming_distance值會導致只有高度相似的文檔被認為是重複的,可能導致較多的重複項未被識別。較大的hamming_distance值增加了誤判的可能性,但同時較好地識別了相似的文檔。典型的漢明距離值可以是3、4或5,視具體用途而定。

4

資料輸出OSS目錄

處理後資料的OSS儲存目錄。如果為空白,使用工作空間預設路徑。

執行調優

多進程個數

設定進程數。

8

選擇資源群組

公用資源群組

選擇節點規格(CPU或GPU執行個體規格)、節點數量、專用網路。

專有資源群組

選擇CPU核心數、記憶體、共用記憶體、GPU卡數、節點數量。

最大運行時間長度

組件最大運行時間長度,超過這個時間,作業會被kill。