全部產品
Search
文件中心

Platform For AI:TF-IDF

更新時間:Apr 02, 2025

TF-IDF(Term Frequency-Inverse Document Frequency)是一種用於評估一個詞在一個文檔中的重要性的統計方法。它通過結合詞頻(TF)和反文檔頻率(IDF)來衡量詞的權重,從而提高文本檢索和資訊挖掘的準確性。

TF詞頻(Term Frequency)是指某一個給定的詞語在該檔案中出現的次數。IDF反文檔頻率(Inverse Document Frequency)是指如果包含詞條的文檔越少,IDF越大,則說明詞條的類別區分能力越強。

TF-IDF是一種統計方法,用於評估字詞或檔案的重要程度。例如:

  • 在檔案集中的字詞會隨著出現次數的增加呈正比增加趨勢。

  • 在語料庫中的檔案會隨著出現頻率的增加呈反比下降趨勢。

TF-IDF組件基於詞頻統計演算法的輸出結果(而不是基於原始文檔),計算各詞語對於各文章的TF-IDF值。

使用說明

由於TF-IDF組件是基於詞頻統計演算法的輸出結果,因此TF-IDF組件需要接入到詞頻統計組件的下遊。

組件配置

方式一:可視化方式

在Designer工作流程頁面添加TF-IDF組件,並在介面右側配置相關參數:

參數類型

參數

描述

欄位設定

選擇文檔ID列

您可以直接選擇詞頻統計組件輸出的文檔ID列(id列)或自行將原始文檔處理為相應格式,詳情請參見詞頻統計樣本部分的輸出介紹。

選擇單詞列

您可以直接選擇詞頻統計組件輸出的單詞列(word列)或自行將原始文檔處理為相應格式,詳情請參見詞頻統計樣本部分的輸出介紹。

選擇單詞計數列

您可以直接選擇詞頻統計組件輸出的單詞計數列(count列)或自行將原始文檔處理為相應格式,詳情請參見詞頻統計樣本部分的輸出介紹。

執行調優

計算核心數

節點個數,預設自動計算。

每個核心記憶體

單個節點記憶體大小,單位為MB。

方式二:PAI命令方式

使用PAI命令配置TF-IDF組件參數。您可以使用SQL指令碼組件進行PAI命令調用,詳情請參見SQL指令碼

PAI -name tfidf
    -project algo_public
    -DinputTableName=rgdoc_split_triple_out
    -DdocIdCol=id
    -DwordCol=word
    -DcountCol=count
    -DoutputTableName=rg_tfidf_out;

參數

是否必選

預設值

描述

inputTableName

輸入表名稱。

inputTablePartitions

輸入表的所有分區

輸入表中,參與訓練的分區。

格式為partition_name=value。如果是多級格式為name1=value1/name2=value2。如果是指定多個分區,中間用英文逗號分開。

docIdCol

標識文章ID的列名,僅可指定一列。

wordCol

Word列名,僅可指定一列。

countCol

Count列名,僅可指定一列。

outputTableName

輸出表名稱。

lifecycle

輸出表生命週期。正整數。單位:天

coreNum

自動計算

核心數,與memSizePerCore同時設定才生效。

memSizePerCore

自動計算

記憶體數,與coreNum同時設定才生效。