TF-IDF は、単語の出現頻度 (Term Frequency) と逆文書頻度 (Inverse Document Frequency) を組み合わせることで、ドキュメント内での単語の重要度を評価します。
単語の出現頻度 (TF) は、ドキュメント内である単語が出現する回数をカウントします。 逆文書頻度 (IDF) は、単語の重要度を示します。 より少ないドキュメントにしか出現しない単語ほど IDF 値は高くなり、ドキュメントのカテゴリを区別する能力が高いことを示します。
TF-IDF は、ドキュメントまたはファイルセット内での単語の重要度を評価します。 例:
-
ファイルセット内での出現頻度が高いほど、単語の重要度は高くなります。
-
コーパス内での出現頻度が高いほど、単語の重要度は低くなります。
このコンポーネントは、元のドキュメントではなく、単語の出現頻度統計 アルゴリズムの出力を使用して、各ドキュメント内の各単語の TF-IDF 値を計算します。
注意事項
TF-IDF は、単語の出現頻度統計 アルゴリズムの出力を必要とします。 このコンポーネントを 単語の出現頻度統計 コンポーネントの下流に接続してください。
設定
方法 1: Designer UI
Designer ワークフローに TF-IDF コンポーネントを追加し、右側のペインでパラメーターを設定します。
|
パラメータータイプ |
パラメーター |
説明 |
|
フィールド設定 |
ドキュメント ID 列 |
単語数 コンポーネントが出力するドキュメント ID 列 (id 列) を選択するか、元のドキュメントを必要なフォーマットに処理します。 詳細については、「単語数」の例の出力説明をご参照ください。 |
|
単語列 |
単語の出現頻度 コンポーネントが出力する単語列 (word 列) を選択するか、元のドキュメントを必要なフォーマットに処理します。 詳細については、「単語の出現頻度」の例の出力説明をご参照ください。 |
|
|
単語数カラム |
単語の出現頻度 コンポーネントが出力する単語数カラム (count 列) を選択するか、元のドキュメントを必要なフォーマットに処理します。 詳細については、「単語の出現頻度」の例の出力説明をご参照ください。 |
|
|
実行チューニング |
コンピューティングコア数 |
ワーカー数。 デフォルトでは自動的に計算されます。 |
|
コアあたりのメモリ |
各ワーカーのメモリサイズ (MB)。 |
方法 2: PAI コマンド
PAI コマンドを使用してコンポーネントのパラメーターを設定します。 SQL Script コンポーネントを使用して PAI コマンドを呼び出します。 詳細については、「SQL Script」をご参照ください。
PAI -name tfidf
-project algo_public
-DinputTableName=rgdoc_split_triple_out
-DdocIdCol=id
-DwordCol=word
-DcountCol=count
-DoutputTableName=rg_tfidf_out;
|
パラメーター |
必須 |
デフォルト値 |
説明 |
|
inputTableName |
はい |
なし |
入力テーブルの名前。 |
|
inputTablePartitions |
いいえ |
入力テーブルのすべてのパーティション |
トレーニングに使用する入力テーブルのパーティション。 フォーマットは |
|
docIdCol |
はい |
なし |
ドキュメント ID を識別する列名。 1 つの列のみを指定します。 |
|
wordCol |
はい |
なし |
単語列の名前。 1 つの列のみを指定します。 |
|
countCol |
はい |
なし |
カウント列の名前。 1 つの列のみを指定します。 |
|
outputTableName |
はい |
なし |
出力テーブルの名前。 |
|
lifecycle |
いいえ |
なし |
出力テーブルのライフサイクル (日数)。 正の整数である必要があります。 |
|
coreNum |
いいえ |
自動的に計算 |
コア数。 memSizePerCore と一緒に設定した場合にのみ有効になります。 |
|
memSizePerCore |
いいえ |
自動的に計算 |
各コアのメモリサイズ。 coreNum と一緒に設定した場合にのみ有効になります。 |