TF-IDF コンポーネントの構成 - PAI

TF-IDF は、単語の出現頻度 (Term Frequency) と逆文書頻度 (Inverse Document Frequency) を組み合わせることで、ドキュメント内での単語の重要度を評価します。

単語の出現頻度 (TF) は、ドキュメント内である単語が出現する回数をカウントします。逆文書頻度 (IDF) は、単語の重要度を示します。より少ないドキュメントにしか出現しない単語ほど IDF 値は高くなり、ドキュメントのカテゴリを区別する能力が高いことを示します。

TF-IDF は、ドキュメントまたはファイルセット内での単語の重要度を評価します。例：

ファイルセット内での出現頻度が高いほど、単語の重要度は高くなります。
コーパス内での出現頻度が高いほど、単語の重要度は低くなります。

このコンポーネントは、元のドキュメントではなく、単語の出現頻度統計 アルゴリズムの出力を使用して、各ドキュメント内の各単語の TF-IDF 値を計算します。

注意事項

TF-IDF は、単語の出現頻度統計 アルゴリズムの出力を必要とします。このコンポーネントを単語の出現頻度統計コンポーネントの下流に接続してください。

設定

方法 1： Designer UI

Designer ワークフローに TF-IDF コンポーネントを追加し、右側のペインでパラメーターを設定します。

パラメータータイプ	パラメーター	説明
フィールド設定	ドキュメント ID 列	単語数コンポーネントが出力するドキュメント ID 列 (id 列) を選択するか、元のドキュメントを必要なフォーマットに処理します。詳細については、「単語数」の例の出力説明をご参照ください。
	単語列	単語の出現頻度コンポーネントが出力する単語列 (word 列) を選択するか、元のドキュメントを必要なフォーマットに処理します。詳細については、「単語の出現頻度」の例の出力説明をご参照ください。
	単語数カラム	単語の出現頻度コンポーネントが出力する単語数カラム (count 列) を選択するか、元のドキュメントを必要なフォーマットに処理します。詳細については、「単語の出現頻度」の例の出力説明をご参照ください。
実行チューニング	コンピューティングコア数	ワーカー数。デフォルトでは自動的に計算されます。
実行チューニング	コアあたりのメモリ	各ワーカーのメモリサイズ (MB)。

方法 2： PAI コマンド

PAI コマンドを使用してコンポーネントのパラメーターを設定します。 SQL Script コンポーネントを使用して PAI コマンドを呼び出します。詳細については、「SQL Script」をご参照ください。

PAI -name tfidf
    -project algo_public
    -DinputTableName=rgdoc_split_triple_out
    -DdocIdCol=id
    -DwordCol=word
    -DcountCol=count
    -DoutputTableName=rg_tfidf_out;

パラメーター	必須	デフォルト値	説明
inputTableName	はい	なし	入力テーブルの名前。
inputTablePartitions	いいえ	入力テーブルのすべてのパーティション	トレーニングに使用する入力テーブルのパーティション。フォーマットは `partition_name=value` を使用します。複数のパーティションレベルの場合は、`name1=value1/name2=value2` を使用します。複数のパーティションはコンマ (,) で区切ります。
docIdCol	はい	なし	ドキュメント ID を識別する列名。 1 つの列のみを指定します。
wordCol	はい	なし	単語列の名前。 1 つの列のみを指定します。
countCol	はい	なし	カウント列の名前。 1 つの列のみを指定します。
outputTableName	はい	なし	出力テーブルの名前。
lifecycle	いいえ	なし	出力テーブルのライフサイクル (日数)。正の整数である必要があります。
coreNum	いいえ	自動的に計算	コア数。 memSizePerCore と一緒に設定した場合にのみ有効になります。
memSizePerCore	いいえ	自動的に計算	各コアのメモリサイズ。 coreNum と一緒に設定した場合にのみ有効になります。