すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:TF-IDF

最終更新日:Mar 07, 2026

TF-IDF は、単語の出現頻度 (Term Frequency) と逆文書頻度 (Inverse Document Frequency) を組み合わせることで、ドキュメント内での単語の重要度を評価します。

単語の出現頻度 (TF) は、ドキュメント内である単語が出現する回数をカウントします。 逆文書頻度 (IDF) は、単語の重要度を示します。 より少ないドキュメントにしか出現しない単語ほど IDF 値は高くなり、ドキュメントのカテゴリを区別する能力が高いことを示します。

TF-IDF は、ドキュメントまたはファイルセット内での単語の重要度を評価します。 例:

  • ファイルセット内での出現頻度が高いほど、単語の重要度は高くなります。

  • コーパス内での出現頻度が高いほど、単語の重要度は低くなります。

このコンポーネントは、元のドキュメントではなく、単語の出現頻度統計 アルゴリズムの出力を使用して、各ドキュメント内の各単語の TF-IDF 値を計算します。

注意事項

TF-IDF は、単語の出現頻度統計 アルゴリズムの出力を必要とします。 このコンポーネントを 単語の出現頻度統計 コンポーネントの下流に接続してください。

設定

方法 1: Designer UI

Designer ワークフローに TF-IDF コンポーネントを追加し、右側のペインでパラメーターを設定します。

パラメータータイプ

パラメーター

説明

フィールド設定

ドキュメント ID 列

単語数 コンポーネントが出力するドキュメント ID 列 (id 列) を選択するか、元のドキュメントを必要なフォーマットに処理します。 詳細については、「単語数」の例の出力説明をご参照ください。

単語列

単語の出現頻度 コンポーネントが出力する単語列 (word 列) を選択するか、元のドキュメントを必要なフォーマットに処理します。 詳細については、「単語の出現頻度」の例の出力説明をご参照ください。

単語数カラム

単語の出現頻度 コンポーネントが出力する単語数カラム (count 列) を選択するか、元のドキュメントを必要なフォーマットに処理します。 詳細については、「単語の出現頻度」の例の出力説明をご参照ください。

実行チューニング

コンピューティングコア数

ワーカー数。 デフォルトでは自動的に計算されます。

コアあたりのメモリ

各ワーカーのメモリサイズ (MB)。

方法 2: PAI コマンド

PAI コマンドを使用してコンポーネントのパラメーターを設定します。 SQL Script コンポーネントを使用して PAI コマンドを呼び出します。 詳細については、「SQL Script」をご参照ください。

PAI -name tfidf
    -project algo_public
    -DinputTableName=rgdoc_split_triple_out
    -DdocIdCol=id
    -DwordCol=word
    -DcountCol=count
    -DoutputTableName=rg_tfidf_out;

パラメーター

必須

デフォルト値

説明

inputTableName

はい

なし

入力テーブルの名前。

inputTablePartitions

いいえ

入力テーブルのすべてのパーティション

トレーニングに使用する入力テーブルのパーティション。

フォーマットは partition_name=value を使用します。 複数のパーティションレベルの場合は、name1=value1/name2=value2 を使用します。 複数のパーティションはコンマ (,) で区切ります。

docIdCol

はい

なし

ドキュメント ID を識別する列名。 1 つの列のみを指定します。

wordCol

はい

なし

単語列の名前。 1 つの列のみを指定します。

countCol

はい

なし

カウント列の名前。 1 つの列のみを指定します。

outputTableName

はい

なし

出力テーブルの名前。

lifecycle

いいえ

なし

出力テーブルのライフサイクル (日数)。 正の整数である必要があります。

coreNum

いいえ

自動的に計算

コア数。 memSizePerCore と一緒に設定した場合にのみ有効になります。

memSizePerCore

いいえ

自動的に計算

各コアのメモリサイズ。 coreNum と一緒に設定した場合にのみ有効になります。