すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:ストップワードフィルター

最終更新日:Jun 22, 2026

このトピックでは、 Designer で利用できるストップワードフィルターコンポーネントについて説明します。

このコンポーネントを使用して、単語のトークン化結果から、「the」、「is」、「a」などの意味的な重みが少ない一般的な高頻度単語であるストップワードを除去します。

ストップワードフィルターコンポーネントには、フィルター対象のテキストを含む入力テーブルと、各行がストップワードである単一列のストップワードテーブルの 2 つの入力が必要です。

ストップワードフィルターコンポーネントのパラメーターは、 Designer のビジュアルインターフェイスまたは PAI コマンドを使用して設定できます。

コンポーネント設定

次のいずれかの方法を使用して、ストップワードフィルターコンポーネントを設定してください。

方法 1:ビジュアルインターフェイス

Designer のパイプラインページで、コンポーネントのパラメーターを設定してください。

タブ

パラメーター

説明

[フィールド設定]

[フィルター対象列]

フィルター対象の列を指定してください。複数の列を指定する場合は、列名をカンマ (,) で区切ってください。

[チューニング]

[コア数]

デフォルトでは、システムが自動的にリソースを割り当てます。

[メモリサイズ]

デフォルトでは、システムが自動的にリソースを割り当てます。

方法 2:PAI コマンド

PAI コマンドを使用してコンポーネントのパラメーターを設定します。PAI コマンドは SQL スクリプトコンポーネントを使用して実行できます。詳細については、「SQL スクリプト」をご参照ください。

PAI -name FilterNoise -project algo_public \
    -DinputTableName="test_input" -DnoiseTableName="noise_input" \
    -DoutputTableName="test_output" \
    -DselectedColNames="words_seg1,words_seg2" \
    -Dlifecycle=30

パラメーター

必須

説明

デフォルト

inputTableName

はい

トークン化されたテキストを含む入力テーブルの名前。

なし

inputTablePartitions

いいえ

使用する入力テーブルのパーティション。

すべてのパーティション

noiseTableName

はい

ストップワードテーブルの名前。

なし

noiseTablePartitions

いいえ

使用するストップワードテーブルのパーティション。

すべてのパーティション

outputTableName

はい

出力テーブルの名前。

なし

selectedColNames

はい

フィルター対象の列。複数の列を指定する場合は、列名をカンマ (,) で区切ってください。

なし

lifecycle

いいえ

出力テーブルのライフサイクル (日数)。値は正の整数である必要があります。

なし

coreNum

いいえ

ジョブのコア数。

システム割り当て

memSizePerCore

いいえ

コアあたりのメモリサイズ。

システム割り当て