非推奨単語フィルターの構成方法の設定 - PAI - Alibaba Cloud - Platform For AI

このトピックでは、 Designer で利用できるストップワードフィルターコンポーネントについて説明します。

このコンポーネントを使用して、単語のトークン化結果から、「the」、「is」、「a」などの意味的な重みが少ない一般的な高頻度単語であるストップワードを除去します。

ストップワードフィルターコンポーネントには、フィルター対象のテキストを含む入力テーブルと、各行がストップワードである単一列のストップワードテーブルの 2 つの入力が必要です。

ストップワードフィルターコンポーネントのパラメーターは、 Designer のビジュアルインターフェイスまたは PAI コマンドを使用して設定できます。

コンポーネント設定

次のいずれかの方法を使用して、ストップワードフィルターコンポーネントを設定してください。

方法 1：ビジュアルインターフェイス

Designer のパイプラインページで、コンポーネントのパラメーターを設定してください。

タブ	パラメーター	説明
[フィールド設定]	[フィルター対象列]	フィルター対象の列を指定してください。複数の列を指定する場合は、列名をカンマ (,) で区切ってください。
[チューニング]	[コア数]	デフォルトでは、システムが自動的にリソースを割り当てます。
[チューニング]	[メモリサイズ]	デフォルトでは、システムが自動的にリソースを割り当てます。

方法 2：PAI コマンド

PAI コマンドを使用してコンポーネントのパラメーターを設定します。PAI コマンドは SQL スクリプトコンポーネントを使用して実行できます。詳細については、「SQL スクリプト」をご参照ください。

PAI -name FilterNoise -project algo_public \
    -DinputTableName="test_input" -DnoiseTableName="noise_input" \
    -DoutputTableName="test_output" \
    -DselectedColNames="words_seg1,words_seg2" \
    -Dlifecycle=30

パラメーター	必須	説明	デフォルト
inputTableName	はい	トークン化されたテキストを含む入力テーブルの名前。	なし
inputTablePartitions	いいえ	使用する入力テーブルのパーティション。	すべてのパーティション
noiseTableName	はい	ストップワードテーブルの名前。	なし
noiseTablePartitions	いいえ	使用するストップワードテーブルのパーティション。	すべてのパーティション
outputTableName	はい	出力テーブルの名前。	なし
selectedColNames	はい	フィルター対象の列。複数の列を指定する場合は、列名をカンマ (,) で区切ってください。	なし
lifecycle	いいえ	出力テーブルのライフサイクル (日数)。値は正の整数である必要があります。	なし
coreNum	いいえ	ジョブのコア数。	システム割り当て
memSizePerCore	いいえ	コアあたりのメモリサイズ。	システム割り当て