このトピックでは、 Designer で利用できるストップワードフィルターコンポーネントについて説明します。
このコンポーネントを使用して、単語のトークン化結果から、「the」、「is」、「a」などの意味的な重みが少ない一般的な高頻度単語であるストップワードを除去します。
ストップワードフィルターコンポーネントには、フィルター対象のテキストを含む入力テーブルと、各行がストップワードである単一列のストップワードテーブルの 2 つの入力が必要です。
ストップワードフィルターコンポーネントのパラメーターは、 Designer のビジュアルインターフェイスまたは PAI コマンドを使用して設定できます。
コンポーネント設定
次のいずれかの方法を使用して、ストップワードフィルターコンポーネントを設定してください。
方法 1:ビジュアルインターフェイス
Designer のパイプラインページで、コンポーネントのパラメーターを設定してください。
|
タブ |
パラメーター |
説明 |
|
[フィールド設定] |
[フィルター対象列] |
フィルター対象の列を指定してください。複数の列を指定する場合は、列名をカンマ (,) で区切ってください。 |
|
[チューニング] |
[コア数] |
デフォルトでは、システムが自動的にリソースを割り当てます。 |
|
[メモリサイズ] |
デフォルトでは、システムが自動的にリソースを割り当てます。 |
方法 2:PAI コマンド
PAI コマンドを使用してコンポーネントのパラメーターを設定します。PAI コマンドは SQL スクリプトコンポーネントを使用して実行できます。詳細については、「SQL スクリプト」をご参照ください。
PAI -name FilterNoise -project algo_public \
-DinputTableName="test_input" -DnoiseTableName="noise_input" \
-DoutputTableName="test_output" \
-DselectedColNames="words_seg1,words_seg2" \
-Dlifecycle=30
|
パラメーター |
必須 |
説明 |
デフォルト |
|
inputTableName |
はい |
トークン化されたテキストを含む入力テーブルの名前。 |
なし |
|
inputTablePartitions |
いいえ |
使用する入力テーブルのパーティション。 |
すべてのパーティション |
|
noiseTableName |
はい |
ストップワードテーブルの名前。 |
なし |
|
noiseTablePartitions |
いいえ |
使用するストップワードテーブルのパーティション。 |
すべてのパーティション |
|
outputTableName |
はい |
出力テーブルの名前。 |
なし |
|
selectedColNames |
はい |
フィルター対象の列。複数の列を指定する場合は、列名をカンマ (,) で区切ってください。 |
なし |
|
lifecycle |
いいえ |
出力テーブルのライフサイクル (日数)。値は正の整数である必要があります。 |
なし |
|
coreNum |
いいえ |
ジョブのコア数。 |
システム割り当て |
|
memSizePerCore |
いいえ |
コアあたりのメモリサイズ。 |
システム割り当て |