本文為您介紹Designer提供的停用詞過濾演算法組件。
停用詞過濾演算法組件是文本分析中的一個預先處理方法,用於過濾分詞結果中的雜訊(例如的、是或啊)。
停用詞過濾演算法組件的兩個輸入樁為輸入表和停用詞表。輸入表為需要過濾停用詞的表。停用詞表的格式為一列,每行對應一個停用詞。
Designer支援通過可視化或PAI命令方式,配置停用詞過濾演算法組件相關參數。
組件配置
您可以使用以下任意一種方式,配置停用詞過濾組件參數。
方式一:可視化方式
在Designer工作流程頁面配置組件參數。
|
頁簽 |
參數 |
描述 |
|
欄位設定 |
待過濾列 |
指定待過濾的列,多列以英文逗號(,)分隔。 |
|
執行調優 |
核心數 |
預設為系統自動分配。 |
|
記憶體數 |
預設為系統自動分配。 |
方式二:PAI命令方式
使用PAI命令方式,配置該組件參數。您可以使用SQL指令碼組件進行PAI命令調用,詳情請參見SQL指令碼。
PAI -name FilterNoise -project algo_public \
-DinputTableName=”test_input” -DnoiseTableName=”noise_input” \
-DoutputTableName=”test_output” \
-DselectedColNames=”words_seg1,words_seg2” \
-Dlifecycle=30
|
參數名稱 |
是否必選 |
描述 |
預設值 |
|
inputTableName |
是 |
輸入分詞表的名稱。 |
無 |
|
inputTablePartitions |
否 |
輸入分詞表的分區名稱。 |
所有分區 |
|
noiseTableName |
是 |
停用詞表的名稱。 |
無 |
|
noiseTablePartitions |
否 |
停用詞表的分區名稱。 |
所有分區 |
|
outputTableName |
是 |
輸出表的名稱。 |
無 |
|
selectedColNames |
是 |
指定待過濾的列,多列以英文逗號(,)分隔。 |
無 |
|
lifecycle |
否 |
輸出表的生命週期。取值範圍為正整數。 |
無 |
|
coreNum |
否 |
計算的核心數。 |
系統自動分配 |
|
memSizePerCore |
否 |
每個核心的記憶體數。 |
系統自動分配 |