キーワード抽出は、自然言語処理 (NLP) の手法の 1 つです。テキストのメイントピックに深く関連する単語を識別し、抽出します。この手法では、多くの場合 TextRank アルゴリズムが使用されます。TextRank は、単語の共起ネットワークを構築し、PageRank に似た計算方法を適用して各単語の重要度を評価します。重みが大きい単語がキーワードとして選択されます。このメソッドは、大量のテキストを理解し、要約するのに役立ちます。
一般的なワークフローは次のとおりです。
-
ソースデータ
-
テキストのトークン化
-
単語のフィルタリング
-
キーワードの抽出
コンポーネントの設定
方法1:GUI の使用
Designer のワークフローページで、[キーワード抽出] コンポーネントを追加し、右側のペインでそのパラメーターを設定できます。
|
パラメータータイプ |
パラメーター |
説明 |
|
フィールド設定 |
ドキュメント ID 列 |
ドキュメント ID を含む列の名前。 |
|
記事コンテンツの単語分割結果。 |
トークン化されたドキュメントコンテンツを含む列の名前。 |
|
|
パラメーター設定 |
出力するキーワード数 |
整数。 デフォルト値:5。 |
|
ウィンドウサイズ |
整数。 デフォルト値:2。 |
|
|
減衰係数 |
デフォルト値:0.85。 |
|
|
最大反復回数 |
デフォルト値:100。 |
|
|
収束係数 |
デフォルト値:0.000001。 |
|
|
実行チューニング |
コア数。 デフォルトで自動割り当て。 |
デフォルトで選択済み。 |
|
コアあたりのメモリ。 デフォルトで自動割り当て。 |
デフォルトで選択済み。 |
方法2:PAI コマンドの使用
PAI コマンドを使用して、[キーワード抽出] コンポーネントのパラメーターを設定できます。SQL スクリプトコンポーネントを使用して PAI コマンドを呼び出すことができます。 詳細については、「SQL スクリプト」をご参照ください。
PAI -name KeywordsExtraction
-DinputTableName=maple_test_keywords_basic_input
-DdocIdCol=docid -DdocContent=word
-DoutputTableName=maple_test_keywords_basic_output
-DtopN=19;
|
パラメーター |
必須 |
デフォルト値 |
説明 |
|
inputTableName |
はい |
なし |
入力テーブル。 |
|
inputTablePartitions |
いいえ |
すべてのパーティション |
トレーニングに使用する入力テーブルのパーティション。 `Partition_name=value` 形式を使用します。 複数レベルのパーティションの場合は、`name1=value1/name2=value2` を使用します。 複数のパーティションはコンマ (,) で区切ります。 |
|
outputTableName |
はい |
なし |
出力テーブルの名前。 |
|
docIdCol |
はい |
なし |
ドキュメント ID を含む列の名前。 1 つの列のみ指定できます。 |
|
docContent |
はい |
なし |
単語列。 1 つの列のみ指定できます。 |
|
topN |
いいえ |
5 |
返す上位キーワードの数。 キーワードの総数がこの値より少ない場合、すべてのキーワードが返されます。 |
|
windowSize |
いいえ |
2 |
TextRank アルゴリズムのウィンドウサイズ。 |
|
dumpingFactor |
いいえ |
0.85 |
TextRank アルゴリズムの減衰係数。 |
|
maxIter |
いいえ |
100 |
TextRank アルゴリズムの最大反復回数。 |
|
epsilon |
いいえ |
0.000001 |
TextRank アルゴリズムの収束残差のしきい値。 |
|
lifecycle |
いいえ |
なし |
出力テーブルのライフサイクル。 |
|
coreNum |
いいえ |
自動計算 |
ワーカー数。 |
|
memSizePerCore |
いいえ |
自動計算 |
ワーカーあたりのメモリサイズ (MB)。 |
例
-
データの生成
入力テーブルでは、単語をスペースで区切ります。 'the' や 'a' などのストップワードと、すべての句読点をフィルタリングで除外します。
docid:string
word:string
doc0
blended-wing-body aircraft is future aviation field development a new direction many research institutions have started on blended-wing-body aircraft research and its fully-automatic shape optimization algorithm has become a new research hot-spot existing achievements basis on top of analyze compare common modeling solving platform usage methods and features design write blended-wing-body aircraft shape optimization geometric modeling grid division flow-field solving shape optimization module compare different algorithms between pros and cons implement blended-wing-body aircraft conceptual-design in shape optimization geometric modeling and grid generation module implement based-on transfinite interpolation grid generation algorithm based-on spline curve modeling method flow-field solving module includes finite difference solver finite element solver and panel method solver among them finite difference solver mainly includes based-on finite difference method potential-flow mathematical modeling based-on Cartesian grid variable step-size difference format derivation Cartesian grid generation index algorithm based-on Cartesian grid Neumann boundary-condition expression form derivation implement based-on finite difference solver two-dimensional airfoil aerodynamic parameters calculation example finite element solver mainly includes based-on variational principle potential-flow finite element theory modeling two-dimensional finite element Kutta condition expression derivation based-on least squares velocity solving algorithm design based-on Gmsh two-dimensional with-wake airfoil spatial grid generator development implement based-on finite element solver two-dimensional airfoil aerodynamic parameters calculation example panel method solver mainly includes based-on panel method potential-flow theory modeling automatic wake generation algorithm design based-on panel method three-dimensional blended-wing-body body flow-field solver development based-on Blasius flat-plate solution drag estimation algorithm design solver Fortran language on port Python and Fortran code mixed-compilation based-on OpenMP and CUDA parallel acceleration algorithm design and development implement based-on panel method solver three-dimensional blended-wing-body body aerodynamic parameters calculation example shape optimization module implemented based-on free form deformation grid deformation algorithm genetic-algorithm differential evolution algorithm aircraft surface-area calculation algorithm based-on moment integration aircraft volume calculation algorithm development based-on VTK data visualization format tool
-
PAI コマンド
PAI -name KeywordsExtraction -DinputTableName=maple_test_keywords_basic_input -DdocIdCol=docid -DdocContent=word -DoutputTableName=maple_test_keywords_basic_output -DtopN=19; -
出力の説明
docid
keywords
weight
doc0
based-on
0.041306752223538405
doc0
algorithm
0.03089845626854151
doc0
modeling
0.021782865850562882
doc0
grid
0.020669749212693957
doc0
solver
0.020245609506360847
doc0
aircraft
0.019850761705313365
doc0
research
0.014193732541852615
doc0
finite element
0.013831122054200538
doc0
solving
0.012924593244133104
doc0
module
0.01280216562287212
doc0
derivation
0.011907588923852495
doc0
shape
0.011505456605632607
doc0
difference
0.011477831662367547
doc0
potential-flow
0.010969269350293957
doc0
design
0.010830986516637251
doc0
implement
0.010747536556701583
doc0
two-dimensional
0.010695570768457084
doc0
development
0.010527342662670088
doc0
new
0.010096978306668461