すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:ランダムフォレスト機能の重要性評価

最終更新日:Jan 10, 2025

ランダムフォレストにおける特徴重要性評価は、ランダムフォレストモデルにおける予測結果に対する各特徴の寄与を分析するために使用される方法である。 この方法は、各特徴がすべての決定木にわたって平均不純物をどれだけ減少させるか、またはどれだけ置換がモデルの精度を減少させるかを計算することによって、モデルの重要性を決定する。 このように、本方法は、モデル性能に最も重要な特徴を識別するのに役立つことができる。

コンポーネントの設定

方法1: パイプラインページでコンポーネントを設定する

Machine Learning Designerのパイプラインの詳細ページで、ランダムフォレストフィーチャの重要性評価コンポーネントをパイプラインに追加し、次の表に示すパラメーターを設定します。

タブ

パラメーター

説明

フィールド設定

フィーチャー列

必要に応じて、 トレーニング用に入力テーブルから選択されたフィーチャ列。 デフォルトでは、ラベル列以外のすべての列が選択されます。

ターゲット列

必須。 ラベル列。

Directoryアイコンをクリックします。 [列の選択] ダイアログボックスで、検索する列のキーワードを入力します。 列を選択し、[OK] をクリックします。

パラメーター設定

並列計算コア

必要に応じて、 並列コンピューティングで使用されるコアの数。

コアあたりのメモリサイズ

必要に応じて、 各コアのメモリサイズ。 単位:MB。

方法2: PAIコマンドを使用する

PAIコマンドを使用してコンポーネントパラメータを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「シナリオ4: SQLスクリプトコンポーネント内でPAIコマンドを実行する」をご参照ください。

pai -name feature_importance -project algo_public
    -DinputTableName=pai_dense_10_10
    -DmodelName=xlab_m_random_forests_1_20318_v0
    -DoutputTableName=erkang_test_dev.pai_temp_2252_20319_1
    -DlabelColName=y
    -DfeatureColNames="pdays,previous,emp_var_rate,cons_price_idx,cons_conf_idx,euribor3m,nr_employed,age,campaign,poutcome"
    -Dlifecycle=28 ;

パラメーター

必須 / 任意

デフォルト値

説明

inputTableName

対象

デフォルト値なし

入力テーブルの名前。

outputTableName

対象

デフォルト値なし

出力テーブルの名前。

labelColName

対象

デフォルト値なし

入力テーブルのラベル列の名前。

modelName

対象

デフォルト値なし

入力モデルの名前。

featureColNames

非対象

ラベル列以外のすべての列

トレーニング用に入力テーブルから選択されたフィーチャ列。

inputTablePartitions

非対象

すべてのパーティション

トレーニング用に入力テーブルから選択されたパーティション。

ライフサイクル

非対象

指定なし

出力テーブルのライフサイクル。

coreNum

非対象

システムによって決定される

コアの数。

memSizePerCore

非対象

システムによって決定される

各コアのメモリサイズ。 単位:MB。

例:

  1. 次のSQL文を実行してトレーニングデータを生成します。

    この例では、bank_dataテーブルの上位10個のデータレコードを選択して、pai_dense_10_10という名前のテーブルを作成します。 ビジネス要件に基づいてテーブルを作成できます。

    drop table if exists pai_dense_10_10;
    create table pai_dense_10_10 as
    select
        age,campaign,pdays, previous, poutcome, emp_var_rate, cons_price_idx, cons_conf_idx, euribor3m, nr_employed, y
    from bank_data limit 10;
  2. 次の図に示す実験を作成します。 詳細については、「カスタムパイプライン」をご参照ください。

    データソースはpai_dense_10_10です。 yはランダムフォレストモデルのラベル列で、その他の列はフィーチャ列です。 [変換強制列] パラメーターの [年齢][キャンペーン] を選択します。 これは、2つの列が列挙された機能として処理され、他の列のデフォルト設定が保持されることを示します。 Generate a model

  3. 実験を実行し、予測結果を表示します。 Result

  4. 実験の実行後、[ランダムフォレストフィーチャの重要性評価] コンポーネントを右クリックし、[分析レポートの表示] を選択して結果を表示します。 Analysis report