すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:機能の離散化

最終更新日:Dec 25, 2024

特徴離散化コンポーネントは、特定のルールに基づいて連続特徴を離散化する。

概要

フィーチャー離散化コンポーネントは、次のタイプの離散化をサポートします。

  • 数値データ型の密なフィーチャの離散化

  • 等周波数離散化や等幅離散化などの教師なし離散化

    説明

    デフォルトの教師なし離散化は、等幅離散化です。

  • Giniゲインベースの離散化やエントロピーゲインベースの離散化などの監視された離散化

    説明

    ラベルフィーチャ離散化のデータ型は、ENUM、STRING、またはBIGINTである必要があります。

  • 監視離散化は、一定の横断を実行することによってエントロピー利得に基づいてセグメント化点を探索するために使用される。 このタイプの離散化は、実行に長い時間を要することがある。 セグメンテーション後に取得されるビンの数は、maxBinsパラメータによって指定される値によって制限されません。

コンポーネントの設定

方法1: パイプラインページでコンポーネントを設定する

Machine Learning Platform for AI (PAI) のMachine Learning Designerのパイプラインページで、Feature Discretizationコンポーネントのパラメーターを設定できます。 Machine Learning Designerは、以前はMachine Learning Studioとして知られていました。 下表に、各パラメーターを説明します。

タブ

パラメーター

説明

フィールド設定

個別の機能

離散化を必要とする機能。

ラベル列

ラベル列。 このパラメーターを指定すると、フィーチャと目的変数の関係を表示するx-yヒストグラムを表示できます。

パラメーター設定

離散化法

離散化に使用されるメソッド。 有効な値:

  • アイソメトリック離散化

  • 等周波数の離散化

  • ジニゲインベースの離散化

  • エントロピー利得ベースの離散化

アイソメトリック離散化または等周波数離散化を使用することを推奨します。 他の2つの方法、Gini − gain − based DiscretizationおよびEntropy − gain − based Discretizationは、erperiment特性として理解することができる。 WOEメトリックが必要な場合は、「ビニング」をご参照ください。

離散化間隔

離散区間の数。 値は1より大きい正の整数でなければなりません。

チューニング

コア

コンピューティングで使用されるコアの数。 値は正の整数である必要があります。

コアあたりのメモリサイズ

各コアのメモリサイズ。

方法2: PAIコマンドの使用

PAIコマンドを使用してコンポーネントパラメータを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。

PAI -name fe_discrete_runner_1 -project algo_public
   -DdiscreteMethod=SameFrequecy
   -Dlifecycle=28
   -DmaxBins=5
   -DinputTable=pai_dense_10_1
   -DdiscreteCols=nr_employed
   -DoutputTable=pai_temp_2262_20382_1
   -DmodelTable=pai_temp_2262_20382_2;

パラメーター

必須 / 任意

説明

デフォルト値

inputTable

対象

入力テーブルの名前。

なし

inputTablePartitions

非対象

トレーニング用に入力テーブルから選択されたパーティション。 このパラメーターは、Partition_name=value形式で指定します。

マルチレベルパーティションを指定するには、このパラメーターをname1=value1/name2=value2; 形式で指定します。

複数のパーティションを指定する場合は、コンマで区切ります (,) 。

入力テーブルのすべてのパーティション

outputTable

対象

離散化後の出力テーブル。

なし

discreteCols

対象

離散化を必要とする機能。 スパースフィーチャは、システムによって自動的にフィルタリングされます。

""

labelCol

非対象

ラベル列。 このパラメーターを指定すると、フィーチャと目的変数の関係を表示するx-yヒストグラムを表示できます。

なし

discreteMethod

非対象

離散化に使用されるメソッド。 有効な値:

  • アイソメトリック離散化

  • 等周波数の離散化

  • ジニゲインベースの離散化

  • エントロピー利得ベースの離散化

アイソメトリック離散化

maxBins

非対象

離散区間の数。 値は1より大きい正の整数でなければなりません。

100

ライフサイクル

非対象

出力テーブルのライフサイクル。 値は正の整数である必要があります。

7

coreNum

非対象

コアの数。 このパラメーターは、memSizePerCoreパラメーターと一緒に使用されます。 値は正の整数である必要があります。

システムによって決定される

memSizePerCore

非対象

各コアのメモリサイズ。 単位:MB。 値は正の整数である必要があります。

システムによって決定される

  • 入力データ

    次のSQL文を実行して入力データを生成します。

    create table if not exists pai_dense_10_1 as
    select
        nr_employed
    from bank_data limit 10;
  • コンポーネントの設定

    入力テーブルはpai_dense_10_1です。 [フィールドの設定] タブで、Discrete Featuresパラメーターをnr_employedに設定します。 [パラメーターの設定] タブで、[離散化方法] パラメーターを [等しい幅の離散化] に設定し、[離散間隔] パラメーターを [5] に設定します。

  • 実行結果

    nr_employed

    4.0

    3.0

    1.0

    3.0

    2.0

    4.0

    3.0

    3.0

    2.0

    3.0