データ変換モジュールを使用すると、データの正規化、離散化、インデックス化、または証拠重み(Weight of Evidence:WOE)変換を実行できます。
コンポーネントの設定
データ変換モジュールのコンポーネントパラメーターは、以下のいずれかの方法で設定できます。
方法 1:GUI を使用する
コンポーネントパラメーターは、Designer のワークフローページで設定できます。
|
タブ |
パラメーター |
説明 |
|
フィールド設定 |
入力テーブルの特徴量カラム |
入力テーブルから取得する特徴量カラムです。デフォルトでは、すべてのカラムが選択されます。 |
|
変換対象外のカラム |
選択したカラムは、変更されずにそのまま出力テーブルに渡されます。ラベルカラムをここで指定できます。 |
|
|
データ変換タイプ |
サポートされる変換タイプには、正規化、離散化、WOE 変換、および インデックス があります。 |
|
|
デフォルト WOE 値 |
このパラメーターは、データ変換タイプ を WOE 変換 に設定した場合にのみ有効です。 このパラメーターを指定すると、WOE 値が定義されていないビンに該当するサンプル値は、この値で置き換えられます。このパラメーターを指定しない場合、WOE 値が定義されていないビンに該当するサンプル値が検出された際に、アルゴリズムでエラーが報告されます。 |
|
|
実行チューニング |
CPU コア数 |
使用する CPU コア数です。デフォルトでは、システムが自動的にコアを割り当てます。 |
|
コアあたりのメモリ量 |
各 CPU コアに割り当てるメモリ量です。デフォルトでは、システムが自動的にメモリを割り当てます。 |
方法 2:PAI コマンドを使用する
SQL スクリプトコンポーネント内で PAI コマンドを使用して、コンポーネントパラメーターを設定できます。詳細については、「SQL スクリプト」をご参照ください。
PAI -name data_transform
-project algo_public
-DinputFeatureTableName=feature_table
-DinputBinTableName=bin_table
-DoutputTableName=output_table
-DmetaColNames=label
-DfeatureColNames=feaname1,feaname2
|
パラメーター |
説明 |
必須 |
デフォルト値 |
|
inputFeatureTableName |
入力特徴量テーブルです。 |
はい |
なし |
|
inputBinTableName |
入力ビニング結果テーブルです。 |
はい |
なし |
|
inputFeatureTablePartitions |
入力特徴量テーブルから使用するパーティションです。 |
いいえ |
完全な表 |
|
outputTableName |
出力テーブルです。 |
はい |
なし |
|
featureColNames |
入力テーブルから選択する特徴量カラムです。 |
いいえ |
すべてのカラム |
|
metaColNames |
変換対象外のカラムです。選択したカラムは、変更されずにそのまま出力テーブルに渡されます。ラベルや sample_id などのカラムを指定できます。 |
いいえ |
なし |
|
transformType |
データ変換のタイプです。有効な値は以下のとおりです。
|
いいえ |
dummy |
|
itemDelimiter |
特徴量の区切り文字です。離散化の場合のみ有効です。 |
いいえ |
カンマ (,) |
|
kvDelimiter |
キーと値の区切り文字です。離散化の場合のみ有効です。 |
いいえ |
コロン (:) |
|
lifecycle |
出力テーブルのライフサイクルです。 |
いいえ |
なし |
|
coreNum |
使用する CPU コア数です。 |
いいえ |
システム計算値 |
|
memSizePerCore |
各 CPU コアに割り当てるメモリ量(MB 単位)です。 |
いいえ |
システム計算値 |
正規化では、入力ビニング情報に基づいて、変数の値を 0 ~ 1 の範囲に変換します。欠損値は 0 で補完されます。アルゴリズムは以下のとおりです。
if feature_raw_value == null or feature_raw_value == 0 then
feature_norm_value = 0.0
else
bin_index = FindBin(bin_table, feature_raw_value)
bin_width = round(1.0 / bin_count * 1000) / 1000.0
feature_norm_value = 1.0 - (bin_count - bin_index - 1) * bin_width
データ変換モジュールによるデータ変換の種類によって、出力フォーマットは異なります。
-
正規化および WOE 変換では、標準テーブルが出力されます。
-
ダミー変数への離散化では、キー・バリュー(KV)形式のテーブルが出力されます。生成される変数の名前は ${feaname}]\_bin\_${bin_id} の形式になります。たとえば、sns という変数の場合、生成される変数は以下のとおりです。
-
sns が 2 番目のビンに該当する場合、生成される変数は [sns]_bin_2 です。
-
sns が空の場合、null ビンに該当し、生成される変数は [sns]_bin_null です。
-
sns が空でなく、かつ定義済みのどのビンにも該当しない場合、else ビンに該当し、生成される変数は [sns]_bin_else です。
-