すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:データ変換

最終更新日:Mar 06, 2026

データ変換モジュールを使用すると、データの正規化、離散化、インデックス化、または証拠重み(Weight of Evidence:WOE)変換を実行できます。

コンポーネントの設定

データ変換モジュールのコンポーネントパラメーターは、以下のいずれかの方法で設定できます。

方法 1:GUI を使用する

コンポーネントパラメーターは、Designer のワークフローページで設定できます。

タブ

パラメーター

説明

フィールド設定

入力テーブルの特徴量カラム

入力テーブルから取得する特徴量カラムです。デフォルトでは、すべてのカラムが選択されます。

変換対象外のカラム

選択したカラムは、変更されずにそのまま出力テーブルに渡されます。ラベルカラムをここで指定できます。

データ変換タイプ

サポートされる変換タイプには、正規化離散化WOE 変換、および インデックス があります。

デフォルト WOE 値

このパラメーターは、データ変換タイプWOE 変換 に設定した場合にのみ有効です。

このパラメーターを指定すると、WOE 値が定義されていないビンに該当するサンプル値は、この値で置き換えられます。このパラメーターを指定しない場合、WOE 値が定義されていないビンに該当するサンプル値が検出された際に、アルゴリズムでエラーが報告されます。

実行チューニング

CPU コア数

使用する CPU コア数です。デフォルトでは、システムが自動的にコアを割り当てます。

コアあたりのメモリ量

各 CPU コアに割り当てるメモリ量です。デフォルトでは、システムが自動的にメモリを割り当てます。

方法 2:PAI コマンドを使用する

SQL スクリプトコンポーネント内で PAI コマンドを使用して、コンポーネントパラメーターを設定できます。詳細については、「SQL スクリプト」をご参照ください。

PAI -name data_transform
-project algo_public
-DinputFeatureTableName=feature_table
-DinputBinTableName=bin_table
-DoutputTableName=output_table
-DmetaColNames=label
-DfeatureColNames=feaname1,feaname2

パラメーター

説明

必須

デフォルト値

inputFeatureTableName

入力特徴量テーブルです。

はい

なし

inputBinTableName

入力ビニング結果テーブルです。

はい

なし

inputFeatureTablePartitions

入力特徴量テーブルから使用するパーティションです。

いいえ

完全な表

outputTableName

出力テーブルです。

はい

なし

featureColNames

入力テーブルから選択する特徴量カラムです。

いいえ

すべてのカラム

metaColNames

変換対象外のカラムです。選択したカラムは、変更されずにそのまま出力テーブルに渡されます。ラベルや sample_id などのカラムを指定できます。

いいえ

なし

transformType

データ変換のタイプです。有効な値は以下のとおりです。

  • normalize:正規化

  • dummy:離散化

  • woe:WOE 変換

いいえ

dummy

itemDelimiter

特徴量の区切り文字です。離散化の場合のみ有効です。

いいえ

カンマ (,)

kvDelimiter

キーと値の区切り文字です。離散化の場合のみ有効です。

いいえ

コロン (:)

lifecycle

出力テーブルのライフサイクルです。

いいえ

なし

coreNum

使用する CPU コア数です。

いいえ

システム計算値

memSizePerCore

各 CPU コアに割り当てるメモリ量(MB 単位)です。

いいえ

システム計算値

正規化では、入力ビニング情報に基づいて、変数の値を 0 ~ 1 の範囲に変換します。欠損値は 0 で補完されます。アルゴリズムは以下のとおりです。

if feature_raw_value == null or feature_raw_value == 0 then
    feature_norm_value = 0.0
else
    bin_index = FindBin(bin_table, feature_raw_value)
    bin_width = round(1.0 / bin_count * 1000) / 1000.0
    feature_norm_value = 1.0 - (bin_count - bin_index - 1) * bin_width

データ変換モジュールによるデータ変換の種類によって、出力フォーマットは異なります。

  • 正規化および WOE 変換では、標準テーブルが出力されます。

  • ダミー変数への離散化では、キー・バリュー(KV)形式のテーブルが出力されます。生成される変数の名前は ${feaname}]\_bin\_${bin_id} の形式になります。たとえば、sns という変数の場合、生成される変数は以下のとおりです。

    • sns が 2 番目のビンに該当する場合、生成される変数は [sns]_bin_2 です。

    • sns が空の場合、null ビンに該当し、生成される変数は [sns]_bin_null です。

    • sns が空でなく、かつ定義済みのどのビンにも該当しない場合、else ビンに該当し、生成される変数は [sns]_bin_else です。