データの前処理で列データの量と範囲による影響を減らすために、列データを正規化できます。 正規化後、異なる列のデータは同じ値の範囲内に入ります。
制限事項
サポートされているコンピューティングエンジンは、MaxComputeとApache Flinkです。
概要
このコンポーネントは、次の式を使用して、値をminValueとmaxValueの閉じた区間にある値に変換します。(value - min)/(max - min) × (maxValue - minValue) + minValue。 maxおよびminは、列データの最大値および最小値を示す。
minValueとmaxValueはカスタマイズできます。 デフォルトでは、minValueは0に、maxValueは1に設定されます。
このコンポーネントを実行すると、min-max正規化モデルが生成されます。 使用する正規化コンポーネントのモデルを指定できます。
Machine Learning Designerでコンポーネントを構成する
入力ポート
入力ポート (左から右へ) | データ型 | 推奨上流コンポーネント | 必須/任意 |
data | Integer | None | 可 |
コンポーネントパラメータ
タブ | 項目 | 説明 |
フィールド設定 | selectedCols | 処理する列。The columns that you want to process. 数値型の列のみを選択できます。 |
パラメーター設定 | max | 値の範囲の上限。 値はDOUBLE型でなければなりません。 デフォルト値 : 1.0 |
min | 値の範囲の下限。 値はDOUBLE型でなければなりません。 デフォルト値: 0.0 | |
実行チューニング | 数の労働者 | 労働者の数。 このパラメーターは、Memory per worker, unit MBパラメーターと一緒に使用する必要があります。 このパラメーターの値は正の整数でなければなりません。 有効な値: [1,9999] 。 |
ワーカあたりのメモリ、単位MB | 各ワーカーのメモリサイズ。 有効値: 1024〜65536 (64 × 1024) 。 単位:MB。 |
出力ポート
出力ポート (左から右へ) | ストレージ | 推奨下流コンポーネント | モデルタイプ |
モデル | N/A | None |
例:
次のコードをPyAlink Scriptコンポーネントのコードエディターにコピーできます。 これにより、PyAlinkスクリプトコンポーネントはこのコンポーネントのように機能します。
from pyalink.alink import *
def main(sources, sinks, parameter):
data = sources[0]
selectedColNames = ["col2", "col3"]
trainOp = MinMaxScalerTrainBatchOp()\
.setSelectedCols(selectedColNames)
result = trainOp.linkFrom(data)
result.link(sinks[0])
BatchOperator.execute()