すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:最小最大スケーラー列車

最終更新日:Jul 22, 2024

データの前処理で列データの量と範囲による影響を減らすために、列データを正規化できます。 正規化後、異なる列のデータは同じ値の範囲内に入ります。

制限事項

サポートされているコンピューティングエンジンは、MaxComputeとApache Flinkです。

概要

このコンポーネントは、次の式を使用して、値をminValueとmaxValueの閉じた区間にある値に変換します。(value - min)/(max - min) × (maxValue - minValue) + minValue。 maxおよびminは、列データの最大値および最小値を示す。

minValueとmaxValueはカスタマイズできます。 デフォルトでは、minValueは0に、maxValueは1に設定されます。

このコンポーネントを実行すると、min-max正規化モデルが生成されます。 使用する正規化コンポーネントのモデルを指定できます。

Machine Learning Designerでコンポーネントを構成する

入力ポート

入力ポート (左から右へ)

データ型

推奨上流コンポーネント

必須/任意

data

Integer

None

コンポーネントパラメータ

タブ

項目

説明

フィールド設定

selectedCols

処理する列。The columns that you want to process. 数値型の列のみを選択できます。

パラメーター設定

max

値の範囲の上限。 値はDOUBLE型でなければなりません。 デフォルト値 : 1.0

min

値の範囲の下限。 値はDOUBLE型でなければなりません。 デフォルト値: 0.0

実行チューニング

数の労働者

労働者の数。 このパラメーターは、Memory per worker, unit MBパラメーターと一緒に使用する必要があります。 このパラメーターの値は正の整数でなければなりません。 有効な値: [1,9999] 。

ワーカあたりのメモリ、単位MB

各ワーカーのメモリサイズ。 有効値: 1024〜65536 (64 × 1024) 。 単位:MB。

出力ポート

出力ポート (左から右へ)

ストレージ

推奨下流コンポーネント

モデルタイプ

モデル

N/A

最小最大スケーラーのバッチ予測

None

例:

次のコードをPyAlink Scriptコンポーネントのコードエディターにコピーできます。 これにより、PyAlinkスクリプトコンポーネントはこのコンポーネントのように機能します。

from pyalink.alink import *

def main(sources, sinks, parameter):
    data = sources[0]
    selectedColNames = ["col2", "col3"]
    trainOp = MinMaxScalerTrainBatchOp()\
               .setSelectedCols(selectedColNames)
    result = trainOp.linkFrom(data)
    result.link(sinks[0])
		BatchOperator.execute()