リッジ回帰予測コンポーネントは、スパースおよび密なデータ形式をサポートします。住宅価格、販売数量、湿度などの数値変数の予測に使用されます。本トピックでは、リッジ回帰予測コンポーネントの設定方法について説明します。
制限事項
対応するコンピューティングエンジンは、MaxCompute、Flink、または DLC です。
アルゴリズムの仕組み
リッジ回帰は、多重共線性のあるデータ解析に用いられるバイアス付き推定回帰手法であり、最小二乗推定法の改良版です。最小二乗法の不偏性を若干犠牲にすることで、より実用的かつ信頼性の高い回帰係数を得ます。このトレードオフには、一部の情報損失と精度低下というコストが伴いますが、標準的な最小二乗法よりも、条件数が悪化した(ill-conditioned)データに対してより適切なフィットを提供します。
コンポーネントパラメーターのビジュアル設定
-
入力ポート
入力ポート(左から右へ)
データ型
推奨される上流コンポーネント
必須
予測用入力モデル
なし
はい
入力データ
なし
はい
-
コンポーネントパラメーター
タブ
パラメーター
説明
フィールド設定
アルゴリズムで予約する列名
アルゴリズムで予約する列の名前を選択します。
ベクター列
ベクター列の名前です。
パラメーター設定
予測結果列
予測結果を格納する列の名前です。
スレッド数
コンポーネントで使用するスレッド数です。デフォルト値は 1 です。
実行チューニング
ワーカー数
ワーカーあたりのメモリ (MB) パラメーターと併用します。値は 1 ~ 9999 の正の整数である必要があります。
ワーカーあたりのメモリ (MB)
値は 1024 MB ~ 64 × 1024 MB の範囲である必要があります。
コードによるコンポーネントの設定
以下のコードをPyAlink スクリプトコンポーネントにコピーして実行すると、本コンポーネントと同等の機能を実現できます。
from pyalink.alink import *
def main(sources, sinks, parameter):
model = sources[0]
batchData = sources[1]
predictor = RidgeRegPredictBatchOp()\
.setPredictionCol("pred")
result = predictor.linkFrom(model, batchData)
result.link(sinks[0])
BatchOperator.execute()