Ridge 回帰予測コンポーネントの Platform for AI 設定 - PAI

リッジ回帰予測コンポーネントは、スパースおよび密なデータ形式をサポートします。住宅価格、販売数量、湿度などの数値変数の予測に使用されます。本トピックでは、リッジ回帰予測コンポーネントの設定方法について説明します。

制限事項

対応するコンピューティングエンジンは、MaxCompute、Flink、または DLC です。

アルゴリズムの仕組み

リッジ回帰は、多重共線性のあるデータ解析に用いられるバイアス付き推定回帰手法であり、最小二乗推定法の改良版です。最小二乗法の不偏性を若干犠牲にすることで、より実用的かつ信頼性の高い回帰係数を得ます。このトレードオフには、一部の情報損失と精度低下というコストが伴いますが、標準的な最小二乗法よりも、条件数が悪化した（ill-conditioned）データに対してより適切なフィットを提供します。

コンポーネントパラメーターのビジュアル設定

入力ポート

入力ポート（左から右へ）	データ型	推奨される上流コンポーネント	必須
予測用入力モデル	なし	リッジ回帰学習	はい
入力データ	なし	テーブルの読み込み特徴量エンジニアリングデータ前処理	はい

コンポーネントパラメーター

タブ	パラメーター	説明
フィールド設定	アルゴリズムで予約する列名	アルゴリズムで予約する列の名前を選択します。
フィールド設定	ベクター列	ベクター列の名前です。
パラメーター設定	予測結果列	予測結果を格納する列の名前です。
パラメーター設定	スレッド数	コンポーネントで使用するスレッド数です。デフォルト値は 1 です。
実行チューニング	ワーカー数	ワーカーあたりのメモリ (MB) パラメーターと併用します。値は 1 ～ 9999 の正の整数である必要があります。
実行チューニング	ワーカーあたりのメモリ (MB)	値は 1024 MB ～ 64 × 1024 MB の範囲である必要があります。

コードによるコンポーネントの設定

以下のコードをPyAlink スクリプトコンポーネントにコピーして実行すると、本コンポーネントと同等の機能を実現できます。

from pyalink.alink import *

def main(sources, sinks, parameter):
    model = sources[0]
    batchData = sources[1]

    predictor = RidgeRegPredictBatchOp()\
        .setPredictionCol("pred")
    result = predictor.linkFrom(model, batchData)
    result.link(sinks[0])
    BatchOperator.execute()