Ridge 回帰トレーニングコンポーネントの Platform for AI 設定 - PAI

Ridge 回帰（チコノフ正則化）は、病的問題（ill-posed problems）の回帰分析に用いられる正則化手法です。重み付きサンプルを伴う疎データおよび密データ形式をサポートします。

制限事項

サポートされるコンピューティングエンジン：MaxCompute、Flink、または DLC。

アルゴリズムの原理

Ridge 回帰は、多重共線性のあるデータを分析するためのバイアス推定回帰手法です。最小二乗推定法を改良し、不偏性を犠牲にすることで、より実用的かつ信頼性の高い回帰係数を得ます。このトレードオフにより若干の情報損失と精度低下が生じますが、標準的な最小二乗法よりも悪条件（ill-conditioned）データに対して優れた適合性を提供します。

パラメーターのビジュアル設定

入力ポート

ポート（左から右）	データ型	推奨される上流コンポーネント	必須
Data	None	Read Table Feature Engineering Data Preprocessing	Yes
Model	None	Read Table	No

パラメーター

タブ	パラメーター	説明
フィールド設定	目的変数列名	入力テーブル内の目的変数列の名前です。
	特徴量列配列	ベクター列名を指定している場合は設定できません。学習に使用する特徴量列の名前です。説明特徴量列配列とベクター列名は相互排他です。アルゴリズムの入力特徴量を指定するには、いずれか一方のみを使用してください。
	ベクター列名	特徴量列配列を指定している場合は設定できません。ベクター列の名前です。説明特徴量列配列とベクター列名は相互排他です。アルゴリズムの入力特徴量を指定するには、いずれか一方のみを使用してください。
	重み列名	重み列の名前です。
パラメーター設定	正則化係数：lambda	正則化項の係数です。データ型：DOUBLE。
	収束しきい値	反復法が収束したかどうかを判定するしきい値です。デフォルト値：1.0E-6。
	学習率	モデル学習中にパラメーターを更新する速度を制御します。デフォルト値：0.1。
	最大反復回数	最大反復回数です。デフォルト値：100。
	最適化手法	問題を解くために使用する最適化手法です。有効値： LBFGS GD Newton SGD OWLQN
実行チューニング	ワーカー数	ワーカーあたりのメモリとともに使用します。1 ～ 9999 の正の整数である必要があります。
実行チューニング	ワーカーあたりのメモリ (MB)	値の範囲は 1024 MB ～ 64 × 1024 MB です。

出力ポート

ポート（左から右）	データ型	後続コンポーネント
モデル	回帰モデル	リッジ回帰予測
モデル情報	なし	なし
特徴量の重要度	なし	なし
線形モデルの重み係数	なし	なし

コードによる設定

次のコードを PyAlink Script コンポーネントにコピーして、同じ機能を実現できます。

from pyalink.alink import *

def main(sources, sinks, parameter):
    batchData = sources[0]
    ridge = RidgeRegTrainBatchOp()\
        .setLambda(0.1)\
        .setFeatureCols(["f0","f1"])\
        .setLabelCol("label")
    model = batchData.link(ridge)
    model.link(sinks[0])
    BatchOperator.execute()