Ridge 回帰(チコノフ正則化)は、病的問題(ill-posed problems)の回帰分析に用いられる正則化手法です。重み付きサンプルを伴う疎データおよび密データ形式をサポートします。
制限事項
サポートされるコンピューティングエンジン:MaxCompute、Flink、または DLC。
アルゴリズムの原理
Ridge 回帰は、多重共線性のあるデータを分析するためのバイアス推定回帰手法です。最小二乗推定法を改良し、不偏性を犠牲にすることで、より実用的かつ信頼性の高い回帰係数を得ます。このトレードオフにより若干の情報損失と精度低下が生じますが、標準的な最小二乗法よりも悪条件(ill-conditioned)データに対して優れた適合性を提供します。
パラメーターのビジュアル設定
-
入力ポート
ポート(左から右)
データ型
推奨される上流コンポーネント
必須
Data
None
Yes
Model
None
No
-
パラメーター
タブ
パラメーター
説明
フィールド設定
目的変数列名
入力テーブル内の目的変数列の名前です。
特徴量列配列
ベクター列名 を指定している場合は設定できません。
学習に使用する特徴量列の名前です。
説明特徴量列配列 と ベクター列名 は相互排他です。アルゴリズムの入力特徴量を指定するには、いずれか一方のみを使用してください。
ベクター列名
特徴量列配列 を指定している場合は設定できません。
ベクター列の名前です。
説明特徴量列配列 と ベクター列名 は相互排他です。アルゴリズムの入力特徴量を指定するには、いずれか一方のみを使用してください。
重み列名
重み列の名前です。
パラメーター設定
正則化係数:lambda
正則化項の係数です。データ型:DOUBLE。
収束しきい値
反復法が収束したかどうかを判定するしきい値です。デフォルト値:1.0E-6。
学習率
モデル学習中にパラメーターを更新する速度を制御します。デフォルト値:0.1。
最大反復回数
最大反復回数です。デフォルト値:100。
最適化手法
問題を解くために使用する最適化手法です。有効値:
-
LBFGS
-
GD
-
Newton
-
SGD
-
OWLQN
実行チューニング
ワーカー数
ワーカーあたりのメモリ とともに使用します。1 ~ 9999 の正の整数である必要があります。
ワーカーあたりのメモリ (MB)
値の範囲は 1024 MB ~ 64 × 1024 MB です。
-
-
出力ポート
ポート(左から右)
データ型
後続コンポーネント
モデル
回帰モデル
モデル情報
なし
なし
特徴量の重要度
なし
なし
線形モデルの重み係数
なし
なし
コードによる設定
次のコードを PyAlink Script コンポーネントにコピーして、同じ機能を実現できます。
from pyalink.alink import *
def main(sources, sinks, parameter):
batchData = sources[0]
ridge = RidgeRegTrainBatchOp()\
.setLambda(0.1)\
.setFeatureCols(["f0","f1"])\
.setLabelCol("label")
model = batchData.link(ridge)
model.link(sinks[0])
BatchOperator.execute()