最小絶対値縮小選択演算子 (Lasso) 回帰アルゴリズムは、圧縮推定を実行します。ラッソ回帰トレーニングコンポーネントは、このアルゴリズムを使用して、重み付きサンプルを含むスパースデータと密なデータでモデルをトレーニングします。このトピックでは、コンポーネントの設定方法について説明します。
制限事項
サポートされている計算エンジンは、MaxCompute、Flink、または DLC です。
アルゴリズムの原理
ラッソ回帰アルゴリズムは、ペナルティ関数を作成することで、より洗練されたモデルを構築します。この関数は、回帰係数の一部の絶対値の合計を固定値未満にすることで縮小し、他の回帰係数をゼロに設定します。このメソッドは、サブセット縮小の利点を維持し、多重共線性データを処理するための不偏推定を提供します。
ウィジェットパラメーターのビジュアル構成
-
入力ポート
入力ポート (左から右へ)
データ型
推奨されるアップストリームコンポーネント
必須
データ
なし
はい
モデル
ラッソモデル (増分トレーニング用)
-
テーブル読み込み (モデルデータテーブル)
-
ラッソ回帰トレーニング
いいえ
-
-
コンポーネントパラメーター
タブ
パラメーター
説明
フィールド設定
対象カラム名
入力テーブル内の対象カラムの名称です。
特徴カラム配列
ベクターカラム名 を指定済みの場合、このパラメーターは設定できません。
学習に使用する特徴カラムの名称です。
説明特徴カラム配列 と ベクターカラム名 は相互排他です。アルゴリズムへの入力特徴を指定するには、いずれか一方のみを使用してください。
ベクターカラム名
特徴カラム配列 を指定済みの場合、このパラメーターは設定できません。
ベクターカラムの名称です。
説明特徴カラム配列 と ベクターカラム名 は相互排他です。アルゴリズムへの入力特徴を指定するには、いずれか一方のみを使用してください。
重みカラム名
重みカラムの名称です。
パラメーター設定
ペナルティ係数:lambda
正則化項の係数です。データの型は DOUBLE です。
収束しきい値
反復法が収束したと判断するためのしきい値です。デフォルト値:1.0E-6。
学習率
モデル学習時のパラメーター更新速度を制御します。デフォルト値:0.1。
最大反復回数
最大反復回数です。デフォルト値:100。
最適化メソッド
問題を解くために使用される最適化メソッドです。有効な値:
-
LBFGS
-
GD
-
Newton
-
SGD
-
OWLQN
実行チューニング
ワーカー数
ワーカーあたりのメモリ量 パラメーターと併用します。このパラメーターは、1 ~ 9999 の正の整数である必要があります。
ワーカーあたりのメモリ量 (MB)
値の範囲は、1024 MB ~ 64 × 1024 MB です。
-
-
出力ポート
出力ポート (左から右へ)
データ型
ダウンストリームコンポーネント
モデル
回帰モデル
モデル情報
なし
なし
特徴量の重要度
なし
なし
線形モデルの重み係数
なし
なし
コードを使用したコンポーネントの構成
次のコードを PyAlink スクリプトコンポーネントにコピーして、同じ機能を実行できます。
from pyalink.alink import *
def main(sources, sinks, parameter):
batchData = sources[0]
ridge = LassoRegTrainBatchOp()\
.setLambda(0.1)\
.setFeatureCols(["f0","f1"])\
.setLabelCol("label")
model = batchData.link(ridge)
model.link(sinks[0])
BatchOperator.execute()