Lasso 回帰トレーニングコンポーネントの Platform for AI 設定 - PAI

最小絶対値縮小選択演算子 (Lasso) 回帰アルゴリズムは、圧縮推定を実行します。ラッソ回帰トレーニングコンポーネントは、このアルゴリズムを使用して、重み付きサンプルを含むスパースデータと密なデータでモデルをトレーニングします。このトピックでは、コンポーネントの設定方法について説明します。

制限事項

サポートされている計算エンジンは、MaxCompute、Flink、または DLC です。

アルゴリズムの原理

ラッソ回帰アルゴリズムは、ペナルティ関数を作成することで、より洗練されたモデルを構築します。この関数は、回帰係数の一部の絶対値の合計を固定値未満にすることで縮小し、他の回帰係数をゼロに設定します。このメソッドは、サブセット縮小の利点を維持し、多重共線性データを処理するための不偏推定を提供します。

ウィジェットパラメーターのビジュアル構成

入力ポート

入力ポート (左から右へ)	データ型	推奨されるアップストリームコンポーネント	必須
データ	なし	テーブル読み込み特徴量エンジニアリングデータ前処理	はい
モデル	ラッソモデル (増分トレーニング用)	テーブル読み込み (モデルデータテーブル) ラッソ回帰トレーニング	いいえ

コンポーネントパラメーター

タブ	パラメーター	説明
フィールド設定	対象カラム名	入力テーブル内の対象カラムの名称です。
	特徴カラム配列	ベクターカラム名を指定済みの場合、このパラメーターは設定できません。学習に使用する特徴カラムの名称です。説明特徴カラム配列とベクターカラム名は相互排他です。アルゴリズムへの入力特徴を指定するには、いずれか一方のみを使用してください。
	ベクターカラム名	特徴カラム配列を指定済みの場合、このパラメーターは設定できません。ベクターカラムの名称です。説明特徴カラム配列とベクターカラム名は相互排他です。アルゴリズムへの入力特徴を指定するには、いずれか一方のみを使用してください。
	重みカラム名	重みカラムの名称です。
パラメーター設定	ペナルティ係数：lambda	正則化項の係数です。データの型は DOUBLE です。
	収束しきい値	反復法が収束したと判断するためのしきい値です。デフォルト値：1.0E-6。
	学習率	モデル学習時のパラメーター更新速度を制御します。デフォルト値：0.1。
	最大反復回数	最大反復回数です。デフォルト値：100。
	最適化メソッド	問題を解くために使用される最適化メソッドです。有効な値： LBFGS GD Newton SGD OWLQN
実行チューニング	ワーカー数	ワーカーあたりのメモリ量パラメーターと併用します。このパラメーターは、1 ～ 9999 の正の整数である必要があります。
実行チューニング	ワーカーあたりのメモリ量 (MB)	値の範囲は、1024 MB ～ 64 × 1024 MB です。

出力ポート

出力ポート (左から右へ)	データ型	ダウンストリームコンポーネント
モデル	回帰モデル	ラッソ回帰予測
モデル情報	なし	なし
特徴量の重要度	なし	なし
線形モデルの重み係数	なし	なし

コードを使用したコンポーネントの構成

次のコードを PyAlink スクリプトコンポーネントにコピーして、同じ機能を実行できます。

from pyalink.alink import *

def main(sources, sinks, parameter):
    batchData = sources[0]
    ridge = LassoRegTrainBatchOp()\
        .setLambda(0.1)\
        .setFeatureCols(["f0","f1"])\
        .setLabelCol("label")
    model = batchData.link(ridge)
    model.link(sinks[0])
    BatchOperator.execute()