Algoritma regresi Least Absolute Shrinkage and Selection Operator (Lasso) melakukan estimasi kompresi. Komponen Lasso Regression Training menggunakan algoritma ini untuk melatih model pada data sparse dan dense, termasuk sampel berbobot. Topik ini menjelaskan cara mengonfigurasi komponen tersebut.
Batasan
Mesin komputasi yang didukung adalah MaxCompute, Flink, atau DLC.
Prinsip algoritma
Algoritma regresi Lasso membangun model yang lebih sederhana dengan menerapkan fungsi penalty. Fungsi ini mengecilkan beberapa koefisien regresi dengan membatasi jumlah nilai absolutnya agar tidak melebihi nilai tetap tertentu, serta menetapkan koefisien regresi lainnya menjadi nol. Pendekatan ini mempertahankan manfaat subset shrinkage dan memberikan estimasi bias untuk menangani data multikolinear.
Konfigurasi visual parameter widget
-
Port input
Input port (dari kiri ke kanan)
Tipe data
Komponen hulu yang direkomendasikan
Wajib
Data
None
Yes
Model
Lasso model (untuk pelatihan inkremental)
-
Read Table (tabel data model)
-
Lasso Regression Training
No
-
-
Parameter komponen
Tab
Parameter
Deskripsi
Field Settings
Target column name
Nama kolom target dalam tabel input.
Feature column array
Parameter ini tidak dapat dikonfigurasi jika Anda telah menentukan Vector column name.
Nama kolom fitur yang digunakan untuk pelatihan.
CatatanFeature column array dan Vector column name saling eksklusif. Anda hanya dapat menggunakan salah satunya untuk menentukan fitur input bagi algoritma.
Vector column name
Parameter ini tidak dapat dikonfigurasi jika Anda telah menentukan Feature column array.
Nama kolom vektor.
CatatanFeature column array dan Vector column name saling eksklusif. Anda hanya dapat menggunakan salah satunya untuk menentukan fitur input bagi algoritma.
Weight column name
Nama kolom bobot.
Parameter Settings
Penalty factor: lambda
Koefisien dari suku Regularisasi. Tipe datanya adalah DOUBLE.
Convergence threshold
Ambang batas untuk menentukan apakah metode iteratif telah konvergen. Nilai default: 1.0E-6.
Learning rate
Mengontrol kecepatan pembaruan parameter selama pelatihan model. Nilai default: 0.1.
Maximum number of iterations
Jumlah maksimum iterasi. Nilai default: 100.
Optimization method
Metode optimasi yang digunakan untuk menyelesaikan permasalahan. Nilai yang valid:
-
LBFGS
-
GD
-
Newton
-
SGD
-
OWLQN
Execution Tuning
Number of workers
Digunakan bersama parameter Memory per worker. Parameter ini harus berupa bilangan bulat positif dari 1 hingga 9999.
Memory per worker (MB)
Nilainya berkisar antara 1024 MB hingga 64 × 1024 MB.
-
-
Port output
Output port (dari kiri ke kanan)
Tipe data
Komponen hilir
Model
Regression model
Model information
None
None
Feature importance
None
None
Linear model weight coefficients
None
None
Konfigurasi komponen menggunakan kode
Anda dapat menyalin kode berikut ke komponen PyAlink Script untuk menjalankan fungsi yang sama.
from pyalink.alink import *
def main(sources, sinks, parameter):
batchData = sources[0]
ridge = LassoRegTrainBatchOp()\
.setLambda(0.1)\
.setFeatureCols(["f0","f1"])\
.setLabelCol("label")
model = batchData.link(ridge)
model.link(sinks[0])
BatchOperator.execute()