Algoritma regresi Least Absolute Shrinkage and Selection Operator (LASSO) dapat mengimplementasikan estimasi kompresi. Komponen Pelatihan Regresi Lasso dikembangkan berdasarkan algoritma LASSO. Komponen ini mendukung data jarang dan padat serta memungkinkan penggunaan sampel data tertimbang untuk pelatihan. Topik ini menjelaskan cara mengonfigurasi komponen Pelatihan Regresi Lasso.
Batasan
Komponen Pelatihan Regresi Ridge hanya dapat digunakan dengan salah satu sumber daya komputasi berikut: MaxCompute, Realtime Compute for Apache Flink, atau Deep Learning Containers (DLC) dari Platform for AI (PAI).
Cara kerja LASSO
LASSO membuat fungsi penalti untuk menghasilkan model yang lebih halus. Algoritma ini dapat mengecilkan beberapa koefisien regresi dan menetapkan koefisien regresi tertentu menjadi nol. Jika suatu koefisien diperkecil, jumlah nilai absolut dari koefisien tersebut akan kurang dari nilai tetap. Dengan cara ini, LASSO mempertahankan fitur bermanfaat dari penyusutan subset dan menerapkan estimasi bias pada data multikolinearitas.
Konfigurasikan komponen di konsol PAI
Port Input
Port input (kiri ke kanan)
Tipe data
Komponen hulu yang direkomendasikan
Diperlukan
data
Tidak ada
Ya
model
Model LASSO (untuk pelatihan tambahan)
Baca Tabel (untuk membaca data model)
Pelatihan Regresi Lasso
Tidak
Parameter Komponen
Tab
Parameter
Deskripsi
Field Setting
labelCol
Nama kolom label dalam tabel input.
featureCols
Jika Anda telah menetapkan parameter vectorCol, parameter ini tidak dapat ditetapkan.
Kolom fitur yang digunakan untuk pelatihan.
CatatanParameter featureCols dan vectorCol saling eksklusif. Anda hanya dapat menggunakan salah satu dari mereka untuk menggambarkan fitur input algoritma.
vectorCol
Jika Anda telah menetapkan parameter featureCols, parameter ini tidak dapat ditetapkan.
Nama kolom vektor.
CatatanParameter featureCols dan vectorCol saling eksklusif. Anda hanya dapat menggunakan salah satu dari mereka untuk menggambarkan fitur input algoritma.
weightCol
Nama kolom bobot.
Parameter Setting
lambda
Koefisien regularisasi bertipe DOUBLE.
epsilon
Nilai yang Anda harapkan untuk diperoleh dari hasil pelatihan sebelum iterasi berhenti. Nilai default: 1.0E-6.
LearningRate
Kecepatan pembaruan parameter selama pelatihan model. Nilai default: 0.1.
maxIter
Jumlah maksimum iterasi. Nilai default: 100.
optimMethod
Metode optimasi yang digunakan untuk meningkatkan pemecahan masalah. Nilai valid:
LBFGS
GD
Newton
SGD
OWLQN
Execution Tuning
Number of Workers
Jumlah inti. Parameter ini harus digunakan bersama dengan parameter Memory per worker, unit MB. Nilai parameter ini harus bilangan bulat positif. Nilai valid: [1,9999].
Memory per worker, unit MB
Ukuran memori setiap pekerja. Nilai valid: 1024 hingga 65536. Unit: MB.
Port Output
Output Port
Tipe data
Komponen hilir
model
Model regresi
informasi model
Tidak ada
Tidak ada
pentingnya fitur
Tidak ada
Tidak ada
bobot model linier
Tidak ada
Tidak ada
Konfigurasikan komponen dengan coding
Anda dapat menyalin kode berikut ke editor kode komponen PyAlink Script. Ini memungkinkan komponen PyAlink Script berfungsi seperti komponen Pelatihan Regresi Lasso.
from pyalink.alink import *
def main(sources, sinks, parameter):
batchData = sources[0]
ridge = LassoRegTrainBatchOp()\
.setLambda(0.1)\
.setFeatureCols(["f0","f1"])\
.setLabelCol("label")
model = batchData.link(ridge)
model.link(sinks[0])
BatchOperator.execute()