Regresi Ridge (Regularisasi Tikhonov) adalah metode regularisasi untuk analisis regresi pada permasalahan yang tidak terdefinisi dengan baik (ill-posed). Metode ini mendukung format data sparse dan dense dengan sampel berbobot.
Batasan
Mesin komputasi yang didukung: MaxCompute, Flink, atau DLC.
Prinsip algoritma
Regresi Ridge merupakan metode regresi estimasi bias yang digunakan untuk menganalisis data yang mengalami multikolinearitas. Metode ini memperbaiki estimasi kuadrat terkecil (least-squares) dengan mengorbankan ketidakbiasan (unbiasedness) demi memperoleh koefisien regresi yang lebih praktis dan andal. Pertukaran ini menyebabkan sedikit kehilangan informasi dan penurunan presisi, namun menghasilkan performa yang lebih baik pada data berkondisi buruk (ill-conditioned) dibandingkan metode kuadrat terkecil standar.
Konfigurasi parameter secara visual
-
Input port
Port (dari kiri ke kanan)
Tipe data
Komponen hulu yang direkomendasikan
Wajib
Data
None
Yes
Model
None
No
-
Parameter
Tab
Parameter
Deskripsi
Field Settings
Target column name
Nama kolom target dalam tabel input.
Feature column array
Tidak dapat dikonfigurasi jika Vector column name telah ditentukan.
Nama kolom fitur yang digunakan untuk pelatihan.
CatatanFeature column array dan Vector column name saling eksklusif. Gunakan hanya salah satu untuk menentukan fitur input bagi algoritma.
Vector column name
Tidak dapat dikonfigurasi jika Feature column array telah ditentukan.
Nama kolom vektor.
CatatanFeature column array dan Vector column name saling eksklusif. Gunakan hanya salah satu untuk menentukan fitur input bagi algoritma.
Weight column name
Nama kolom bobot.
Parameter Settings
Penalty factor: lambda
Koefisien dari suku regularisasi. Tipe data: DOUBLE.
Convergence threshold
Ambang batas untuk menentukan apakah metode iteratif telah konvergen. Nilai default: 1.0E-6.
Learning rate
Mengontrol kecepatan pembaruan parameter selama pelatihan model. Nilai default: 0.1.
Maximum number of iterations
Jumlah maksimum iterasi. Nilai default: 100.
Optimization method
Metode optimisasi yang digunakan untuk menyelesaikan permasalahan. Nilai yang valid:
-
LBFGS
-
GD
-
Newton
-
SGD
-
OWLQN
Execution Tuning
Number of workers
Digunakan bersama dengan Memory per worker. Harus berupa bilangan bulat positif antara 1 hingga 9999.
Memory per worker (MB)
Nilai berkisar antara 1024 MB hingga 64 × 1024 MB.
-
-
Output ports
Port (dari kiri ke kanan)
Tipe data
Komponen hilir
Model
Regression model
Model information
None
None
Feature importance
None
None
Linear model weight coefficients
None
None
Konfigurasi menggunakan kode
Salin kode berikut ke dalam komponen PyAlink Script untuk mencapai fungsionalitas yang sama.
from pyalink.alink import *
def main(sources, sinks, parameter):
batchData = sources[0]
ridge = RidgeRegTrainBatchOp()\
.setLambda(0.1)\
.setFeatureCols(["f0","f1"])\
.setLabelCol("label")
model = batchData.link(ridge)
model.link(sinks[0])
BatchOperator.execute()