Regularisasi Tikhonov adalah metode regularisasi yang paling umum digunakan untuk menangani masalah yang tidak terstruktur dengan baik. Komponen Ridge Regression Training dikembangkan berdasarkan regularisasi Tikhonov. Komponen ini mendukung data jarang dan padat serta memungkinkan penggunaan sampel data tertimbang untuk pelatihan. Topik ini menjelaskan cara mengonfigurasi komponen Ridge Regression Training.
Batasan
Komponen Ridge Regression Training hanya dapat digunakan dengan salah satu sumber daya komputasi berikut: MaxCompute, Realtime Compute for Apache Flink, atau Deep Learning Containers (DLC) dari Platform for AI (PAI).
Cara kerja regularisasi Tikhonov
Regularisasi Tikhonov adalah metode regresi estimasi bias yang dirancang khusus untuk analisis data kolineritas. Pada dasarnya, ini merupakan metode kuadrat terkecil yang ditingkatkan. Dengan mengorbankan ketidakbiasan metode kuadrat terkecil, regularisasi Tikhonov lebih realistis dan andal dalam mendapatkan koefisien regresi serta lebih sesuai untuk data kondisi buruk dibandingkan metode kuadrat terkecil. Namun, regularisasi Tikhonov juga menyebabkan hilangnya sebagian informasi dan penurunan akurasi.
Konfigurasikan komponen di konsol PAI
Port Input
Port input (dari kiri ke kanan)
Tipe data
Komponen hulu yang direkomendasikan
Diperlukan
data
N/A
Ya
model
N/A
Tidak
Parameter Komponen
Tab
Parameter
Deskripsi
Field Setting
labelCol
Nama kolom label dalam tabel input.
featureCols
Jika Anda telah menetapkan parameter vectorCol, parameter ini tidak dapat ditetapkan.
Kolom fitur yang digunakan untuk pelatihan.
CatatanParameter featureCols dan vectorCol saling eksklusif. Anda hanya dapat menggunakan salah satu dari mereka untuk menggambarkan fitur input algoritma.
vectorCol
Jika Anda telah menetapkan parameter featureCols, parameter ini tidak dapat ditetapkan.
Nama kolom vektor.
CatatanParameter featureCols dan vectorCol saling eksklusif. Anda hanya dapat menggunakan salah satu dari mereka untuk menggambarkan fitur input algoritma.
weightCol
Nama kolom bobot.
Parameter Setting
lambda
Koefisien regularisasi bertipe DOUBLE.
epsilon
Nilai yang Anda harapkan untuk diperoleh dari hasil pelatihan sebelum iterasi berhenti. Nilai default: 1.0E-6.
LearningRate
Kecepatan pembaruan parameter selama pelatihan model. Nilai default: 0.1.
maxIter
Jumlah maksimum iterasi. Nilai default: 100.
optimMethod
Metode optimasi yang digunakan untuk meningkatkan pemecahan masalah. Nilai valid:
LBFGS
GD
Newton
SGD
OWLQN
Execution Tuning
Number of Workers
Jumlah inti. Parameter ini harus digunakan bersama dengan parameter Memory per worker, unit MB. Nilai parameter ini harus bilangan bulat positif. Nilai valid: [1,9999].
Memory per worker, unit MB
Ukuran memori setiap pekerja. Nilai valid: 1024 hingga 65536. Unit: MB.
Port Output
Port output (dari kiri ke kanan)
Tipe data
Komponen hilir
model
Model regresi
informasi model
N/A
N/A
Pentingnya fitur
N/A
N/A
bobot model linier
N/A
N/A
Konfigurasikan komponen menggunakan kode
Anda dapat menyalin kode berikut ke editor kode komponen PyAlink Script. Ini memungkinkan komponen PyAlink Script melayani tujuan yang sama seperti komponen Ridge Regression Training.
from pyalink.alink import *
def main(sources, sinks, parameter):
batchData = sources[0]
ridge = RidgeRegTrainBatchOp()\
.setLambda(0.1)\
.setFeatureCols(["f0","f1"])\
.setLabelCol("label")
model = batchData.link(ridge)
model.link(sinks[0])
BatchOperator.execute()