Komponen Prediksi Regresi Ridge mendukung format data sparse dan dense, serta digunakan untuk memprediksi variabel numerik seperti harga rumah, volume penjualan, dan kelembapan. Topik ini menjelaskan cara mengonfigurasi komponen tersebut.
Batasan
Mesin komputasi yang didukung adalah MaxCompute, Flink, atau DLC.
Prinsip algoritma
Regresi Ridge adalah metode regresi estimasi bias yang digunakan untuk analisis data koliner. Metode ini merupakan penyempurnaan dari metode kuadrat terkecil (least-squares), yang mengorbankan sifat tidak bias demi memperoleh koefisien regresi yang lebih praktis dan andal. Meskipun pendekatan ini mengurangi sebagian informasi dan presisi, hasilnya lebih baik untuk data yang kondisinya buruk (ill-conditioned) dibandingkan dengan metode kuadrat terkecil standar.
Konfigurasi visual parameter komponen
-
Port input
Port masukan (dari kiri ke kanan)
Tipe data
Komponen hulu yang direkomendasikan
Wajib
Input model untuk prediksi
None
Yes
Input data
None
Yes
-
Parameter komponen
Tab
Parameter
Deskripsi
Field Settings
Reserved Algorithm Column Names
Pilih nama kolom yang dicadangkan untuk algoritma.
Vector column
Nama kolom vektor.
Parameter Settings
Prediction result column
Nama kolom hasil prediksi.
Number of threads
Jumlah thread untuk komponen ini. Nilai default adalah 1.
Execution Tuning
Number of workers
Digunakan bersama parameter Memory per worker (MB). Nilainya harus berupa bilangan bulat positif antara 1 hingga 9999.
Memory per worker (MB)
Nilainya harus berada di antara 1024 MB hingga 64 × 1024 MB.
Konfigurasi komponen menggunakan kode
Salin kode berikut ke komponen PyAlink Script untuk menjalankan fungsi yang sama dengan komponen ini.
from pyalink.alink import *
def main(sources, sinks, parameter):
model = sources[0]
batchData = sources[1]
predictor = RidgeRegPredictBatchOp()\
.setPredictionCol("pred")
result = predictor.linkFrom(model, batchData)
result.link(sinks[0])
BatchOperator.execute()