Evaluasi Model Regresi adalah proses kuantifikasi performa model dengan membandingkan hasil prediksi terhadap hasil aktual menggunakan metrik seperti Mean Squared Error, kesalahan absolut rata-rata, dan R-squared. Selama evaluasi, alat visual seperti histogram residu sering digunakan untuk menganalisis distribusi kesalahan prediksi, membantu mengidentifikasi area potensial untuk perbaikan model. Proses ini memastikan bahwa model memiliki kemampuan prediksi dan stabilitas yang baik.
Konfigurasikan komponen
Metode 1: Konfigurasikan komponen pada halaman pipeline
Tambahkan komponen Regression Model Evaluation pada halaman pipeline dan konfigurasikan parameter berikut:
Kategori | Parameter | Deskripsi |
Fields Setting | Original Regression Value | Nilai observasi aktual dari variabel target dalam dataset, digunakan untuk mengevaluasi performa prediksi model regresi dan bertindak sebagai dasar perbandingan. |
Predicted Regression Value | Estimasi nilai variabel target yang diperoleh melalui model regresi. Nilai prediksi dihasilkan oleh model berdasarkan fitur input. | |
Tuning | Worker number | Untuk informasi tentang cara mengonfigurasi jumlah pekerja dan memori mereka, lihat Lampiran: Cara memperkirakan penggunaan sumber daya. |
Memory Size per Node |
Metode 2: Gunakan perintah PAI
Konfigurasikan parameter komponen menggunakan perintah PAI. Anda dapat menggunakan komponen SQL Script untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat SQL Script.
PAI -name regression_evaluation -project algo_public
-DinputTableName=input_table
-DyColName=y_col
-DpredictionColName=prediction_col
-DindexOutputTableName=index_output_table
-DresidualOutputTableName=residual_output_table;Parameter | Diperlukan | Nilai default | Deskripsi |
inputTableName | Ya | Tidak ada | Nama tabel input. |
inputTablePartitions | Tidak | Tabel penuh | Partisi yang dipilih dari tabel input untuk perhitungan. |
yColName | Ya | Tidak ada | Nama kolom yang berisi variabel dependen asli dalam tabel input. Kolom tipe data numerik didukung. |
predictionColName | Ya | Tidak ada | Nama kolom yang berisi variabel dependen dalam hasil prediksi. Kolom tipe data numerik didukung. |
indexOutputTableName | Ya | Tidak ada | Nama tabel output metrik regresi. |
residualOutputTableName | Ya | Tidak ada | Nama tabel output histogram residu. |
intervalNum | Tidak | 100 | Jumlah interval histogram. |
lifecycle | Tidak | Tidak ada | Lifecycle tabel output. Nilai parameter ini harus bilangan bulat positif. |
coreNum | Tidak | Ditentukan oleh sistem | Jumlah core. Nilai valid: 1 hingga 9999. |
memSizePerCore | Tidak | Ditentukan oleh sistem | Ukuran memori setiap core. Nilai valid: 1024 hingga 64 × 1024. Unit: MB. |
Output
Tabel output metrik regresi dihasilkan dalam format JSON dan mencakup parameter berikut.
Parameter | Deskripsi |
SST | Jumlah total kuadrat. |
SSE | Jumlah kuadrat kesalahan. |
SSR | Jumlah kuadrat karena regresi. |
R2 | Koefisien determinasi. |
R | Koefisien korelasi berganda. |
MSE | Error kuadrat rata-rata. |
RMSE | Akar dari error kuadrat rata-rata. |
MAE | Kesalahan absolut rata-rata. |
MAD | Deviasi absolut rata-rata. |
MAPE | Kesalahan persentase absolut rata-rata. |
count | Jumlah baris. |
yMean | Rata-rata variabel dependen asli. |
predictionMean | Rata-rata hasil prediksi. |