Tema ini menjelaskan algoritma pohon regresi Boosting Gradien (GBRT).
Informasi latar belakang
Algoritma GBRT merupakan bagian dari keluarga Boosting. Algoritma ini menggunakan algoritma distribusi maju, dengan pembelajar lemah dibatasi pada model Pohon Regresi CART. Filosofi algoritma distribusi maju adalah memilih fungsi pohon keputusan yang sesuai berdasarkan model saat ini dan fungsi fitting untuk meminimalkan fungsi loss.
GBRT terdiri dari komponen-komponen berikut:
Pohon Regresi (RT): Salah satu kategori pohon keputusan yang digunakan untuk memprediksi nilai aktual. GBRT adalah algoritma pohon regresi iteratif yang terdiri dari beberapa pohon regresi. Hasil akhir diperoleh dengan menjumlahkan kesimpulan dari semua pohon regresi.
Boosting Gradien (GB): Hasil akhir ditentukan melalui iterasi beberapa pohon. Setiap pohon belajar dari kesimpulan dan residu pohon sebelumnya.
Skenario
GBRT adalah model regresi yang utamanya digunakan untuk menyesuaikan nilai.
GBRT dapat diterapkan dalam epidemiologi. Misalnya, bukti awal tentang mortalitas dan morbiditas manusia berasal dari studi observasional analisis regresi. Misalkan terdapat model regresi di mana mortalitas (atau morbiditas) adalah y_cols, variabel yang akan disesuaikan, maka status sosial ekonomi, pendidikan, atau pendapatan dapat digunakan sebagai variabel dependennya.
Parameter
Nilai parameter yang dijelaskan dalam tabel berikut sama dengan parameter model_parameter yang ditentukan dalam pernyataan CREATE MODEL yang digunakan untuk membuat model. Anda dapat mengonfigurasi parameter sesuai kebutuhan bisnis Anda.
Parameter | Deskripsi |
n_estimators | Jumlah iterasi. Jumlah iterasi yang lebih tinggi menunjukkan penyesuaian yang lebih baik. Biasanya merupakan bilangan bulat positif. Nilai default adalah 100. |
objective | Tugas pembelajaran dan tujuan pembelajarannya. Nilai valid:
|
max_depth | Kedalaman maksimum pohon. Nilai default: 7. Catatan Jika parameter ini diatur ke -1, kedalaman pohon tidak ditentukan. Kami menyarankan Anda menetapkan parameter ini dengan hati-hati untuk mencegah overfitting. |
random_state | Status acak. Parameter ini biasanya merupakan bilangan bulat positif. Nilai default: 1. |
Contoh
Buat model GBRT.
/*polar4ai*/CREATE MODEL gbrt1 WITH
( model_class = 'gbrt', x_cols = 'dx1,dx2', y_cols='y',
model_parameter=(objective='ls')) AS (SELECT * FROM db4ai.testdata1);Evaluasi model.
/*polar4ai*/SELECT dx1,dx2 FROM EVALUATE(MODEL gbrt1,
SELECT * FROM db4ai.testdata1 LIMIT 10) WITH
(x_cols = 'dx1,dx2',y_cols='y',metrics='r2_score');Gunakan model untuk prediksi.
/*polar4ai*/SELECT dx1,dx2 FROM
PREDICT(MODEL gbrt1, SELECT * FROM db4ai.testdata1 LIMIT 10)
WITH (x_cols = 'dx1,dx2');Tipe data x_cols dan y_cols harus floating-point atau integer.