全部产品
Search
文档中心

PolarDB:Algoritma GBRT

更新时间:Nov 09, 2025

Tema ini menjelaskan algoritma pohon regresi Boosting Gradien (GBRT).

Informasi latar belakang

Algoritma GBRT merupakan bagian dari keluarga Boosting. Algoritma ini menggunakan algoritma distribusi maju, dengan pembelajar lemah dibatasi pada model Pohon Regresi CART. Filosofi algoritma distribusi maju adalah memilih fungsi pohon keputusan yang sesuai berdasarkan model saat ini dan fungsi fitting untuk meminimalkan fungsi loss.

GBRT terdiri dari komponen-komponen berikut:

  • Pohon Regresi (RT): Salah satu kategori pohon keputusan yang digunakan untuk memprediksi nilai aktual. GBRT adalah algoritma pohon regresi iteratif yang terdiri dari beberapa pohon regresi. Hasil akhir diperoleh dengan menjumlahkan kesimpulan dari semua pohon regresi.

  • Boosting Gradien (GB): Hasil akhir ditentukan melalui iterasi beberapa pohon. Setiap pohon belajar dari kesimpulan dan residu pohon sebelumnya.

Skenario

GBRT adalah model regresi yang utamanya digunakan untuk menyesuaikan nilai.

GBRT dapat diterapkan dalam epidemiologi. Misalnya, bukti awal tentang mortalitas dan morbiditas manusia berasal dari studi observasional analisis regresi. Misalkan terdapat model regresi di mana mortalitas (atau morbiditas) adalah y_cols, variabel yang akan disesuaikan, maka status sosial ekonomi, pendidikan, atau pendapatan dapat digunakan sebagai variabel dependennya.

Parameter

Nilai parameter yang dijelaskan dalam tabel berikut sama dengan parameter model_parameter yang ditentukan dalam pernyataan CREATE MODEL yang digunakan untuk membuat model. Anda dapat mengonfigurasi parameter sesuai kebutuhan bisnis Anda.

Parameter

Deskripsi

n_estimators

Jumlah iterasi. Jumlah iterasi yang lebih tinggi menunjukkan penyesuaian yang lebih baik. Biasanya merupakan bilangan bulat positif. Nilai default adalah 100.

objective

Tugas pembelajaran dan tujuan pembelajarannya. Nilai valid:

  • ls (default): kuadrat terkecil.

  • lad: deviasi absolut terkecil.

  • huber: menggabungkan kuadrat terkecil dan deviasi absolut terkecil.

max_depth

Kedalaman maksimum pohon. Nilai default: 7.

Catatan

Jika parameter ini diatur ke -1, kedalaman pohon tidak ditentukan. Kami menyarankan Anda menetapkan parameter ini dengan hati-hati untuk mencegah overfitting.

random_state

Status acak. Parameter ini biasanya merupakan bilangan bulat positif. Nilai default: 1.

Contoh

Buat model GBRT.

/*polar4ai*/CREATE MODEL gbrt1 WITH
( model_class = 'gbrt', x_cols = 'dx1,dx2', y_cols='y',
 model_parameter=(objective='ls')) AS (SELECT * FROM db4ai.testdata1);

Evaluasi model.

/*polar4ai*/SELECT dx1,dx2 FROM EVALUATE(MODEL gbrt1, 
SELECT * FROM db4ai.testdata1 LIMIT 10) WITH 
(x_cols = 'dx1,dx2',y_cols='y',metrics='r2_score');

Gunakan model untuk prediksi.

/*polar4ai*/SELECT dx1,dx2 FROM
PREDICT(MODEL gbrt1, SELECT * FROM db4ai.testdata1 LIMIT 10)
WITH (x_cols = 'dx1,dx2');
Catatan

Tipe data x_cols dan y_cols harus floating-point atau integer.