全部产品
Search
文档中心

PolarDB:Algoritma Regresi Hutan Acak

更新时间:Nov 09, 2025

Topik ini menjelaskan algoritma regresi hutan acak.

Informasi Latar Belakang

Regresi hutan acak merupakan cabang aplikasi dari hutan acak. Model regresi hutan acak membangun beberapa pohon keputusan yang tidak saling terkait dengan memilih sampel dan fitur secara acak, serta menghasilkan prediksi secara paralel. Setiap pohon keputusan menghasilkan prediksi menggunakan sampel dan fitur yang dipilih. Hasil prediksi regresi keseluruhan diperoleh dengan merata-ratakan hasil dari semua pohon.

Skenario

Regresi hutan acak cocok untuk skenario yang melibatkan puluhan dimensi data dan memerlukan akurasi tinggi.

Sebagai contoh, model regresi hutan acak dapat digunakan untuk memprediksi popularitas suatu topik di Twitter. Input model mencakup fitur-fitur seperti jumlah kelompok diskusi, jumlah orang yang membahas topik tersebut, dan perhatian terhadap topik tersebut. Output model adalah rata-rata jumlah kelompok diskusi aktif per jam, yang diwakili oleh angka floating point positif untuk menunjukkan popularitas.

Parameter

Nilai parameter dalam tabel berikut sesuai dengan parameter model_parameter yang ditentukan dalam pernyataan CREATE MODEL untuk membuat model. Anda dapat mengonfigurasi parameter sesuai dengan kebutuhan bisnis Anda.

Parameter

Deskripsi

n_estimators

Jumlah iterasi. Jumlah iterasi yang lebih tinggi menunjukkan kecocokan yang lebih baik. Biasanya merupakan bilangan bulat positif. Nilai default adalah 100.

objective

Tugas pembelajaran dan tujuan pembelajarannya. Nilai yang valid:

  • mse (default): menggunakan kesalahan kuadrat rata-rata.

  • mae: menggunakan kesalahan absolut rata-rata.

max_features

Jumlah maksimum fitur yang dipertimbangkan saat memutuskan pemisahan.

  • Jika nilainya "sqrt" (default), jumlah maksimum fitur adalah sqrt(n_features).

  • Jika nilainya adalah bilangan bulat, jumlah maksimum fitur adalah max_features, yang harus antara 0 dan n_features, termasuk n_features. n_features adalah jumlah fitur yang digunakan selama pemodelan.

  • Jika nilainya adalah bilangan titik mengambang, jumlah maksimum fitur adalah max_features*n_features.

  • Jika nilainya "log2", jumlah maksimum fitur adalah log2(n_features).

random_state

Keadaan acak. Parameter ini biasanya merupakan bilangan bulat positif. Nilai default: 1.

n_jobs

Jumlah utas paralel. Angka besar menunjukkan kecepatan pembuatan model yang tinggi. Parameter ini biasanya merupakan bilangan bulat positif. Nilai default: 4.

max_depth

Kedalaman maksimum setiap pohon. Parameter ini biasanya merupakan bilangan bulat positif. Nilai default: None.

Catatan

Jika parameter ini disetel ke None, kedalaman pohon tidak ditentukan.

Contoh

Buat model regresi hutan acak.

/*polar4ai*/CREATE MODEL randomforestreg1 WITH
( model_class = 'randomforestreg', x_cols = 'dx1,dx2', y_cols='y',
 model_parameter=(objective='mse')) AS (SELECT * FROM db4ai.testdata1);

Evaluasi model.

/*polar4ai*/SELECT dx1,dx2 FROM EVALUATE(MODEL randomforestreg1, 
SELECT * FROM db4ai.testdata1 LIMIT 10) WITH 
(x_cols = 'dx1,dx2',y_cols='y',metrics='r2_score');

Gunakan model untuk prediksi.

/*polar4ai*/SELECT dx1,dx2 FROM
PREDICT(MODEL randomforestreg1, SELECT * FROM db4ai.testdata1 LIMIT 10)
WITH (x_cols = 'dx1,dx2');
Catatan

Kolom dalam x_cols dan y_cols harus menggunakan bilangan titik mengambang atau bilangan bulat.