Topik ini menjelaskan algoritma regresi hutan acak.
Informasi Latar Belakang
Regresi hutan acak merupakan cabang aplikasi dari hutan acak. Model regresi hutan acak membangun beberapa pohon keputusan yang tidak saling terkait dengan memilih sampel dan fitur secara acak, serta menghasilkan prediksi secara paralel. Setiap pohon keputusan menghasilkan prediksi menggunakan sampel dan fitur yang dipilih. Hasil prediksi regresi keseluruhan diperoleh dengan merata-ratakan hasil dari semua pohon.
Skenario
Regresi hutan acak cocok untuk skenario yang melibatkan puluhan dimensi data dan memerlukan akurasi tinggi.
Sebagai contoh, model regresi hutan acak dapat digunakan untuk memprediksi popularitas suatu topik di Twitter. Input model mencakup fitur-fitur seperti jumlah kelompok diskusi, jumlah orang yang membahas topik tersebut, dan perhatian terhadap topik tersebut. Output model adalah rata-rata jumlah kelompok diskusi aktif per jam, yang diwakili oleh angka floating point positif untuk menunjukkan popularitas.
Parameter
Nilai parameter dalam tabel berikut sesuai dengan parameter model_parameter yang ditentukan dalam pernyataan CREATE MODEL untuk membuat model. Anda dapat mengonfigurasi parameter sesuai dengan kebutuhan bisnis Anda.
Parameter | Deskripsi |
n_estimators | Jumlah iterasi. Jumlah iterasi yang lebih tinggi menunjukkan kecocokan yang lebih baik. Biasanya merupakan bilangan bulat positif. Nilai default adalah 100. |
objective | Tugas pembelajaran dan tujuan pembelajarannya. Nilai yang valid:
|
max_features | Jumlah maksimum fitur yang dipertimbangkan saat memutuskan pemisahan.
|
random_state | Keadaan acak. Parameter ini biasanya merupakan bilangan bulat positif. Nilai default: 1. |
n_jobs | Jumlah utas paralel. Angka besar menunjukkan kecepatan pembuatan model yang tinggi. Parameter ini biasanya merupakan bilangan bulat positif. Nilai default: 4. |
max_depth | Kedalaman maksimum setiap pohon. Parameter ini biasanya merupakan bilangan bulat positif. Nilai default: None. Catatan Jika parameter ini disetel ke None, kedalaman pohon tidak ditentukan. |
Contoh
Buat model regresi hutan acak.
/*polar4ai*/CREATE MODEL randomforestreg1 WITH
( model_class = 'randomforestreg', x_cols = 'dx1,dx2', y_cols='y',
model_parameter=(objective='mse')) AS (SELECT * FROM db4ai.testdata1);Evaluasi model.
/*polar4ai*/SELECT dx1,dx2 FROM EVALUATE(MODEL randomforestreg1,
SELECT * FROM db4ai.testdata1 LIMIT 10) WITH
(x_cols = 'dx1,dx2',y_cols='y',metrics='r2_score');Gunakan model untuk prediksi.
/*polar4ai*/SELECT dx1,dx2 FROM
PREDICT(MODEL randomforestreg1, SELECT * FROM db4ai.testdata1 LIMIT 10)
WITH (x_cols = 'dx1,dx2');Kolom dalam x_cols dan y_cols harus menggunakan bilangan titik mengambang atau bilangan bulat.