Bangun model dengan algoritma regresi hutan acak-PolarDB-Alibaba Cloud

Topik ini menjelaskan algoritma regresi hutan acak.

Informasi Latar Belakang

Regresi hutan acak merupakan cabang aplikasi dari hutan acak. Model regresi hutan acak membangun beberapa pohon keputusan yang tidak saling terkait dengan memilih sampel dan fitur secara acak, serta menghasilkan prediksi secara paralel. Setiap pohon keputusan menghasilkan prediksi menggunakan sampel dan fitur yang dipilih. Hasil prediksi regresi keseluruhan diperoleh dengan merata-ratakan hasil dari semua pohon.

Skenario

Regresi hutan acak cocok untuk skenario yang melibatkan puluhan dimensi data dan memerlukan akurasi tinggi.

Sebagai contoh, model regresi hutan acak dapat digunakan untuk memprediksi popularitas suatu topik di Twitter. Input model mencakup fitur-fitur seperti jumlah kelompok diskusi, jumlah orang yang membahas topik tersebut, dan perhatian terhadap topik tersebut. Output model adalah rata-rata jumlah kelompok diskusi aktif per jam, yang diwakili oleh angka floating point positif untuk menunjukkan popularitas.

Parameter

Nilai parameter dalam tabel berikut sesuai dengan parameter model_parameter yang ditentukan dalam pernyataan CREATE MODEL untuk membuat model. Anda dapat mengonfigurasi parameter sesuai dengan kebutuhan bisnis Anda.

Parameter	Deskripsi
n_estimators	Jumlah iterasi. Jumlah iterasi yang lebih tinggi menunjukkan kecocokan yang lebih baik. Biasanya merupakan bilangan bulat positif. Nilai default adalah 100.
objective	Tugas pembelajaran dan tujuan pembelajarannya. Nilai yang valid: mse (default): menggunakan kesalahan kuadrat rata-rata. mae: menggunakan kesalahan absolut rata-rata.
max_features	Jumlah maksimum fitur yang dipertimbangkan saat memutuskan pemisahan. Jika nilainya "sqrt" (default), jumlah maksimum fitur adalah `sqrt(n_features)`. Jika nilainya adalah bilangan bulat, jumlah maksimum fitur adalah `max_features`, yang harus antara `0 dan n_features`, termasuk `n_features`. `n_features` adalah jumlah fitur yang digunakan selama pemodelan. Jika nilainya adalah bilangan titik mengambang, jumlah maksimum fitur adalah `max_features*n_features`. Jika nilainya "log2", jumlah maksimum fitur adalah `log2(n_features)`.
random_state	Keadaan acak. Parameter ini biasanya merupakan bilangan bulat positif. Nilai default: 1.
n_jobs	Jumlah utas paralel. Angka besar menunjukkan kecepatan pembuatan model yang tinggi. Parameter ini biasanya merupakan bilangan bulat positif. Nilai default: 4.
max_depth	Kedalaman maksimum setiap pohon. Parameter ini biasanya merupakan bilangan bulat positif. Nilai default: None. Catatan Jika parameter ini disetel ke None, kedalaman pohon tidak ditentukan.

Contoh

Buat model regresi hutan acak.

/*polar4ai*/CREATE MODEL randomforestreg1 WITH
( model_class = 'randomforestreg', x_cols = 'dx1,dx2', y_cols='y',
 model_parameter=(objective='mse')) AS (SELECT * FROM db4ai.testdata1);

Evaluasi model.

/*polar4ai*/SELECT dx1,dx2 FROM EVALUATE(MODEL randomforestreg1, 
SELECT * FROM db4ai.testdata1 LIMIT 10) WITH 
(x_cols = 'dx1,dx2',y_cols='y',metrics='r2_score');

Gunakan model untuk prediksi.

/*polar4ai*/SELECT dx1,dx2 FROM
PREDICT(MODEL randomforestreg1, SELECT * FROM db4ai.testdata1 LIMIT 10)
WITH (x_cols = 'dx1,dx2');

Catatan

Kolom dalam x_cols dan y_cols harus menggunakan bilangan titik mengambang atau bilangan bulat.