XGBoost adalah perluasan dari algoritma Boosting Gradien yang menawarkan peningkatan dalam hal kemudahan penggunaan dan keandalan. Algoritma ini banyak digunakan dalam sistem produksi pembelajaran mesin serta kompetisi pembelajaran mesin. XGBoost mendukung tugas Klasifikasi dan regresi. Komponen XGboost Predict dikembangkan berdasarkan algoritma XGBoost open-source oleh tim Platform for AI (PAI). Anda dapat melakukan inferensi model offline menggunakan model yang telah dilatih dengan komponen XGboost Predict. Topik ini menjelaskan cara mengonfigurasi komponen XGboost Predict.
Batasan
Komponen XGboost Predict dapat digunakan dengan sumber daya MaxCompute, Flink, dan Deep Learning Containers (DLC).
Format data
Format Tabel dan LibSVM didukung.
Data contoh dalam format tabel:
f0
f1
label
0,1
1
0
0,9
2
1
Data contoh dalam format LibSVM:
Data sampel
2:1 9:1 10:1 20:1 29:1 33:1 35:1 39:1 40:1 52:1 57:1 64:1 68:1 76:1 85:1 87:1 91:1 94:1 101:1 104:1 116:1 123:1
0:1 9:1 18:1 20:1 23:1 33:1 35:1 38:1 41:1 52:1 55:1 64:1 68:1 76:1 85:1 87:1 91:1 94:1 101:1 105:1 115:1 121:1
2:1 8:1 18:1 20:1 29:1 33:1 35:1 39:1 41:1 52:1 57:1 64:1 68:1 76:1 85:1 87:1 91:1 94:1 101:1 104:1 116:1 123:1
2:1 9:1 13:1 21:1 28:1 33:1 36:1 38:1 40:1 53:1 57:1 64:1 68:1 76:1 85:1 87:1 91:1 94:1 97:1 105:1 113:1 119:1
0:1 9:1 18:1 20:1 22:1 33:1 35:1 38:1 44:1 52:1 55:1 64:1 68:1 76:1 85:1 87:1 91:1 94:1 101:1 104:1 115:1 121:1
0:1 8:1 18:1 20:1 23:1 33:1 35:1 38:1 41:1 52:1 55:1 64:1 68:1 76:1 85:1 87:1 91:1 94:1 101:1 105:1 116:1 121:1
Konfigurasikan komponen di konsol PAI
Anda dapat mengonfigurasi komponen XGboost Predict di Machine Learning Designer. Tabel berikut menjelaskan parameter yang tersedia.
Parameter | Tipe data | Deskripsi | |
Field Setting | reservedCols | Array string | Kolom yang disimpan. |
featureCols | Array string | Kolom fitur dalam format tabel. Nilai parameter featureCols dan vectorCol saling eksklusif. Data input harus bertipe tabel. | |
vectorCol | String | Kolom vektor dalam format LibSVM. Nilai parameter featureCols dan vectorCol saling eksklusif. Data input harus bertipe LibSVM. | |
Parameter Setting | Prediction Result Column | String | Kolom prediksi dalam output. |
Execution Tuning | Number of Workers | Bilangan bulat positif | Jumlah pekerja. Parameter ini harus digunakan bersama dengan parameter Memory per worker, unit MB. Nilai valid: [1, 9999]. |
Memory per worker, unit MB | Bilangan bulat positif | Ukuran memori setiap pekerja. Unit: MB. Nilai valid: [1024, 64 × 1024]. | |
Prosedur
Contoh ini menggunakan skenario klasifikasi boson Higgs untuk menjelaskan cara menggunakan komponen XGboost di Machine Learning Designer. Pipeline yang digunakan dalam contoh ini dibangun berdasarkan template preset. Untuk informasi tentang cara membuat pipeline berdasarkan template Use XGBoost algorithm to identify the Higgs boson, lihat Buat pipeline dari template preset.
Komponen ini menghasilkan string JSON yang diserialisasi dari objek JSON yang dihasilkan oleh pustaka XGBoost open source. Untuk mengevaluasi data yang dihasilkan oleh komponen, Anda perlu mengonversi data tersebut ke format yang didukung oleh komponen evaluasi. Dalam contoh ini, Anda dapat menambahkan komponen skrip SQL sebagai komponen hilir dari komponen XGboost Predict untuk menyerilisasi output komponen ke format yang didukung oleh komponen Binary classification Evaluation V2 selanjutnya. Contoh kode berikut memberikan contoh tentang cara mengonfigurasi komponen SQL Script untuk mengonversi format data.
set odps.sql.udf.getjsonobj.new=true;
select *, CONCAT("{\"0\":", 1.0-prob, ",\"1\":", prob, "}") as detail
FROM (
select *, cast(get_json_object(pred, '$[0]') as double) as prob FROM ${t1})Referensi
Anda dapat menggunakan komponen XGboost Predict bersama dengan komponen XGboost Train. Untuk informasi lebih lanjut tentang cara mengonfigurasi komponen XGboost Train, lihat XGboost Train.
Machine Learning Designer menyediakan berbagai komponen algoritma preset. Anda dapat memilih komponen untuk pemrosesan data sesuai dengan kebutuhan bisnis Anda. Untuk informasi lebih lanjut, lihat Ikhtisar komponen Designer.