全部产品
Search
文档中心

Platform For AI:XGboost Predict

更新时间:Jul 06, 2025

XGBoost adalah perluasan dari algoritma Boosting Gradien yang menawarkan peningkatan dalam hal kemudahan penggunaan dan keandalan. Algoritma ini banyak digunakan dalam sistem produksi pembelajaran mesin serta kompetisi pembelajaran mesin. XGBoost mendukung tugas Klasifikasi dan regresi. Komponen XGboost Predict dikembangkan berdasarkan algoritma XGBoost open-source oleh tim Platform for AI (PAI). Anda dapat melakukan inferensi model offline menggunakan model yang telah dilatih dengan komponen XGboost Predict. Topik ini menjelaskan cara mengonfigurasi komponen XGboost Predict.

Batasan

Komponen XGboost Predict dapat digunakan dengan sumber daya MaxCompute, Flink, dan Deep Learning Containers (DLC).

Format data

Format Tabel dan LibSVM didukung.

  • Data contoh dalam format tabel:

    f0

    f1

    label

    0,1

    1

    0

    0,9

    2

    1

  • Data contoh dalam format LibSVM:

    Data sampel

    2:1 9:1 10:1 20:1 29:1 33:1 35:1 39:1 40:1 52:1 57:1 64:1 68:1 76:1 85:1 87:1 91:1 94:1 101:1 104:1 116:1 123:1

    0:1 9:1 18:1 20:1 23:1 33:1 35:1 38:1 41:1 52:1 55:1 64:1 68:1 76:1 85:1 87:1 91:1 94:1 101:1 105:1 115:1 121:1

    2:1 8:1 18:1 20:1 29:1 33:1 35:1 39:1 41:1 52:1 57:1 64:1 68:1 76:1 85:1 87:1 91:1 94:1 101:1 104:1 116:1 123:1

    2:1 9:1 13:1 21:1 28:1 33:1 36:1 38:1 40:1 53:1 57:1 64:1 68:1 76:1 85:1 87:1 91:1 94:1 97:1 105:1 113:1 119:1

    0:1 9:1 18:1 20:1 22:1 33:1 35:1 38:1 44:1 52:1 55:1 64:1 68:1 76:1 85:1 87:1 91:1 94:1 101:1 104:1 115:1 121:1

    0:1 8:1 18:1 20:1 23:1 33:1 35:1 38:1 41:1 52:1 55:1 64:1 68:1 76:1 85:1 87:1 91:1 94:1 101:1 105:1 116:1 121:1

Konfigurasikan komponen di konsol PAI

Anda dapat mengonfigurasi komponen XGboost Predict di Machine Learning Designer. Tabel berikut menjelaskan parameter yang tersedia.

Parameter

Tipe data

Deskripsi

Field Setting

reservedCols

Array string

Kolom yang disimpan.

featureCols

Array string

Kolom fitur dalam format tabel. Nilai parameter featureCols dan vectorCol saling eksklusif. Data input harus bertipe tabel.

vectorCol

String

Kolom vektor dalam format LibSVM. Nilai parameter featureCols dan vectorCol saling eksklusif. Data input harus bertipe LibSVM.

Parameter Setting

Prediction Result Column

String

Kolom prediksi dalam output.

Execution Tuning

Number of Workers

Bilangan bulat positif

Jumlah pekerja. Parameter ini harus digunakan bersama dengan parameter Memory per worker, unit MB. Nilai valid: [1, 9999].

Memory per worker, unit MB

Bilangan bulat positif

Ukuran memori setiap pekerja. Unit: MB. Nilai valid: [1024, 64 × 1024].

Prosedur

Contoh ini menggunakan skenario klasifikasi boson Higgs untuk menjelaskan cara menggunakan komponen XGboost di Machine Learning Designer. Pipeline yang digunakan dalam contoh ini dibangun berdasarkan template preset. Untuk informasi tentang cara membuat pipeline berdasarkan template Use XGBoost algorithm to identify the Higgs boson, lihat Buat pipeline dari template preset.

Komponen ini menghasilkan string JSON yang diserialisasi dari objek JSON yang dihasilkan oleh pustaka XGBoost open source. Untuk mengevaluasi data yang dihasilkan oleh komponen, Anda perlu mengonversi data tersebut ke format yang didukung oleh komponen evaluasi. Dalam contoh ini, Anda dapat menambahkan komponen skrip SQL sebagai komponen hilir dari komponen XGboost Predict untuk menyerilisasi output komponen ke format yang didukung oleh komponen Binary classification Evaluation V2 selanjutnya. Contoh kode berikut memberikan contoh tentang cara mengonfigurasi komponen SQL Script untuk mengonversi format data.

set odps.sql.udf.getjsonobj.new=true;

select *, CONCAT("{\"0\":", 1.0-prob, ",\"1\":", prob, "}") as detail
FROM (
select *, cast(get_json_object(pred, '$[0]') as double) as prob FROM ${t1})

Referensi

  • Anda dapat menggunakan komponen XGboost Predict bersama dengan komponen XGboost Train. Untuk informasi lebih lanjut tentang cara mengonfigurasi komponen XGboost Train, lihat XGboost Train.

  • Machine Learning Designer menyediakan berbagai komponen algoritma preset. Anda dapat memilih komponen untuk pemrosesan data sesuai dengan kebutuhan bisnis Anda. Untuk informasi lebih lanjut, lihat Ikhtisar komponen Designer.