全部产品
Search
文档中心

Platform For AI:GBDT Klasifikasi Biner V2

更新时间:Jun 22, 2025

Gradient Boosting Decision Trees (GBDT) Klasifikasi Biner adalah model pembelajaran terawasi klasik berbasis Boosting Gradien. Model ini cocok untuk skenario klasifikasi biner.

Sumber daya komputasi yang didukung

Anda hanya dapat menggunakan GBDT Klasifikasi Biner V2 dengan sumber daya komputasi MaxCompute.

Algoritma

GBDT Klasifikasi Biner adalah model pembelajaran terawasi klasik berbasis Boosting Gradien. Algoritma ini digunakan dalam skenario klasifikasi biner.

Prinsip

Model pohon keputusan Boosting Gradien terdiri dari beberapa pohon keputusan. Setiap pohon keputusan sesuai dengan pembelajar lemah. Penggabungan pembelajar lemah ini menghasilkan hasil klasifikasi dan regresi yang lebih baik.

Gambar berikut menunjukkan struktur rekursif dasar dari Boosting Gradien.

image

Dalam banyak kasus, image adalah pohon keputusan CART, image adalah parameter dari pohon keputusan, dan image adalah ukuran langkah. Setiap pohon keputusan mengoptimalkan fungsi objektif berdasarkan pohon keputusan sebelumnya. Proses ini menghasilkan model yang terdiri dari beberapa pohon keputusan.

Skenario

Algoritma ini mencakup optimasi seperti optimasi orde kedua yang disediakan oleh XGBoost dan pendekatan histogram yang disediakan oleh LightGBM. Algoritma ini memberikan performa tinggi dan interpretasi yang baik, serta dapat digunakan untuk klasifikasi biner umum.

GBDT Klasifikasi Biner V2 mendukung input dalam format vektor jarang dan format kolom fitur ganda. Jika Anda menggunakan format vektor jarang, Anda hanya dapat memilih satu kolom bertipe string. Setiap entri data adalah pasangan nilai-kunci yang dipisahkan oleh spasi, dengan nilai-nilai dipisahkan oleh titik dua. Contoh: 1:0.3 3:0.9. Jika Anda menggunakan format kolom fitur ganda, Anda dapat memilih beberapa kolom bertipe double, bigint, dan string, termasuk fitur numerik dan fitur kategorikal. Algoritma ini mengelompokkan data fitur numerik dan menggunakan strategi pemisahan banyak-vs-banyak untuk memproses fitur kategorikal. Anda tidak perlu melakukan one-hot encoding untuk fitur kategorikal.

Algoritma ini mengharuskan kategori klasifikasi biner bernilai 0 dan 1.

Komponen ini digunakan berpasangan dengan komponen GBDT Prediksi Klasifikasi Biner V2. Setelah menjalankan komponen-komponen ini, Anda dapat menerapkan model yang telah dilatih sebagai layanan online. Untuk informasi lebih lanjut, lihat Terapkan pipeline sebagai layanan online.

Konfigurasikan komponen di Machine Learning Designer

Port masukan

Port (dari kiri ke kanan)

Tipe data

Komponen hulu yang direkomendasikan

Diperlukan

Data Masukan

Tidak ada parameter yang dikembalikan.

Baca Tabel

Ya

Parameter komponen

Tab

Parameter

Diperlukan

Deskripsi

Nilai default

Fields Setting

Use Sparse Vector Format

Tidak

Menentukan apakah kolom fitur yang digunakan untuk pelatihan dalam tabel input berada dalam format vektor jarang. Dalam format vektor jarang, setiap entri data adalah pasangan nilai-kunci yang dipisahkan oleh spasi. Nilai-nilainya dipisahkan oleh titik dua. Contoh: 1:0.3 3:0.9.

Tidak

Select Feature Columns

Ya

Nama kolom fitur yang dipilih dari tabel input untuk pelatihan. Jika format vektor jarang tidak dipilih, Anda dapat memilih kolom bertipe double, bigint, atau string. Jika format vektor jarang dipilih, Anda hanya dapat memilih satu kolom bertipe string.

Tidak ada parameter yang dikembalikan.

Select Categorical Feature Columns

Tidak

Pilih kolom untuk diproses sebagai fitur kategorikal. Kolom yang tidak dipilih diproses sebagai fitur numerik. Parameter ini valid ketika format vektor jarang tidak dipilih.

Tidak ada parameter yang dikembalikan.

Select Label Column

Ya

Nama kolom label yang dipilih dari tabel input untuk pelatihan.

Tidak ada parameter yang dikembalikan.

Select Weight Column

Tidak

Nama kolom bobot yang dipilih dari tabel input untuk pelatihan.

Tidak ada parameter yang dikembalikan.

Parameter Setting

Number of Trees

Tidak

Jumlah pohon dalam model.

1

Maximum Number of Leaf Nodes

Tidak

Jumlah maksimum node daun pada setiap pohon.

32

Learning Rate

Tidak

Tingkat pembelajaran.

0,05

Ratio of Samples

Tidak

Proporsi sampel yang dipilih untuk pelatihan. Nilai valid: (0,1].

0,6

Ratio of Features

Tidak

Proporsi fitur yang dipilih untuk pelatihan. Nilai valid: (0,1].

0,6

Minimum Number of Samples in a Leaf Node

Tidak

Jumlah minimum sampel pada setiap node daun.

500

Maximum Number of Bins

Tidak

Jumlah maksimum bins yang diizinkan saat mendiskritisasi fitur kontinu. Nilai yang lebih besar menunjukkan pemisahan yang lebih presisi. Pemisahan yang lebih presisi menghasilkan biaya yang lebih tinggi.

32

Maximum Number of Distinct Categories

Tidak

Jumlah maksimum kategori berbeda yang diizinkan untuk fitur kategorikal. Untuk setiap fitur kategorikal, kategori diurutkan berdasarkan frekuensi. Kategori dengan peringkat lebih besar dari nilai ini digabungkan ke dalam satu bucket. Nilai yang lebih besar menunjukkan pemisahan yang lebih presisi. Pemisahan yang lebih presisi meningkatkan kemungkinan overfitting dan biaya yang lebih tinggi.

1.024

Number of features

Tidak

Parameter ini valid ketika format vektor jarang dipilih. Tentukan parameter ini sebagai nilai ID fitur maksimum + 1. Sistem secara otomatis memindai data untuk menghitung jika parameter ini dibiarkan kosong.

Angka dihitung secara otomatis berdasarkan data input.

Initial Prediction

Tidak

Probabilitas contoh positif. Sistem secara otomatis memindai data untuk memperkirakan jika parameter ini dibiarkan kosong.

Angka dihitung secara otomatis berdasarkan data input.

Random Seed

Tidak

Seed acak, yang digunakan untuk pengambilan sampel.

0

Tuning

Choose Running Mode

Tidak

Pilih Mode Jalankan. Nilai valid:

  • MaxCompute

  • Flink

MaxCompute

Number of Instances

Tidak

Jumlah instans yang digunakan untuk menjalankan pekerjaan.

Angka dihitung secara otomatis berdasarkan data input.

Memory Per Instance

Tidak

Ukuran memori setiap instans. Satuan: MB.

Angka dihitung secara otomatis berdasarkan data input.

Num of Threads

Tidak

Jika multi-threading digunakan, biaya yang lebih tinggi akan dikeluarkan. Dalam banyak kasus, performa tidak meningkat secara linear dengan jumlah thread. Jika lebih banyak thread daripada jumlah thread optimal digunakan, performa menurun.

1

Port keluaran

Port keluaran

Lokasi penyimpanan

Komponen hilir yang direkomendasikan

Tipe data

Model Keluaran

N/A

GBDT Prediksi Klasifikasi Biner V2

Tabel MaxCompute

Output Pentingnya Fitur

N/A

Tidak ada parameter yang dikembalikan. Komponen hilir tidak dapat dihubungkan ke komponen berbasis perintah PAI, seperti GBDT Pentingnya Fitur V2.

Tabel MaxCompute

Perbandingan dengan Pelatihan Klasifikasi Biner PS-SMART

Jika Anda mengalami masalah sulit saat menggunakan komponen Pelatihan Klasifikasi Biner PS-SMART, Anda dapat menggunakan komponen GBDT Klasifikasi Biner V2. Untuk informasi lebih lanjut, lihat Pelatihan Klasifikasi Biner PS-SMART. Tabel berikut menggambarkan fitur dan parameter dari kedua komponen tersebut.

Parameter Pelatihan Klasifikasi Biner PS-SMART

GBDT Klasifikasi Biner V2

Use Sparse Format

Use Sparse Vector Format

Feature Columns

Feature Columns

Label Column

Label Column

Weight Column

Select Weight Column

Evaluation Indicator Type

Tidak didukung. Area under curve (AUC) digunakan secara default. Anda dapat melihat metrik di log pekerja.

Trees

Number of Trees

Maximum Tree Depth

Maximum Number of Leaf Nodes: Jumlah Maksimum Node Daun = 2 ^ (Kedalaman Maksimum Pohon - 1).

Data Sampling Fraction

Ratio of Samples

Feature Sampling Fraction

Ratio of Features

L1 Penalty Coefficient

Tidak didukung

L2 Penalty Coefficient

Tidak didukung

Learning Rate

Learning Rate

Sketch-based Approximate Precision

Maximum Number of Bins: Jumlah Maksimum Bins = 1/Presisi Pendekatan Berbasis Sketch.

Minimum Split Loss Change

Minimum Number of Samples in a Leaf Node: tidak dapat dikonversi langsung ke Perubahan Kerugian Minimum untuk Pemisahan, tetapi kedua parameter tersebut dapat digunakan untuk mencegah overfitting.

Features

Features

Global Offset

Global Offset

Random Seed

Random Seed

Feature Importance Type

Tidak tersedia. Nilai default: gain.

Cores

Number of Instances: bukan nilai yang sama dengan Core. Kami menyarankan Anda menyesuaikan angka berdasarkan nilai yang dihasilkan secara otomatis oleh sistem.

Memory Size per Core

Memory per Instance: bukan nilai yang sama dengan Ukuran Memori per Core. Kami menyarankan Anda menyesuaikan angka berdasarkan nilai yang dihasilkan secara otomatis oleh sistem.