Apa itu komponen algoritma Naive Bayes - Platform For AI

Naive Bayes adalah algoritma klasifikasi probabilistik berdasarkan teorema Bayes. Algoritma ini mengasumsikan bahwa semua fitur saling independen secara statistik—penyederhanaan yang membuatnya cepat dan efektif, terutama ketika data pelatihan terbatas.

Komponen Naive Bayes di Machine Learning Designer secara otomatis menangani dua tipe fitur: fitur kontinu (DOUBLE, BIGINT) dan fitur diskrit (STRING, BOOLEAN, DATETIME). Gunakan parameter Forced Conversion Column untuk mengganti inferensi tipe default jika diperlukan oleh data Anda—misalnya, untuk memperlakukan kolom BIGINT sebagai kategorikal, bukan kontinu.

Komponen Naive Bayes memerlukan sumber daya komputasi MaxCompute.

Prasyarat

Sebelum memulai, pastikan Anda telah:

Mengakses Konsol PAI dengan Proyek yang telah dikonfigurasi
Memiliki sumber data MaxCompute berupa tabel pelatihan dan pengujian

Konfigurasi komponen

Metode 1: Konsol PAI

Login ke Konsol PAI dan buka Visualized Modeling (Designer).
Buka pipeline, lalu seret komponen Naive Bayes ke kanvas.
Klik komponen tersebut dan konfigurasikan parameter pada panel di sebelah kanan.

Fields Setting tab

Parameter	Deskripsi
Feature Column	Kolom yang digunakan sebagai fitur. Default: semua kolom kecuali kolom label. Tipe yang didukung: DOUBLE, STRING, BIGINT.
Excluded Columns	Kolom yang dikecualikan dari pelatihan. Tidak dapat dikonfigurasi bersamaan dengan Feature Column.
Forced Conversion Column	Ganti inferensi tipe default untuk kolom tertentu. Jika dibiarkan kosong, aturan berikut berlaku: kolom STRING, BOOLEAN, dan DATETIME diperlakukan sebagai diskrit (kategorikal); kolom DOUBLE dan BIGINT diperlakukan sebagai kontinu. Untuk memperlakukan kolom BIGINT sebagai kategorikal, tentukan di sini.
Label Column	Kolom target. Harus bertipe DOUBLE, STRING, atau BIGINT. Tidak boleh juga menjadi kolom fitur.
Input Sparse Format Data	Aktifkan jika data masukan menggunakan format sparse (pasangan kunci-nilai).
Separator between K:V when input is sparse	Pembatas antara pasangan kunci-nilai. Default: koma (`,`).
The separator of key and value when the input is sparse	Pembatas antara kunci dan nilainya. Default: titik dua (`:`).
Whether To Generate PMML	Hasilkan file model Predictive Model Markup Language (PMML). Jika jalur penyimpanan pipeline belum dikonfigurasi, klik Create Now saat diminta.

Tab Penyesuaian

Parameter	Deskripsi
Number of cores	Jumlah core CPU untuk komputasi. Default: dikonfigurasi secara otomatis.
Memory Size of Core(MB)	Memori per core CPU, dalam MB. Nilai valid: 1–65536. Default: dikonfigurasi secara otomatis.

Metode 2: Perintah PAI

Jalankan perintah berikut di komponen SQL Script:

PAI -name NaiveBayes -project algo_public
    -DinputTablePartitions="pt=20150501"
    -DmodelName="xlab_m_NaiveBayes_23772"
    -DlabelColName="poutcome"
    -DfeatureColNames="age,previous,cons_conf_idx,euribor3m"
    -DinputTableName="bank_data_partition";

Parameter	Wajib	Deskripsi	Default
`inputTableName`	Ya	Nama tabel input.	—
`inputTablePartitions`	Tidak	Partisi yang digunakan untuk pelatihan.	Semua partisi
`modelName`	Ya	Nama model output.	—
`labelColName`	Ya	Nama kolom label.	—
`featureColNames`	Tidak	Nama kolom fitur.	Semua kolom kecuali kolom label
`excludedColNames`	Tidak	Kolom yang dikecualikan. Tidak dapat diatur bersamaan dengan `featureColNames`.	—
`forceCategorical`	Tidak	Kolom yang diperlakukan sebagai kategorikal terlepas dari tipe datanya. Jika tidak diatur, BIGINT diperlakukan sebagai kontinu.	INT adalah kontinu
`coreNum`	Tidak	Jumlah core CPU.	Dikonfigurasi secara otomatis
`memSizePerCore`	Tidak	Memori per core CPU. Nilai valid: 1–65536. Satuan: MB.	Dikonfigurasi secara otomatis

Contoh

Contoh ini melatih klasifikasi biner pada set data kecil dan mengevaluasi akurasi prediksi menggunakan komponen Multiclass Classification Evaluation.

Langkah 1: Siapkan data pelatihan dan pengujian

Gunakan client MaxCompute untuk membuat dua tabel — train_data dan test_data — dengan skema berikut:
```
id bigint, y bigint, f0 double, f1 double, f2 double, f3 double, f4 double, f5 double, f6 double, f7 double
```
Untuk instruksi penyiapan, lihat Client MaxCompute (odpscmd) dan Buat tabel.

Impor data berikut ke masing-masing tabel. Untuk instruksi impor, lihat Impor data ke tabel.

Data pelatihan (train_data)

id	y	f0	f1	f2	f3	f4	f5	f6	f7
1	-1	-0.294118	0.487437	0.180328	-0.292929	-1	0.00149028	-0.53117	-0.0333333
2	+1	-0.882353	-0.145729	0.0819672	-0.414141	-1	-0.207153	-0.766866	-0.666667
3	-1	-0.0588235	0.839196	0.0491803	-1	-1	-0.305514	-0.492741	-0.633333
4	+1	-0.882353	-0.105528	0.0819672	-0.535354	-0.777778	-0.162444	-0.923997	-1
5	-1	-1	0.376884	-0.344262	-0.292929	-0.602837	0.28465	0.887276	-0.6
6	+1	-0.411765	0.165829	0.213115	-1	-1	-0.23696	-0.894962	-0.7
7	-1	-0.647059	-0.21608	-0.180328	-0.353535	-0.791962	-0.0760059	-0.854825	-0.833333
8	+1	0.176471	0.155779	-1	-1	-1	0.052161	-0.952178	-0.733333
9	-1	-0.764706	0.979899	0.147541	-0.0909091	0.283688	-0.0909091	-0.931682	0.0666667
10	-1	-0.0588235	0.256281	0.57377	-1	-1	-1	-0.868488	0.1

Data pengujian (test_data)

id	y	f0	f1	f2	f3	f4	f5	f6	f7
1	+1	-0.882353	0.0854271	0.442623	-0.616162	-1	-0.19225	-0.725021	-0.9
2	+1	-0.294118	-0.0351759	-1	-1	-1	-0.293592	-0.904355	-0.766667
3	+1	-0.882353	0.246231	0.213115	-0.272727	-1	-0.171386	-0.981213	-0.7
4	-1	-0.176471	0.507538	0.278689	-0.414141	-0.702128	0.0491804	-0.475662	0.1
5	-1	-0.529412	0.839196	-1	-1	-1	-0.153502	-0.885568	-0.5
6	+1	-0.882353	0.246231	-0.0163934	-0.353535	-1	0.0670641	-0.627669	-1
7	-1	-0.882353	0.819095	0.278689	-0.151515	-0.307329	0.19225	0.00768574	-0.966667
8	+1	-0.882353	-0.0753769	0.0163934	-0.494949	-0.903073	-0.418778	-0.654996	-0.866667
9	+1	-1	0.527638	0.344262	-0.212121	-0.356974	0.23696	-0.836038	-0.8
10	+1	-0.882353	0.115578	0.0163934	-0.737374	-0.56974	-0.28465	-0.948762	-0.933333

Langkah 2: Bangun dan jalankan pipeline

Pada kanvas pipeline, tambahkan komponen berikut: dua komponen Read Table, satu komponen Naive Bayes, satu komponen Prediction, dan satu komponen Multiclass Classification Evaluation.
Sambungkan komponen-komponen tersebut seperti pada gambar berikut. Untuk informasi tentang cara membuat pipeline, lihat Pemodelan algoritma.
Konfigurasikan setiap komponen:
- Read Table-1: Pada tab Select Table, atur Table Name menjadi train_data.
- Read Table-2: Pada tab Select Table, atur Table Name menjadi test_data.
- Naive Bayes-1: Pada tab Fields Setting, atur Feature Column menjadi f0, f1, f2, f3, f4, f5, f6, f7 dan Label Column menjadi y. Biarkan semua parameter lain tetap pada nilai default-nya.
- Prediction-1: Pada tab Fields Settings, atur Reserved Columns menjadi id, y. Biarkan semua parameter lain tetap pada nilai default-nya.
- Multiclass Classification Evaluation-1: Pada tab Fields Settings, atur Original Classification Result Column menjadi y. Biarkan semua parameter lain tetap pada nilai default-nya.
Klik untuk menjalankan pipeline.

Langkah 3: Lihat hasil prediksi

Setelah pipeline selesai dijalankan, klik kanan Prediction-1 dan pilih View Data > Prediction Result Output.

Langkah selanjutnya

Untuk men-deploy model yang telah dilatih sebagai layanan online, lihat Deploy model sebagai layanan online.
Untuk ikhtisar Machine Learning Designer dan kemampuannya, lihat Ikhtisar Machine Learning Designer.
Untuk menjelajahi komponen algoritma lainnya, lihat Ikhtisar semua komponen.