Naive Bayes adalah algoritma klasifikasi probabilistik berdasarkan teorema Bayes. Algoritma ini mengasumsikan bahwa semua fitur dalam data input saling independen. Anda dapat menggunakan komponen Naive Bayes dari Machine Learning Designer untuk menangani berbagai masalah klasifikasi secara efektif. Topik ini menjelaskan cara mengonfigurasi komponen Naive Bayes.
Catatan Penggunaan
Komponen Naive Bayes memerlukan sumber daya komputasi MaxCompute.
Konfigurasikan komponen
Anda dapat menggunakan salah satu metode berikut untuk mengonfigurasi komponen Naive Bayes.
Metode 1: Gunakan konsol Platform for AI (PAI)
Untuk mengonfigurasi komponen Naive Bayes di konsol PAI, lakukan langkah-langkah berikut: Masuk ke konsol PAI, buka halaman Pemodelan Visual (Designer), dan buka pipeline. Di halaman pipeline, seret komponen Naive Bayes ke kanvas dan konfigurasikan parameter di panel sebelah kanan. Tabel berikut menjelaskan parameter tersebut.
Tab | Parameter | Deskripsi |
Fields Setting | Feature Column | Kolom-kolom fitur. Nilai default: semua kolom dalam tabel input kecuali kolom yang ditentukan dalam parameter Label Column. Kolom bertipe DOUBLE, STRING, dan BIGINT didukung. |
Excluded Columns | Kolom yang dikecualikan untuk pelatihan. Anda tidak dapat mengonfigurasi parameter ini dan parameter Feature Column pada saat yang sama. | |
Forced Conversion Column | Kolom yang memerlukan konversi tipe data paksa. Jika Anda membiarkan parameter ini kosong, aturan konversi berikut berlaku:
Catatan Jika Anda ingin mengonversi kolom bertipe BIGINT menjadi kolom bertipe CATEGORICAL, Anda harus mengonfigurasi parameter ini. | |
Label Column | Kolom label. Anda tidak dapat menggunakan kolom label sebagai kolom fitur. Kolom label harus bertipe DOUBLE, STRING, atau BIGINT. | |
Input Sparse Format Data | Menentukan apakah data input bersifat sparse. Data sparse berada dalam format pasangan kunci-nilai. | |
Separator between K:V when input is sparse | Pemisah yang digunakan untuk memisahkan pasangan kunci-nilai. Secara default, koma (,) digunakan. | |
The separator of key and value when the input is sparse | Pemisah yang digunakan untuk memisahkan kunci dan nilai dalam pasangan kunci-nilai. Secara default, titik dua (:) digunakan. | |
Whether To Generate PMML | Menentukan apakah akan menghasilkan model Predictive Model Markup Language (PMML). Jika Anda belum mengonfigurasi jalur penyimpanan untuk pipeline dan Anda memilih kotak centang untuk parameter ini, klik Create Now untuk mengonfigurasi jalur penyimpanan untuk pipeline. | |
Tuning | Number of cores | Secara default, sistem secara otomatis mengonfigurasi parameter ini. |
Memory Size of Core(MB) | Secara default, sistem secara otomatis mengonfigurasi parameter ini. |
Metode 2: Gunakan perintah PAI
Untuk mengonfigurasi komponen Naive Bayes dengan menggunakan perintah PAI, jalankan perintah di komponen SQL Script. Untuk informasi lebih lanjut, lihat SQL Script.
PAI -name NaiveBayes -project algo_public
-DinputTablePartitions="pt=20150501"
-DmodelName="xlab_m_NaiveBayes_23772"
-DlabelColName="poutcome"
-DfeatureColNames="age,previous,cons_conf_idx,euribor3m"
-DinputTableName="bank_data_partition";Parameter | Diperlukan | Deskripsi | Nilai Default |
inputTableName | Ya | Nama tabel input. | Tidak ada nilai default |
inputTablePartitions | Tidak | Partisi yang dipilih dari tabel input untuk pelatihan. | Semua partisi |
modelName | Ya | Nama model output. | Tidak ada nilai default |
labelColName | Ya | Nama kolom label. | Tidak ada nilai default |
featureColNames | Tidak | Nama kolom fitur yang dipilih dari tabel input untuk pelatihan. | Semua kolom kecuali kolom label |
excludedColNames | Tidak | Nama kolom yang dikecualikan untuk pelatihan. Anda tidak dapat mengonfigurasi parameter ini dan parameter featureColNames pada saat yang sama. | Tidak ada nilai default |
forceCategorical | Tidak | Kolom yang memerlukan konversi tipe data paksa. Jika Anda membiarkan parameter ini kosong, aturan konversi berikut berlaku:
Catatan Jika Anda ingin mengonversi kolom bertipe BIGINT menjadi kolom bertipe CATEGORICAL, Anda harus mengonfigurasi parameter ini. | INT adalah tipe kontinu. |
coreNum | Tidak | Jumlah core CPU yang digunakan untuk komputasi. | Diatur secara otomatis oleh sistem |
memSizePerCore | Tidak | Ukuran memori setiap core CPU. Nilai valid: 1 hingga 65536. Unit: MB. | Diatur secara otomatis oleh sistem |
Contoh
Siapkan data pelatihan dan data uji.
Gunakan klien MaxCompute untuk membuat tabel bernama train_data dan test_data. Tabel train_data digunakan untuk menyimpan data pelatihan dan tabel test_data digunakan untuk menyimpan data uji. Di dalam tabel, atur nama kolom dan tipe ke
id bigint, y bigint, f0 double, f1 double, f2 double, f3 double, f4 double, f5 double, f6 double, f7 double. Untuk informasi tentang cara menginstal dan mengonfigurasi klien MaxCompute, lihat Klien MaxCompute (odpscmd). Untuk informasi tentang cara membuat tabel, lihat Buat Tabel.Impor data pelatihan berikut ke tabel train_data dan data uji ke tabel test_data. Untuk informasi tentang cara mengimpor data, lihat Impor Data ke Tabel.
Data Pelatihan
id
y
f0
f1
f2
f3
f4
f5
f6
f7
1
-1
-0.294118
0.487437
0.180328
-0.292929
-1
0.00149028
-0.53117
-0.0333333
2
+1
-0.882353
-0.145729
0.0819672
-0.414141
-1
-0.207153
-0.766866
-0.666667
3
-1
-0.0588235
0.839196
0.0491803
-1
-1
-0.305514
-0.492741
-0.633333
4
+1
-0.882353
-0.105528
0.0819672
-0.535354
-0.777778
-0.162444
-0.923997
-1
5
-1
-1
0.376884
-0.344262
-0.292929
-0.602837
0.28465
0.887276
-0.6
6
+1
-0.411765
0.165829
0.213115
-1
-1
-0.23696
-0.894962
-0.7
7
-1
-0.647059
-0.21608
-0.180328
-0.353535
-0.791962
-0.0760059
-0.854825
-0.833333
8
+1
0.176471
0.155779
-1
-1
-1
0.052161
-0.952178
-0.733333
9
-1
-0.764706
0.979899
0.147541
-0.0909091
0.283688
-0.0909091
-0.931682
0.0666667
10
-1
-0.0588235
0.256281
0.57377
-1
-1
-1
-0.868488
0.1
Data Uji
id
y
f0
f1
f2
f3
f4
f5
f6
f7
1
+1
-0.882353
0.0854271
0.442623
-0.616162
-1
-0.19225
-0.725021
-0.9
2
+1
-0.294118
-0.0351759
-1
-1
-1
-0.293592
-0.904355
-0.766667
3
+1
-0.882353
0.246231
0.213115
-0.272727
-1
-0.171386
-0.981213
-0.7
4
-1
-0.176471
0.507538
0.278689
-0.414141
-0.702128
0.0491804
-0.475662
0.1
5
-1
-0.529412
0.839196
-1
-1
-1
-0.153502
-0.885568
-0.5
6
+1
-0.882353
0.246231
-0.0163934
-0.353535
-1
0.0670641
-0.627669
-1
7
-1
-0.882353
0.819095
0.278689
-0.151515
-0.307329
0.19225
0.00768574
-0.966667
8
+1
-0.882353
-0.0753769
0.0163934
-0.494949
-0.903073
-0.418778
-0.654996
-0.866667
9
+1
-1
0.527638
0.344262
-0.212121
-0.356974
0.23696
-0.836038
-0.8
10
+1
-0.882353
0.115578
0.0163934
-0.737374
-0.56974
-0.28465
-0.948762
-0.933333
Buat pipeline seperti yang ditunjukkan pada gambar berikut, lalu jalankan pipeline. Untuk informasi tentang cara membuat pipeline, lihat Pemodelan Algoritma.

Di panel sebelah kiri halaman pipeline, cari dan seret dua komponen Read Table, satu komponen Naive Bayes, satu komponen Prediction, dan satu komponen Multiclass Classification Evaluation ke kanvas.
Sambungkan komponen menjadi pipeline berdasarkan gambar di atas.
Konfigurasikan parameter komponen.
Klik komponen Read Table-1 di kanvas. Pada tab Select Table di panel sebelah kanan, atur parameter Table Name ke train_data.
Klik komponen Read Table-2 di kanvas. Pada tab Select Table di panel sebelah kanan, atur parameter Table Name ke test_data.
Klik komponen Naive Bayes-1 di kanvas dan konfigurasikan parameter di panel sebelah kanan. Tabel berikut menjelaskan parameter yang harus Anda konfigurasi. Pertahankan nilai default untuk parameter lainnya.
Tab
Parameter
Deskripsi
Fields Setting
Feature Column
Pilih kolom f0, f1, f2, f3, f4, f5, f6, dan f7 dari tabel pelatihan.
Label Column
Pilih kolom y dari tabel pelatihan.
Klik komponen Prediction -1 di kanvas. Pada tab Fields Settings di panel sebelah kanan, atur parameter Reserved Columns ke id dan y. Pertahankan nilai default untuk parameter lainnya.
Klik komponen Multiclass Classification Evaluation-1 di kanvas. Pada tab Fields Settings di panel sebelah kanan, atur parameter Original Classification Result Column ke y. Pertahankan nilai default untuk parameter lainnya.
Klik tombol
untuk menjalankan pipeline.
Setelah proses pipeline selesai, klik kanan komponen Prediction-1 dan pilih untuk melihat hasil prediksi.

Referensi
Setelah Anda menjalankan komponen Naive Bayes untuk menghasilkan model PMML, Anda dapat menerapkan model tersebut sebagai layanan online. Untuk informasi lebih lanjut, lihat Terapkan Model sebagai Layanan Online.
Untuk informasi tentang Machine Learning Designer, lihat Ikhtisar Machine Learning Designer.
Machine Learning Designer menyediakan beberapa komponen algoritma preset. Anda dapat memilih komponen berdasarkan kebutuhan bisnis Anda. Untuk informasi lebih lanjut, lihat Referensi Komponen: Ikhtisar Semua Komponen.