All Products
Search
Document Center

Platform For AI:Naive Bayes

Last Updated:Apr 01, 2026

Naive Bayes adalah algoritma klasifikasi probabilistik berdasarkan teorema Bayes. Algoritma ini mengasumsikan bahwa semua fitur saling independen secara statistik—penyederhanaan yang membuatnya cepat dan efektif, terutama ketika data pelatihan terbatas.

Komponen Naive Bayes di Machine Learning Designer secara otomatis menangani dua tipe fitur: fitur kontinu (DOUBLE, BIGINT) dan fitur diskrit (STRING, BOOLEAN, DATETIME). Gunakan parameter Forced Conversion Column untuk mengganti inferensi tipe default jika diperlukan oleh data Anda—misalnya, untuk memperlakukan kolom BIGINT sebagai kategorikal, bukan kontinu.

Komponen Naive Bayes memerlukan sumber daya komputasi MaxCompute.

Prasyarat

Sebelum memulai, pastikan Anda telah:

  • Mengakses Konsol PAI dengan Proyek yang telah dikonfigurasi

  • Memiliki sumber data MaxCompute berupa tabel pelatihan dan pengujian

Konfigurasi komponen

Metode 1: Konsol PAI

  1. Login ke Konsol PAI dan buka Visualized Modeling (Designer).

  2. Buka pipeline, lalu seret komponen Naive Bayes ke kanvas.

  3. Klik komponen tersebut dan konfigurasikan parameter pada panel di sebelah kanan.

Fields Setting tab

ParameterDeskripsi
Feature ColumnKolom yang digunakan sebagai fitur. Default: semua kolom kecuali kolom label. Tipe yang didukung: DOUBLE, STRING, BIGINT.
Excluded ColumnsKolom yang dikecualikan dari pelatihan. Tidak dapat dikonfigurasi bersamaan dengan Feature Column.
Forced Conversion ColumnGanti inferensi tipe default untuk kolom tertentu. Jika dibiarkan kosong, aturan berikut berlaku: kolom STRING, BOOLEAN, dan DATETIME diperlakukan sebagai diskrit (kategorikal); kolom DOUBLE dan BIGINT diperlakukan sebagai kontinu. Untuk memperlakukan kolom BIGINT sebagai kategorikal, tentukan di sini.
Label ColumnKolom target. Harus bertipe DOUBLE, STRING, atau BIGINT. Tidak boleh juga menjadi kolom fitur.
Input Sparse Format DataAktifkan jika data masukan menggunakan format sparse (pasangan kunci-nilai).
Separator between K:V when input is sparsePembatas antara pasangan kunci-nilai. Default: koma (,).
The separator of key and value when the input is sparsePembatas antara kunci dan nilainya. Default: titik dua (:).
Whether To Generate PMMLHasilkan file model Predictive Model Markup Language (PMML). Jika jalur penyimpanan pipeline belum dikonfigurasi, klik Create Now saat diminta.

Tab Penyesuaian

ParameterDeskripsi
Number of coresJumlah core CPU untuk komputasi. Default: dikonfigurasi secara otomatis.
Memory Size of Core(MB)Memori per core CPU, dalam MB. Nilai valid: 1–65536. Default: dikonfigurasi secara otomatis.

Metode 2: Perintah PAI

Jalankan perintah berikut di komponen SQL Script:

PAI -name NaiveBayes -project algo_public
    -DinputTablePartitions="pt=20150501"
    -DmodelName="xlab_m_NaiveBayes_23772"
    -DlabelColName="poutcome"
    -DfeatureColNames="age,previous,cons_conf_idx,euribor3m"
    -DinputTableName="bank_data_partition";
ParameterWajibDeskripsiDefault
inputTableNameYaNama tabel input.
inputTablePartitionsTidakPartisi yang digunakan untuk pelatihan.Semua partisi
modelNameYaNama model output.
labelColNameYaNama kolom label.
featureColNamesTidakNama kolom fitur.Semua kolom kecuali kolom label
excludedColNamesTidakKolom yang dikecualikan. Tidak dapat diatur bersamaan dengan featureColNames.
forceCategoricalTidakKolom yang diperlakukan sebagai kategorikal terlepas dari tipe datanya. Jika tidak diatur, BIGINT diperlakukan sebagai kontinu.INT adalah kontinu
coreNumTidakJumlah core CPU.Dikonfigurasi secara otomatis
memSizePerCoreTidakMemori per core CPU. Nilai valid: 1–65536. Satuan: MB.Dikonfigurasi secara otomatis

Contoh

Contoh ini melatih klasifikasi biner pada set data kecil dan mengevaluasi akurasi prediksi menggunakan komponen Multiclass Classification Evaluation.

Langkah 1: Siapkan data pelatihan dan pengujian

  1. Gunakan client MaxCompute untuk membuat dua tabel — train_data dan test_data — dengan skema berikut:

    id bigint, y bigint, f0 double, f1 double, f2 double, f3 double, f4 double, f5 double, f6 double, f7 double

    Untuk instruksi penyiapan, lihat Client MaxCompute (odpscmd) dan Buat tabel.

  2. Impor data berikut ke masing-masing tabel. Untuk instruksi impor, lihat Impor data ke tabel.

    Data pelatihan (train_data)

    idyf0f1f2f3f4f5f6f7
    1-1-0.2941180.4874370.180328-0.292929-10.00149028-0.53117-0.0333333
    2+1-0.882353-0.1457290.0819672-0.414141-1-0.207153-0.766866-0.666667
    3-1-0.05882350.8391960.0491803-1-1-0.305514-0.492741-0.633333
    4+1-0.882353-0.1055280.0819672-0.535354-0.777778-0.162444-0.923997-1
    5-1-10.376884-0.344262-0.292929-0.6028370.284650.887276-0.6
    6+1-0.4117650.1658290.213115-1-1-0.23696-0.894962-0.7
    7-1-0.647059-0.21608-0.180328-0.353535-0.791962-0.0760059-0.854825-0.833333
    8+10.1764710.155779-1-1-10.052161-0.952178-0.733333
    9-1-0.7647060.9798990.147541-0.09090910.283688-0.0909091-0.9316820.0666667
    10-1-0.05882350.2562810.57377-1-1-1-0.8684880.1

    Data pengujian (test_data)

    idyf0f1f2f3f4f5f6f7
    1+1-0.8823530.08542710.442623-0.616162-1-0.19225-0.725021-0.9
    2+1-0.294118-0.0351759-1-1-1-0.293592-0.904355-0.766667
    3+1-0.8823530.2462310.213115-0.272727-1-0.171386-0.981213-0.7
    4-1-0.1764710.5075380.278689-0.414141-0.7021280.0491804-0.4756620.1
    5-1-0.5294120.839196-1-1-1-0.153502-0.885568-0.5
    6+1-0.8823530.246231-0.0163934-0.353535-10.0670641-0.627669-1
    7-1-0.8823530.8190950.278689-0.151515-0.3073290.192250.00768574-0.966667
    8+1-0.882353-0.07537690.0163934-0.494949-0.903073-0.418778-0.654996-0.866667
    9+1-10.5276380.344262-0.212121-0.3569740.23696-0.836038-0.8
    10+1-0.8823530.1155780.0163934-0.737374-0.56974-0.28465-0.948762-0.933333

Langkah 2: Bangun dan jalankan pipeline

  1. Pada kanvas pipeline, tambahkan komponen berikut: dua komponen Read Table, satu komponen Naive Bayes, satu komponen Prediction, dan satu komponen Multiclass Classification Evaluation.

  2. Sambungkan komponen-komponen tersebut seperti pada gambar berikut. Untuk informasi tentang cara membuat pipeline, lihat Pemodelan algoritma.

    Pipeline diagram

  3. Konfigurasikan setiap komponen:

    • Read Table-1: Pada tab Select Table, atur Table Name menjadi train_data.

    • Read Table-2: Pada tab Select Table, atur Table Name menjadi test_data.

    • Naive Bayes-1: Pada tab Fields Setting, atur Feature Column menjadi f0, f1, f2, f3, f4, f5, f6, f7 dan Label Column menjadi y. Biarkan semua parameter lain tetap pada nilai default-nya.

    • Prediction-1: Pada tab Fields Settings, atur Reserved Columns menjadi id, y. Biarkan semua parameter lain tetap pada nilai default-nya.

    • Multiclass Classification Evaluation-1: Pada tab Fields Settings, atur Original Classification Result Column menjadi y. Biarkan semua parameter lain tetap pada nilai default-nya.

  4. Klik image untuk menjalankan pipeline.

Langkah 3: Lihat hasil prediksi

Setelah pipeline selesai dijalankan, klik kanan Prediction-1 dan pilih View Data > Prediction Result Output.

Prediction results

Langkah selanjutnya