全部产品
Search
文档中心

Platform For AI:Naive Bayes

更新时间:Jul 06, 2025

Naive Bayes adalah algoritma klasifikasi probabilistik berdasarkan teorema Bayes. Algoritma ini mengasumsikan bahwa semua fitur dalam data input saling independen. Anda dapat menggunakan komponen Naive Bayes dari Machine Learning Designer untuk menangani berbagai masalah klasifikasi secara efektif. Topik ini menjelaskan cara mengonfigurasi komponen Naive Bayes.

Catatan Penggunaan

Komponen Naive Bayes memerlukan sumber daya komputasi MaxCompute.

Konfigurasikan komponen

Anda dapat menggunakan salah satu metode berikut untuk mengonfigurasi komponen Naive Bayes.

Metode 1: Gunakan konsol Platform for AI (PAI)

Untuk mengonfigurasi komponen Naive Bayes di konsol PAI, lakukan langkah-langkah berikut: Masuk ke konsol PAI, buka halaman Pemodelan Visual (Designer), dan buka pipeline. Di halaman pipeline, seret komponen Naive Bayes ke kanvas dan konfigurasikan parameter di panel sebelah kanan. Tabel berikut menjelaskan parameter tersebut.

Tab

Parameter

Deskripsi

Fields Setting

Feature Column

Kolom-kolom fitur. Nilai default: semua kolom dalam tabel input kecuali kolom yang ditentukan dalam parameter Label Column. Kolom bertipe DOUBLE, STRING, dan BIGINT didukung.

Excluded Columns

Kolom yang dikecualikan untuk pelatihan. Anda tidak dapat mengonfigurasi parameter ini dan parameter Feature Column pada saat yang sama.

Forced Conversion Column

Kolom yang memerlukan konversi tipe data paksa. Jika Anda membiarkan parameter ini kosong, aturan konversi berikut berlaku:

  • Konversikan kolom bertipe STRING, BOOLEAN, atau DATETIME menjadi kolom bertipe diskrit.

  • Konversikan kolom bertipe DOUBLE atau BIGINT menjadi kolom bertipe kontinu.

Catatan

Jika Anda ingin mengonversi kolom bertipe BIGINT menjadi kolom bertipe CATEGORICAL, Anda harus mengonfigurasi parameter ini.

Label Column

Kolom label. Anda tidak dapat menggunakan kolom label sebagai kolom fitur. Kolom label harus bertipe DOUBLE, STRING, atau BIGINT.

Input Sparse Format Data

Menentukan apakah data input bersifat sparse. Data sparse berada dalam format pasangan kunci-nilai.

Separator between K:V when input is sparse

Pemisah yang digunakan untuk memisahkan pasangan kunci-nilai. Secara default, koma (,) digunakan.

The separator of key and value when the input is sparse

Pemisah yang digunakan untuk memisahkan kunci dan nilai dalam pasangan kunci-nilai. Secara default, titik dua (:) digunakan.

Whether To Generate PMML

Menentukan apakah akan menghasilkan model Predictive Model Markup Language (PMML). Jika Anda belum mengonfigurasi jalur penyimpanan untuk pipeline dan Anda memilih kotak centang untuk parameter ini, klik Create Now untuk mengonfigurasi jalur penyimpanan untuk pipeline.

Tuning

Number of cores

Secara default, sistem secara otomatis mengonfigurasi parameter ini.

Memory Size of Core(MB)

Secara default, sistem secara otomatis mengonfigurasi parameter ini.

Metode 2: Gunakan perintah PAI

Untuk mengonfigurasi komponen Naive Bayes dengan menggunakan perintah PAI, jalankan perintah di komponen SQL Script. Untuk informasi lebih lanjut, lihat SQL Script.

PAI -name NaiveBayes -project algo_public
    -DinputTablePartitions="pt=20150501"
    -DmodelName="xlab_m_NaiveBayes_23772"
    -DlabelColName="poutcome"
    -DfeatureColNames="age,previous,cons_conf_idx,euribor3m"
    -DinputTableName="bank_data_partition";

Parameter

Diperlukan

Deskripsi

Nilai Default

inputTableName

Ya

Nama tabel input.

Tidak ada nilai default

inputTablePartitions

Tidak

Partisi yang dipilih dari tabel input untuk pelatihan.

Semua partisi

modelName

Ya

Nama model output.

Tidak ada nilai default

labelColName

Ya

Nama kolom label.

Tidak ada nilai default

featureColNames

Tidak

Nama kolom fitur yang dipilih dari tabel input untuk pelatihan.

Semua kolom kecuali kolom label

excludedColNames

Tidak

Nama kolom yang dikecualikan untuk pelatihan. Anda tidak dapat mengonfigurasi parameter ini dan parameter featureColNames pada saat yang sama.

Tidak ada nilai default

forceCategorical

Tidak

Kolom yang memerlukan konversi tipe data paksa. Jika Anda membiarkan parameter ini kosong, aturan konversi berikut berlaku:

  • Konversikan kolom bertipe STRING, BOOLEAN, atau DATETIME menjadi kolom bertipe diskrit.

  • Konversikan kolom bertipe DOUBLE atau BIGINT menjadi kolom bertipe kontinu.

Catatan

Jika Anda ingin mengonversi kolom bertipe BIGINT menjadi kolom bertipe CATEGORICAL, Anda harus mengonfigurasi parameter ini.

INT adalah tipe kontinu.

coreNum

Tidak

Jumlah core CPU yang digunakan untuk komputasi.

Diatur secara otomatis oleh sistem

memSizePerCore

Tidak

Ukuran memori setiap core CPU. Nilai valid: 1 hingga 65536. Unit: MB.

Diatur secara otomatis oleh sistem

Contoh

  1. Siapkan data pelatihan dan data uji.

    1. Gunakan klien MaxCompute untuk membuat tabel bernama train_data dan test_data. Tabel train_data digunakan untuk menyimpan data pelatihan dan tabel test_data digunakan untuk menyimpan data uji. Di dalam tabel, atur nama kolom dan tipe ke id bigint, y bigint, f0 double, f1 double, f2 double, f3 double, f4 double, f5 double, f6 double, f7 double. Untuk informasi tentang cara menginstal dan mengonfigurasi klien MaxCompute, lihat Klien MaxCompute (odpscmd). Untuk informasi tentang cara membuat tabel, lihat Buat Tabel.

    2. Impor data pelatihan berikut ke tabel train_data dan data uji ke tabel test_data. Untuk informasi tentang cara mengimpor data, lihat Impor Data ke Tabel.

      • Data Pelatihan

        id

        y

        f0

        f1

        f2

        f3

        f4

        f5

        f6

        f7

        1

        -1

        -0.294118

        0.487437

        0.180328

        -0.292929

        -1

        0.00149028

        -0.53117

        -0.0333333

        2

        +1

        -0.882353

        -0.145729

        0.0819672

        -0.414141

        -1

        -0.207153

        -0.766866

        -0.666667

        3

        -1

        -0.0588235

        0.839196

        0.0491803

        -1

        -1

        -0.305514

        -0.492741

        -0.633333

        4

        +1

        -0.882353

        -0.105528

        0.0819672

        -0.535354

        -0.777778

        -0.162444

        -0.923997

        -1

        5

        -1

        -1

        0.376884

        -0.344262

        -0.292929

        -0.602837

        0.28465

        0.887276

        -0.6

        6

        +1

        -0.411765

        0.165829

        0.213115

        -1

        -1

        -0.23696

        -0.894962

        -0.7

        7

        -1

        -0.647059

        -0.21608

        -0.180328

        -0.353535

        -0.791962

        -0.0760059

        -0.854825

        -0.833333

        8

        +1

        0.176471

        0.155779

        -1

        -1

        -1

        0.052161

        -0.952178

        -0.733333

        9

        -1

        -0.764706

        0.979899

        0.147541

        -0.0909091

        0.283688

        -0.0909091

        -0.931682

        0.0666667

        10

        -1

        -0.0588235

        0.256281

        0.57377

        -1

        -1

        -1

        -0.868488

        0.1

      • Data Uji

        id

        y

        f0

        f1

        f2

        f3

        f4

        f5

        f6

        f7

        1

        +1

        -0.882353

        0.0854271

        0.442623

        -0.616162

        -1

        -0.19225

        -0.725021

        -0.9

        2

        +1

        -0.294118

        -0.0351759

        -1

        -1

        -1

        -0.293592

        -0.904355

        -0.766667

        3

        +1

        -0.882353

        0.246231

        0.213115

        -0.272727

        -1

        -0.171386

        -0.981213

        -0.7

        4

        -1

        -0.176471

        0.507538

        0.278689

        -0.414141

        -0.702128

        0.0491804

        -0.475662

        0.1

        5

        -1

        -0.529412

        0.839196

        -1

        -1

        -1

        -0.153502

        -0.885568

        -0.5

        6

        +1

        -0.882353

        0.246231

        -0.0163934

        -0.353535

        -1

        0.0670641

        -0.627669

        -1

        7

        -1

        -0.882353

        0.819095

        0.278689

        -0.151515

        -0.307329

        0.19225

        0.00768574

        -0.966667

        8

        +1

        -0.882353

        -0.0753769

        0.0163934

        -0.494949

        -0.903073

        -0.418778

        -0.654996

        -0.866667

        9

        +1

        -1

        0.527638

        0.344262

        -0.212121

        -0.356974

        0.23696

        -0.836038

        -0.8

        10

        +1

        -0.882353

        0.115578

        0.0163934

        -0.737374

        -0.56974

        -0.28465

        -0.948762

        -0.933333

  2. Buat pipeline seperti yang ditunjukkan pada gambar berikut, lalu jalankan pipeline. Untuk informasi tentang cara membuat pipeline, lihat Pemodelan Algoritma.image

    1. Di panel sebelah kiri halaman pipeline, cari dan seret dua komponen Read Table, satu komponen Naive Bayes, satu komponen Prediction, dan satu komponen Multiclass Classification Evaluation ke kanvas.

    2. Sambungkan komponen menjadi pipeline berdasarkan gambar di atas.

    3. Konfigurasikan parameter komponen.

      • Klik komponen Read Table-1 di kanvas. Pada tab Select Table di panel sebelah kanan, atur parameter Table Name ke train_data.

      • Klik komponen Read Table-2 di kanvas. Pada tab Select Table di panel sebelah kanan, atur parameter Table Name ke test_data.

      • Klik komponen Naive Bayes-1 di kanvas dan konfigurasikan parameter di panel sebelah kanan. Tabel berikut menjelaskan parameter yang harus Anda konfigurasi. Pertahankan nilai default untuk parameter lainnya.

        Tab

        Parameter

        Deskripsi

        Fields Setting

        Feature Column

        Pilih kolom f0, f1, f2, f3, f4, f5, f6, dan f7 dari tabel pelatihan.

        Label Column

        Pilih kolom y dari tabel pelatihan.

      • Klik komponen Prediction -1 di kanvas. Pada tab Fields Settings di panel sebelah kanan, atur parameter Reserved Columns ke id dan y. Pertahankan nilai default untuk parameter lainnya.

      • Klik komponen Multiclass Classification Evaluation-1 di kanvas. Pada tab Fields Settings di panel sebelah kanan, atur parameter Original Classification Result Column ke y. Pertahankan nilai default untuk parameter lainnya.

    4. Klik tombol image untuk menjalankan pipeline.

  3. Setelah proses pipeline selesai, klik kanan komponen Prediction-1 dan pilih View Data > Prediction Result Output untuk melihat hasil prediksi.image

Referensi