全部产品
Search
文档中心

Platform For AI:Praktik terbaik untuk menjalankan komponen Pengelompokan K-means

更新时间:Jul 02, 2025

Topik ini menjelaskan cara menjalankan komponen Pengelompokan K-means dan Evaluasi Model Pengelompokan dari Platform for AI (PAI) dengan mengirimkan eksperimen penyetelan hyperparameter berdasarkan sumber daya MaxCompute untuk mendapatkan kombinasi hyperparameter optimal bagi algoritma komponen Pengelompokan K-means.

Langkah 1: Persiapkan data

Anda dapat menyiapkan data uji dan data evaluasi dengan merujuk pada contoh-contoh dalam topik Evaluasi Model Pengelompokan.

Data sampel pai_online_project.pai_kmeans_test_input dan pai_online_project.pai_cluster_evaluation_test_input yang digunakan dalam contoh ini berasal dari sumber data open source. Anda dapat langsung menggunakan data tersebut.

Langkah 2: Buat eksperimen

  1. Buka halaman Create Experiment. Untuk informasi lebih lanjut, lihat Buat Eksperimen.

  2. Di halaman Create Experiment, konfigurasikan parameter. Tabel berikut menjelaskan parameter utama. Untuk informasi tentang parameter lainnya, lihat Buat Eksperimen.

    • Konfigurasi Eksekusiimage.png

      Parameter

      Deskripsi

      Metric Type

      Pilih MaxCompute.

      Command

      Konfigurasikan perintah berikut dan jalankan perintah secara berurutan:

      • Perintah 1: Jalankan komponen K-means Clustering untuk membangun model pengelompokan menggunakan data uji yang telah disiapkan. Untuk informasi tentang cara mengonfigurasi parameter, lihat bagian "Metode 2: Jalankan perintah PAI" di topik K-means Clustering.

        pai -name kmeans
            -project algo_public
            -DinputTableName=pai_online_project.pai_kmeans_test_input
            -DselectedColNames=f0,f1
            -DappendColNames=f0,f1
            -DcenterCount=${centerCount}
            -Dloop=10
            -Daccuracy=0.01
            -DdistanceType=${distanceType}
            -DinitCenterMethod=random
            -Dseed=1
            -DmodelName=pai_kmeans_test_output_model_${exp_id}_${trial_id}
            -DidxTableName=pai_kmeans_test_output_idx_${exp_id}_${trial_id}
            -DclusterCountTableName=pai_kmeans_test_output_couter_${exp_id}_${trial_id}
            -DcenterTableName=pai_kmeans_test_output_center_${exp_id}_${trial_id};

        Dalam kode sebelumnya, ${centerCount} dan ${distanceType} adalah variabel hyperparameter yang dapat Anda definisikan.

      • Perintah 2: Jalankan komponen Evaluasi Model Pengelompokan berdasarkan hasil pengelompokan yang dihasilkan oleh Perintah 1 untuk mengevaluasi performa model pengelompokan. Untuk informasi tentang cara mengonfigurasi parameter, lihat bagian "Metode 2: Gunakan perintah PAI" di topik Evaluasi Model Pengelompokan.

      • PAI -name cluster_evaluation
            -project algo_public
            -DinputTableName=pai_online_project.pai_cluster_evaluation_test_input
            -DselectedColNames=f0,f1
            -DmodelName=pai_kmeans_test_output_model_${exp_id}_${trial_id}
            -DoutputTableName=pai_ft_cluster_evaluation_out_${exp_id}_${trial_id};

      Hyperparameter

      Berikut adalah daftar tipe kendala dan nilai valid dari hyperparameter:

      • centerCount:

        • Constraint Type: pilihan.

        • Valid Values: Klik ikon image.png untuk menambahkan nilai enumerasi berikut: 2, 3, 4, dan 5.

      • distanceType:

        • Constraint Type: pilihan.

        • Valid Values: Klik ikon image.png untuk menambahkan nilai enumerasi berikut: euclidean, cosine, dan cityblock.

      Sistem menghasilkan 12 kombinasi hyperparameter berdasarkan konfigurasi sebelumnya dan membuat percobaan untuk setiap kombinasi hyperparameter. Dalam setiap percobaan, sistem menjalankan komponen Pengelompokan K-means dan Evaluasi Model Pengelompokan menggunakan kombinasi hyperparameter.

    • Konfigurasi Percobaan

      Bidang

      Deskripsi

      Metric Type

      Pilih table.

      Method

      Pilih best.

      Metric Weight

      • Kunci: vrc

      • Nilai: 1

      Metric Source

      Atur parameter menjadi select GET_JSON_OBJECT(summary, '$.calinhara') as vrc from pai_ft_cluster_evaluation_out_${exp_id}_${trial_id};.

      Optimization

      Pilih Maximize.

      Model Name

      Atur parameter menjadi pai_kmeans_test_output_model_${exp_id}_${trial_id}.

    • Konfigurasi Pencarian

      Parameter

      Deskripsi

      Search Algorithm

      Pilih TPE.

      Maximum Trials

      Atur parameter menjadi 6.

      Maximum Concurrent Trials

      Atur parameter menjadi 3.

  3. Klik Submit.

    Sistem akan mulai membuat eksperimen. Anda dapat melihat eksperimen di halaman AutoML.

Langkah 3: Lihat detail eksperimen dan hasilnya

  1. Di halaman AutoML, klik nama eksperimen untuk masuk ke halaman Experiment Details.

    Di halaman Detail Eksperimen, Anda dapat melihat kemajuan eksekusi dan status percobaan.

    Dalam contoh ini, sistem membuat enam percobaan berdasarkan algoritma pencarian dan jumlah maksimum percobaan yang Anda tentukan.

  2. Di tab Trials, Anda dapat melihat percobaan yang dihasilkan oleh sistem. Anda juga dapat melihat status eksekusi, metrik akhir, dan kombinasi hyperparameter dari setiap percobaan.

    Dalam contoh ini, parameter Optimasi diatur ke Maksimalkan. Oleh karena itu, kombinasi hyperparameter optimal adalah yang memiliki Final Metric sebesar 59.089. Kombinasi optimal: centerCount: 2, distanceType: cityblock.