Model Campuran Gaussian (GMM) adalah model probabilistik yang merepresentasikan K subpopulasi Gaussian dalam populasi keseluruhan. Komponen Pelatihan GMM dapat digunakan untuk mengklasifikasikan model. Topik ini menjelaskan cara mengonfigurasi komponen Pelatihan GMM.
Batasan
Komponen Pelatihan Regresi Ridge hanya dapat digunakan dengan salah satu sumber daya komputasi berikut: MaxCompute, Realtime Compute for Apache Flink, atau Deep Learning Containers (DLC) dari Platform for AI (PAI).
Konfigurasikan komponen di konsol PAI
Anda dapat mengonfigurasi parameter untuk komponen Pelatihan GMM di konsol Machine Learning Platform for AI (PAI).
Tab | Parameter | Deskripsi |
Field Setting | vectorCol | Nama kolom vektor. |
Parameter Setting | epsilon | Ambang konvergensi. Ketika jarak antara dua titik inti yang dihasilkan dari dua iterasi kurang dari nilai yang ditentukan untuk parameter ini, algoritma konvergen. Nilai default: 1.0E ke 4. |
k | Jumlah Gaussian. Nilai default: 2. | |
maxIter | Jumlah maksimum iterasi. Nilai default: 100. | |
randomSeed | Seed acak yang diberikan pada metode. Nilai default: 0. | |
Execution Tuning | Number of Workers | Jumlah pekerja. Parameter ini harus digunakan bersama dengan parameter Memory per worker, unit MB. Nilai parameter ini harus bilangan bulat positif. Nilai valid: [1,9999]. Untuk informasi lebih lanjut, lihat bagian "Lampiran: Cara memperkirakan penggunaan sumber daya" dari topik ini. |
Memory per worker, unit MB | Ukuran memori setiap pekerja. Nilai valid: 1024 hingga 64 × 1024. Unit: MB. Untuk informasi lebih lanjut, lihat bagian "Lampiran: Cara memperkirakan penggunaan sumber daya" dari topik ini. |
Lampiran: Cara memperkirakan penggunaan sumber daya
Berikut adalah panduan untuk memperkirakan penggunaan sumber daya.
Bagaimana cara memperkirakan ukuran memori yang sesuai untuk setiap pekerja?
Jika jumlah Gaussian adalah K dan jumlah dimensi vektor adalah M, ukuran memori yang sesuai untuk setiap pekerja dapat dihitung menggunakan rumus berikut: M × M × K × 8 × 2 × 12/1024/1024 (unit: MB). Dalam banyak kasus, ukuran memori setiap pekerja diatur menjadi 8 GB.
Bagaimana cara memperkirakan jumlah pekerja yang sesuai?
Kami menyarankan Anda mengonfigurasi jumlah pekerja berdasarkan ukuran data input. Misalnya, jika ukuran data input adalah X GB, kami sarankan Anda menggunakan 5 × X pekerja. Jika sumber daya tidak mencukupi, Anda dapat mengurangi jumlah pekerja. Jumlah pekerja yang lebih besar menyebabkan overhead yang lebih tinggi untuk komunikasi antar pekerja. Oleh karena itu, saat Anda meningkatkan jumlah node, tugas pelatihan terdistribusi akan semakin cepat tetapi menjadi lebih lambat setelah sejumlah pekerja tertentu. Anda dapat menyetel parameter ini untuk menemukan jumlah optimal.
Bagaimana cara memperkirakan jumlah data maksimum yang dapat didukung oleh algoritma?
Kami menyarankan Anda menetapkan jumlah dimensi vektor kurang dari 200.