Gunakan komponen GMM Training pada PAI untuk melatih model Gaussian Mixture - Platform for AI

Model Campuran Gaussian (GMM) adalah model probabilistik yang merepresentasikan K subpopulasi Gaussian dalam populasi keseluruhan. Komponen Pelatihan GMM dapat digunakan untuk mengklasifikasikan model. Topik ini menjelaskan cara mengonfigurasi komponen Pelatihan GMM.

Batasan

Komponen Pelatihan Regresi Ridge hanya dapat digunakan dengan salah satu sumber daya komputasi berikut: MaxCompute, Realtime Compute for Apache Flink, atau Deep Learning Containers (DLC) dari Platform for AI (PAI).

Konfigurasikan komponen di konsol PAI

Anda dapat mengonfigurasi parameter untuk komponen Pelatihan GMM di konsol Machine Learning Platform for AI (PAI).

Tab	Parameter	Deskripsi
Field Setting	vectorCol	Nama kolom vektor.
Parameter Setting	epsilon	Ambang konvergensi. Ketika jarak antara dua titik inti yang dihasilkan dari dua iterasi kurang dari nilai yang ditentukan untuk parameter ini, algoritma konvergen. Nilai default: 1.0E ke 4.
	k	Jumlah Gaussian. Nilai default: 2.
	maxIter	Jumlah maksimum iterasi. Nilai default: 100.
	randomSeed	Seed acak yang diberikan pada metode. Nilai default: 0.
Execution Tuning	Number of Workers	Jumlah pekerja. Parameter ini harus digunakan bersama dengan parameter Memory per worker, unit MB. Nilai parameter ini harus bilangan bulat positif. Nilai valid: [1,9999]. Untuk informasi lebih lanjut, lihat bagian "Lampiran: Cara memperkirakan penggunaan sumber daya" dari topik ini.
Execution Tuning	Memory per worker, unit MB	Ukuran memori setiap pekerja. Nilai valid: 1024 hingga 64 × 1024. Unit: MB. Untuk informasi lebih lanjut, lihat bagian "Lampiran: Cara memperkirakan penggunaan sumber daya" dari topik ini.

Lampiran: Cara memperkirakan penggunaan sumber daya

Berikut adalah panduan untuk memperkirakan penggunaan sumber daya.

Bagaimana cara memperkirakan ukuran memori yang sesuai untuk setiap pekerja?
Jika jumlah Gaussian adalah K dan jumlah dimensi vektor adalah M, ukuran memori yang sesuai untuk setiap pekerja dapat dihitung menggunakan rumus berikut: M × M × K × 8 × 2 × 12/1024/1024 (unit: MB). Dalam banyak kasus, ukuran memori setiap pekerja diatur menjadi 8 GB.
Bagaimana cara memperkirakan jumlah pekerja yang sesuai?
Kami menyarankan Anda mengonfigurasi jumlah pekerja berdasarkan ukuran data input. Misalnya, jika ukuran data input adalah X GB, kami sarankan Anda menggunakan 5 × X pekerja. Jika sumber daya tidak mencukupi, Anda dapat mengurangi jumlah pekerja. Jumlah pekerja yang lebih besar menyebabkan overhead yang lebih tinggi untuk komunikasi antar pekerja. Oleh karena itu, saat Anda meningkatkan jumlah node, tugas pelatihan terdistribusi akan semakin cepat tetapi menjadi lebih lambat setelah sejumlah pekerja tertentu. Anda dapat menyetel parameter ini untuk menemukan jumlah optimal.
Bagaimana cara memperkirakan jumlah data maksimum yang dapat didukung oleh algoritma?
Kami menyarankan Anda menetapkan jumlah dimensi vektor kurang dari 200.