全部产品
Search
文档中心

Platform For AI:Pelatihan GMM

更新时间:Jun 22, 2025

Model Campuran Gaussian (GMM) adalah model probabilistik yang merepresentasikan K subpopulasi Gaussian dalam populasi keseluruhan. Komponen Pelatihan GMM dapat digunakan untuk mengklasifikasikan model. Topik ini menjelaskan cara mengonfigurasi komponen Pelatihan GMM.

Batasan

Komponen Pelatihan Regresi Ridge hanya dapat digunakan dengan salah satu sumber daya komputasi berikut: MaxCompute, Realtime Compute for Apache Flink, atau Deep Learning Containers (DLC) dari Platform for AI (PAI).

Konfigurasikan komponen di konsol PAI

Anda dapat mengonfigurasi parameter untuk komponen Pelatihan GMM di konsol Machine Learning Platform for AI (PAI).

Tab

Parameter

Deskripsi

Field Setting

vectorCol

Nama kolom vektor.

Parameter Setting

epsilon

Ambang konvergensi. Ketika jarak antara dua titik inti yang dihasilkan dari dua iterasi kurang dari nilai yang ditentukan untuk parameter ini, algoritma konvergen. Nilai default: 1.0E ke 4.

k

Jumlah Gaussian. Nilai default: 2.

maxIter

Jumlah maksimum iterasi. Nilai default: 100.

randomSeed

Seed acak yang diberikan pada metode. Nilai default: 0.

Execution Tuning

Number of Workers

Jumlah pekerja. Parameter ini harus digunakan bersama dengan parameter Memory per worker, unit MB. Nilai parameter ini harus bilangan bulat positif. Nilai valid: [1,9999]. Untuk informasi lebih lanjut, lihat bagian "Lampiran: Cara memperkirakan penggunaan sumber daya" dari topik ini.

Memory per worker, unit MB

Ukuran memori setiap pekerja. Nilai valid: 1024 hingga 64 × 1024. Unit: MB. Untuk informasi lebih lanjut, lihat bagian "Lampiran: Cara memperkirakan penggunaan sumber daya" dari topik ini.

Lampiran: Cara memperkirakan penggunaan sumber daya

Berikut adalah panduan untuk memperkirakan penggunaan sumber daya.

  • Bagaimana cara memperkirakan ukuran memori yang sesuai untuk setiap pekerja?

    Jika jumlah Gaussian adalah K dan jumlah dimensi vektor adalah M, ukuran memori yang sesuai untuk setiap pekerja dapat dihitung menggunakan rumus berikut: M × M × K × 8 × 2 × 12/1024/1024 (unit: MB). Dalam banyak kasus, ukuran memori setiap pekerja diatur menjadi 8 GB.

  • Bagaimana cara memperkirakan jumlah pekerja yang sesuai?

    Kami menyarankan Anda mengonfigurasi jumlah pekerja berdasarkan ukuran data input. Misalnya, jika ukuran data input adalah X GB, kami sarankan Anda menggunakan 5 × X pekerja. Jika sumber daya tidak mencukupi, Anda dapat mengurangi jumlah pekerja. Jumlah pekerja yang lebih besar menyebabkan overhead yang lebih tinggi untuk komunikasi antar pekerja. Oleh karena itu, saat Anda meningkatkan jumlah node, tugas pelatihan terdistribusi akan semakin cepat tetapi menjadi lebih lambat setelah sejumlah pekerja tertentu. Anda dapat menyetel parameter ini untuk menemukan jumlah optimal.

  • Bagaimana cara memperkirakan jumlah data maksimum yang dapat didukung oleh algoritma?

    Kami menyarankan Anda menetapkan jumlah dimensi vektor kurang dari 200.