Jalankan Prediksi DBSCAN untuk Mengklasifikasikan Kluster Data Baru - Platform For AI

Clustering Berbasis Kepadatan untuk Aplikasi dengan Noise (DBSCAN) adalah algoritma pengelompokan berbasis kepadatan. Cluster didefinisikan sebagai kumpulan maksimum titik-titik yang saling terhubung secara padat. Algoritma ini menganggap wilayah dengan kepadatan tinggi sebagai cluster dan mendeteksi cluster dengan bentuk sembarang dalam basis data spasial dengan kebisingan. Anda dapat menggunakan model pelatihan DBSCAN dari komponen Prediksi DBSCAN untuk memprediksi cluster mana titik baru mungkin termasuk. Topik ini menjelaskan cara mengonfigurasi komponen Prediksi DBSCAN.

Sumber daya komputasi

Komponen Prediksi DBSCAN mendukung sumber daya komputasi berikut:

MaxCompute
Flink
DLC

Konfigurasikan komponen di konsol PAI

Anda dapat mengonfigurasi parameter untuk komponen Prediksi DBSCAN di konsol Machine Learning Platform for AI (PAI).

Tab	Parameter		Deskripsi
Field Setting	reservedCols		Apakah akan mempertahankan nama kolom asli.
Parameter Setting	predictionCol		Nama kolom prediksi.
	predictionDetailCol		Nama kolom detail prediksi.
	numThreads		Jumlah thread yang digunakan untuk pengelompokan DBSCAN.
Execution Tuning	Choose Running Mode	MaxCompute	Gunakan sumber daya komputasi MaxCompute atau Flink. Untuk informasi lebih lanjut tentang cara mengonfigurasi jumlah pekerja dan memori pekerja, lihat Lampiran: Cara memperkirakan penggunaan sumber daya.
		Flink
		DLC	Gunakan sumber daya komputasi DLC. Konfigurasikan sumber daya berdasarkan instruksi pada halaman.

Lampiran: Cara memperkirakan penggunaan sumber daya

Anda dapat merujuk pada bagian berikut untuk memperkirakan penggunaan sumber daya.

Bagaimana cara memperkirakan memori yang akan digunakan oleh setiap node?
Memori yang digunakan oleh setiap node kira-kira ukuran model dikali 30.
Sebagai contoh, jika ukuran model input adalah 1 GB, memori setiap node dapat diatur menjadi 30 GB.
Bagaimana cara memperkirakan jumlah node yang saya butuhkan?
Tugas pelatihan terdistribusi mempercepat dan kemudian melambat seiring bertambahnya jumlah node karena overhead komunikasi. Jika tugas melambat, hentikan penambahan jumlah node. Jumlah node ini dapat digunakan.