Clustering Berbasis Kepadatan untuk Aplikasi dengan Noise (DBSCAN) adalah algoritma pengelompokan berbasis kepadatan. Cluster didefinisikan sebagai kumpulan maksimum titik-titik yang saling terhubung secara padat. Algoritma ini menganggap wilayah dengan kepadatan tinggi sebagai cluster dan mendeteksi cluster dengan bentuk sembarang dalam basis data spasial dengan kebisingan. Anda dapat menggunakan model pelatihan DBSCAN dari komponen Prediksi DBSCAN untuk memprediksi cluster mana titik baru mungkin termasuk. Topik ini menjelaskan cara mengonfigurasi komponen Prediksi DBSCAN.
Sumber daya komputasi
Komponen Prediksi DBSCAN mendukung sumber daya komputasi berikut:
MaxCompute
Flink
DLC
Konfigurasikan komponen di konsol PAI
Anda dapat mengonfigurasi parameter untuk komponen Prediksi DBSCAN di konsol Machine Learning Platform for AI (PAI).
Tab | Parameter | Deskripsi | |
Field Setting | reservedCols | Apakah akan mempertahankan nama kolom asli. | |
Parameter Setting | predictionCol | Nama kolom prediksi. | |
predictionDetailCol | Nama kolom detail prediksi. | ||
numThreads | Jumlah thread yang digunakan untuk pengelompokan DBSCAN. | ||
Execution Tuning | Choose Running Mode | MaxCompute | Gunakan sumber daya komputasi MaxCompute atau Flink. Untuk informasi lebih lanjut tentang cara mengonfigurasi jumlah pekerja dan memori pekerja, lihat Lampiran: Cara memperkirakan penggunaan sumber daya. |
Flink | |||
DLC | Gunakan sumber daya komputasi DLC. Konfigurasikan sumber daya berdasarkan instruksi pada halaman. | ||
Lampiran: Cara memperkirakan penggunaan sumber daya
Anda dapat merujuk pada bagian berikut untuk memperkirakan penggunaan sumber daya.
Bagaimana cara memperkirakan memori yang akan digunakan oleh setiap node?
Memori yang digunakan oleh setiap node kira-kira ukuran model dikali 30.
Sebagai contoh, jika ukuran model input adalah 1 GB, memori setiap node dapat diatur menjadi 30 GB.
Bagaimana cara memperkirakan jumlah node yang saya butuhkan?
Tugas pelatihan terdistribusi mempercepat dan kemudian melambat seiring bertambahnya jumlah node karena overhead komunikasi. Jika tugas melambat, hentikan penambahan jumlah node. Jumlah node ini dapat digunakan.