Pengelompokan Berbasis Kepadatan untuk Aplikasi dengan Kebisingan (DBSCAN) adalah algoritma pengelompokan berbasis kepadatan. Kluster didefinisikan sebagai kumpulan maksimum titik-titik yang saling terhubung secara padat. Algoritma ini dapat mengidentifikasi kluster dengan bentuk sembarang dalam dataset spasial yang mengandung kebisingan. Anda dapat menggunakan Komponen DBSCAN untuk membuat model pengelompokan. Topik ini menjelaskan cara mengonfigurasi Komponen DBSCAN.
Batasan
Komponen DBSCAN hanya dapat digunakan di Machine Learning Designer dari Platform for AI (PAI).
Mesin komputasi yang didukung adalah MaxCompute dan Apache Flink.
Konfigurasikan komponen di konsol PAI
Anda dapat mengonfigurasi parameter untuk Komponen DBSCAN di Konsol PAI.
Tab | Parameter | Deskripsi |
Field Setting | idCol | Nama kolom ID. |
vectorCol | Nama kolom vektor. | |
Parameter Setting | epsilon | Jarak terpanjang antara dua titik data tetangga. Untuk informasi lebih lanjut, lihat bagian "Lampiran 2: Cara mengonfigurasi parameter" dari topik ini. |
minPoints | Jumlah minimum titik data dalam lingkungan suatu titik agar titik tersebut dianggap sebagai titik inti. Untuk informasi lebih lanjut, lihat bagian "Lampiran 2: Cara mengonfigurasi parameter" dari topik ini. | |
predictionCol | Nama kolom hasil prediksi. | |
distanceType | Pengukuran jarak yang digunakan untuk pengelompokan. Nilai default: EUCLIDEAN. Nilai valid:
| |
Execution Tuning | Number of Workers | Jumlah pekerja. Parameter ini harus digunakan bersama dengan parameter Memory per worker, unit MB. Nilai parameter ini harus berupa bilangan bulat positif. Nilai valid: [1,9999]. Untuk informasi lebih lanjut, lihat bagian "Lampiran: Cara memperkirakan penggunaan sumber daya" dari topik ini. |
Memory per worker, unit MB | Ukuran memori setiap pekerja. Nilai valid: 1024 hingga 64 × 1024. Unit: MB. Untuk informasi lebih lanjut, lihat bagian "Lampiran: Cara memperkirakan penggunaan sumber daya" dari topik ini. |
Lampiran: Cara memperkirakan penggunaan sumber daya
Anda dapat merujuk pada bagian berikut untuk memperkirakan penggunaan sumber daya.
Bagaimana cara memperkirakan ukuran memori yang sesuai untuk setiap pekerja?
Anda dapat menghitung memori yang sesuai untuk setiap pekerja menggunakan rumus berikut: Ukuran data masukan × 15.
Sebagai contoh, jika ukuran data masukan adalah 1 GB, memori setiap pekerja dapat diatur menjadi 15 GB.
Bagaimana cara memperkirakan jumlah pekerja yang sesuai?
Jumlah pekerja yang lebih besar menyebabkan overhead yang lebih tinggi untuk komunikasi antar pekerja. Oleh karena itu, saat Anda menambah jumlah pekerja, tugas pelatihan terdistribusi akan semakin cepat namun melambat setelah jumlah pekerja tertentu. Anda dapat menyetel parameter ini untuk menemukan jumlah optimal.
Bagaimana cara memperkirakan jumlah maksimum data yang dapat didukung oleh algoritma?
Kami merekomendasikan Anda memasukkan kurang dari 1 juta catatan data dengan dimensi kurang dari 200.
nullJika Anda ingin melakukan pengelompokan pada volume data yang lebih besar, kami merekomendasikan Anda membagi data menjadi beberapa kelompok dan menjalankan algoritma DBSCAN pada setiap kelompok.
Mengapa ID dari titik data inti adalah 2147483648?
Ini karena titik inti adalah titik pencilan yang tidak termasuk dalam kluster mana pun.
Lampiran 2: Cara mengonfigurasi parameter
Komponen DBSCAN memiliki dua parameter yang sering digunakan: minPoints dan epsilon.
Jika jumlah kluster yang diamati terlalu banyak dan Anda ingin menguranginya, kami merekomendasikan Anda memprioritaskan peningkatan nilai minPoints dibandingkan dengan penurunan nilai epsilon.
Jika jumlah kluster yang diamati terlalu sedikit dan Anda ingin menambahnya, kami merekomendasikan Anda memprioritaskan penurunan nilai minPoints dibandingkan dengan peningkatan nilai epsilon.