Konfigurasikan komponen clustering DBSCAN-Platform For AI-Alibaba Cloud

Pengelompokan Berbasis Kepadatan untuk Aplikasi dengan Kebisingan (DBSCAN) adalah algoritma pengelompokan berbasis kepadatan. Kluster didefinisikan sebagai kumpulan maksimum titik-titik yang saling terhubung secara padat. Algoritma ini dapat mengidentifikasi kluster dengan bentuk sembarang dalam dataset spasial yang mengandung kebisingan. Anda dapat menggunakan Komponen DBSCAN untuk membuat model pengelompokan. Topik ini menjelaskan cara mengonfigurasi Komponen DBSCAN.

Batasan

Komponen DBSCAN hanya dapat digunakan di Machine Learning Designer dari Platform for AI (PAI).
Mesin komputasi yang didukung adalah MaxCompute dan Apache Flink.

Konfigurasikan komponen di konsol PAI

Anda dapat mengonfigurasi parameter untuk Komponen DBSCAN di Konsol PAI.

Tab	Parameter	Deskripsi
Field Setting	idCol	Nama kolom ID.
Field Setting	vectorCol	Nama kolom vektor.
Parameter Setting	epsilon	Jarak terpanjang antara dua titik data tetangga. Untuk informasi lebih lanjut, lihat bagian "Lampiran 2: Cara mengonfigurasi parameter" dari topik ini.
	minPoints	Jumlah minimum titik data dalam lingkungan suatu titik agar titik tersebut dianggap sebagai titik inti. Untuk informasi lebih lanjut, lihat bagian "Lampiran 2: Cara mengonfigurasi parameter" dari topik ini.
	predictionCol	Nama kolom hasil prediksi.
	distanceType	Pengukuran jarak yang digunakan untuk pengelompokan. Nilai default: EUCLIDEAN. Nilai valid: EUCLIDEAN. Rumus: . COSINE. Rumus: CITYBLOCK. Rumus:
Execution Tuning	Number of Workers	Jumlah pekerja. Parameter ini harus digunakan bersama dengan parameter Memory per worker, unit MB. Nilai parameter ini harus berupa bilangan bulat positif. Nilai valid: [1,9999]. Untuk informasi lebih lanjut, lihat bagian "Lampiran: Cara memperkirakan penggunaan sumber daya" dari topik ini.
Execution Tuning	Memory per worker, unit MB	Ukuran memori setiap pekerja. Nilai valid: 1024 hingga 64 × 1024. Unit: MB. Untuk informasi lebih lanjut, lihat bagian "Lampiran: Cara memperkirakan penggunaan sumber daya" dari topik ini.

Lampiran: Cara memperkirakan penggunaan sumber daya

Anda dapat merujuk pada bagian berikut untuk memperkirakan penggunaan sumber daya.

Bagaimana cara memperkirakan ukuran memori yang sesuai untuk setiap pekerja?
Anda dapat menghitung memori yang sesuai untuk setiap pekerja menggunakan rumus berikut: Ukuran data masukan × 15.
Sebagai contoh, jika ukuran data masukan adalah 1 GB, memori setiap pekerja dapat diatur menjadi 15 GB.
Bagaimana cara memperkirakan jumlah pekerja yang sesuai?
Jumlah pekerja yang lebih besar menyebabkan overhead yang lebih tinggi untuk komunikasi antar pekerja. Oleh karena itu, saat Anda menambah jumlah pekerja, tugas pelatihan terdistribusi akan semakin cepat namun melambat setelah jumlah pekerja tertentu. Anda dapat menyetel parameter ini untuk menemukan jumlah optimal.
Bagaimana cara memperkirakan jumlah maksimum data yang dapat didukung oleh algoritma?
Kami merekomendasikan Anda memasukkan kurang dari 1 juta catatan data dengan dimensi kurang dari 200.
null
Jika Anda ingin melakukan pengelompokan pada volume data yang lebih besar, kami merekomendasikan Anda membagi data menjadi beberapa kelompok dan menjalankan algoritma DBSCAN pada setiap kelompok.
Mengapa ID dari titik data inti adalah 2147483648?
Ini karena titik inti adalah titik pencilan yang tidak termasuk dalam kluster mana pun.

Lampiran 2: Cara mengonfigurasi parameter

Komponen DBSCAN memiliki dua parameter yang sering digunakan: minPoints dan epsilon.

Jika jumlah kluster yang diamati terlalu banyak dan Anda ingin menguranginya, kami merekomendasikan Anda memprioritaskan peningkatan nilai minPoints dibandingkan dengan penurunan nilai epsilon.
Jika jumlah kluster yang diamati terlalu sedikit dan Anda ingin menambahnya, kami merekomendasikan Anda memprioritaskan penurunan nilai minPoints dibandingkan dengan peningkatan nilai epsilon.