全部产品
Search
文档中心

Platform For AI:DBSCAN

更新时间:Jun 22, 2025

Pengelompokan Berbasis Kepadatan untuk Aplikasi dengan Kebisingan (DBSCAN) adalah algoritma pengelompokan berbasis kepadatan. Kluster didefinisikan sebagai kumpulan maksimum titik-titik yang saling terhubung secara padat. Algoritma ini dapat mengidentifikasi kluster dengan bentuk sembarang dalam dataset spasial yang mengandung kebisingan. Anda dapat menggunakan Komponen DBSCAN untuk membuat model pengelompokan. Topik ini menjelaskan cara mengonfigurasi Komponen DBSCAN.

Batasan

  • Komponen DBSCAN hanya dapat digunakan di Machine Learning Designer dari Platform for AI (PAI).

  • Mesin komputasi yang didukung adalah MaxCompute dan Apache Flink.

Konfigurasikan komponen di konsol PAI

Anda dapat mengonfigurasi parameter untuk Komponen DBSCAN di Konsol PAI.

Tab

Parameter

Deskripsi

Field Setting

idCol

Nama kolom ID.

vectorCol

Nama kolom vektor.

Parameter Setting

epsilon

Jarak terpanjang antara dua titik data tetangga. Untuk informasi lebih lanjut, lihat bagian "Lampiran 2: Cara mengonfigurasi parameter" dari topik ini.

minPoints

Jumlah minimum titik data dalam lingkungan suatu titik agar titik tersebut dianggap sebagai titik inti. Untuk informasi lebih lanjut, lihat bagian "Lampiran 2: Cara mengonfigurasi parameter" dari topik ini.

predictionCol

Nama kolom hasil prediksi.

distanceType

Pengukuran jarak yang digunakan untuk pengelompokan. Nilai default: EUCLIDEAN. Nilai valid:

  • EUCLIDEAN. Rumus: 1.

  • COSINE. Rumus: 2

  • CITYBLOCK. Rumus: 3

Execution Tuning

Number of Workers

Jumlah pekerja. Parameter ini harus digunakan bersama dengan parameter Memory per worker, unit MB. Nilai parameter ini harus berupa bilangan bulat positif. Nilai valid: [1,9999]. Untuk informasi lebih lanjut, lihat bagian "Lampiran: Cara memperkirakan penggunaan sumber daya" dari topik ini.

Memory per worker, unit MB

Ukuran memori setiap pekerja. Nilai valid: 1024 hingga 64 × 1024. Unit: MB. Untuk informasi lebih lanjut, lihat bagian "Lampiran: Cara memperkirakan penggunaan sumber daya" dari topik ini.

Lampiran: Cara memperkirakan penggunaan sumber daya

Anda dapat merujuk pada bagian berikut untuk memperkirakan penggunaan sumber daya.

  • Bagaimana cara memperkirakan ukuran memori yang sesuai untuk setiap pekerja?

    Anda dapat menghitung memori yang sesuai untuk setiap pekerja menggunakan rumus berikut: Ukuran data masukan × 15.

    Sebagai contoh, jika ukuran data masukan adalah 1 GB, memori setiap pekerja dapat diatur menjadi 15 GB.

  • Bagaimana cara memperkirakan jumlah pekerja yang sesuai?

    Jumlah pekerja yang lebih besar menyebabkan overhead yang lebih tinggi untuk komunikasi antar pekerja. Oleh karena itu, saat Anda menambah jumlah pekerja, tugas pelatihan terdistribusi akan semakin cepat namun melambat setelah jumlah pekerja tertentu. Anda dapat menyetel parameter ini untuk menemukan jumlah optimal.

  • Bagaimana cara memperkirakan jumlah maksimum data yang dapat didukung oleh algoritma?

    Kami merekomendasikan Anda memasukkan kurang dari 1 juta catatan data dengan dimensi kurang dari 200.

    null

    Jika Anda ingin melakukan pengelompokan pada volume data yang lebih besar, kami merekomendasikan Anda membagi data menjadi beberapa kelompok dan menjalankan algoritma DBSCAN pada setiap kelompok.

  • Mengapa ID dari titik data inti adalah 2147483648?

    Ini karena titik inti adalah titik pencilan yang tidak termasuk dalam kluster mana pun.

Lampiran 2: Cara mengonfigurasi parameter

Komponen DBSCAN memiliki dua parameter yang sering digunakan: minPoints dan epsilon.

  • Jika jumlah kluster yang diamati terlalu banyak dan Anda ingin menguranginya, kami merekomendasikan Anda memprioritaskan peningkatan nilai minPoints dibandingkan dengan penurunan nilai epsilon.

  • Jika jumlah kluster yang diamati terlalu sedikit dan Anda ingin menambahnya, kami merekomendasikan Anda memprioritaskan penurunan nilai minPoints dibandingkan dengan peningkatan nilai epsilon.