全部产品
Search
文档中心

Platform For AI:Prediksi DBSCAN

更新时间:Jun 22, 2025

Clustering Berbasis Kepadatan untuk Aplikasi dengan Noise (DBSCAN) adalah algoritma pengelompokan berbasis kepadatan. Cluster didefinisikan sebagai kumpulan maksimum titik-titik yang saling terhubung secara padat. Algoritma ini menganggap wilayah dengan kepadatan tinggi sebagai cluster dan mendeteksi cluster dengan bentuk sembarang dalam basis data spasial dengan kebisingan. Anda dapat menggunakan model pelatihan DBSCAN dari komponen Prediksi DBSCAN untuk memprediksi cluster mana titik baru mungkin termasuk. Topik ini menjelaskan cara mengonfigurasi komponen Prediksi DBSCAN.

Sumber daya komputasi

Komponen Prediksi DBSCAN mendukung sumber daya komputasi berikut:

  • MaxCompute

  • Flink

  • DLC

Konfigurasikan komponen di konsol PAI

Anda dapat mengonfigurasi parameter untuk komponen Prediksi DBSCAN di konsol Machine Learning Platform for AI (PAI).

Tab

Parameter

Deskripsi

Field Setting

reservedCols

Apakah akan mempertahankan nama kolom asli.

Parameter Setting

predictionCol

Nama kolom prediksi.

predictionDetailCol

Nama kolom detail prediksi.

numThreads

Jumlah thread yang digunakan untuk pengelompokan DBSCAN.

Execution Tuning

Choose Running Mode

MaxCompute

Gunakan sumber daya komputasi MaxCompute atau Flink. Untuk informasi lebih lanjut tentang cara mengonfigurasi jumlah pekerja dan memori pekerja, lihat Lampiran: Cara memperkirakan penggunaan sumber daya.

Flink

DLC

Gunakan sumber daya komputasi DLC. Konfigurasikan sumber daya berdasarkan instruksi pada halaman.

Lampiran: Cara memperkirakan penggunaan sumber daya

Anda dapat merujuk pada bagian berikut untuk memperkirakan penggunaan sumber daya.

  • Bagaimana cara memperkirakan memori yang akan digunakan oleh setiap node?

    Memori yang digunakan oleh setiap node kira-kira ukuran model dikali 30.

    Sebagai contoh, jika ukuran model input adalah 1 GB, memori setiap node dapat diatur menjadi 30 GB.

  • Bagaimana cara memperkirakan jumlah node yang saya butuhkan?

    Tugas pelatihan terdistribusi mempercepat dan kemudian melambat seiring bertambahnya jumlah node karena overhead komunikasi. Jika tugas melambat, hentikan penambahan jumlah node. Jumlah node ini dapat digunakan.