Topik ini menjelaskan algoritma pengelompokan K-means (selanjutnya disebut K-means).
Ikhtisar
Algoritma K-means adalah algoritma pengelompokan iteratif. Algoritma ini bekerja dengan membagi data menjadi K kelompok, memilih secara acak K objek sebagai pusat pengelompokan awal, menghitung jarak antara setiap objek dan pusat pengelompokan seed, lalu menetapkan setiap objek ke kluster terdekat. Sebuah kluster mencakup pusat kluster dan objek yang ditetapkan ke pusat tersebut. Algoritma K-means menggunakan beberapa kolom tabel sebagai fitur dan mengelompokkan data mentah menjadi beberapa kelompok berdasarkan metode perhitungan kesamaan yang telah ditentukan.
Skenario
Algoritma K-means banyak digunakan dalam skenario untuk mengelompokkan catatan data. Skenario utama meliputi:
Klasifikasi dokumen
Dokumen diklasifikasikan berdasarkan tag, topik, dan konten.
Pertama, dokumen direpresentasikan oleh vektor. Dokumen kemudian diklasifikasikan dengan mengidentifikasi kata-kata umum berdasarkan frekuensi kata. Vektor dokumen dikelompokkan untuk mengidentifikasi kesamaan antara kelompok dokumen.
Klasifikasi pelanggan
Algoritma K-means membantu pemasar mengoptimalkan basis pelanggan mereka. Riwayat pembelian, minat, dan aktivitas pemantauan dapat digunakan untuk menganalisis kategori pelanggan.
Sebagai contoh, algoritma K-means dapat digunakan untuk mengelompokkan metode pembayaran pelanggan langganan telekomunikasi seperti isi ulang, pengiriman pesan teks uji, dan penjelajahan situs web. Mengklasifikasikan pelanggan membantu perusahaan mengembangkan iklan yang lebih tepat sasaran untuk kelompok pelanggan tertentu.
Pendeteksian penipuan
Algoritma K-means juga memainkan peran penting dalam pendeteksian penipuan dan banyak digunakan di bidang otomotif, asuransi medis, serta asuransi umum. Data historis dari klaim penipuan sebelumnya digunakan untuk mengidentifikasi penipuan baru berdasarkan pola penipuan yang dikelompokkan.
Pengelompokan kluster otomatis
Komponen infrastruktur TI seperti jaringan, penyimpanan, atau database perusahaan besar menghasilkan sejumlah besar peringatan yang harus difilter secara manual untuk memastikan prioritas tindakan selanjutnya karena peringatan melibatkan tindakan tertentu. Pengelompokan data menggunakan algoritma K-means memungkinkan analisis mendalam tentang kategori peringatan, waktu rata-rata untuk perbaikan, serta membantu memprediksi kegagalan berikutnya.
Analisis catatan panggilan
Catatan detail panggilan (CDR) menyimpan informasi tentang panggilan, pesan teks, dan aktivitas jaringan. Menggabungkan CDR dengan profil pelanggan membantu perusahaan telekomunikasi memprediksi lebih banyak tentang kebutuhan pelanggan.
Identifikasi tempat kejadian kejahatan
Algoritma K-means dapat menganalisis data kejahatan di area tertentu di kota. Informasi seperti jenis kejahatan, lokasi kejahatan, dan hubungan antara keduanya dianalisis untuk membantu survei berkualitas tinggi tentang hotspot kejahatan di area atau kota.
Parameter
Nilai parameter yang dijelaskan dalam tabel berikut sama dengan parameter model_parameter yang ditentukan dalam pernyataan CREATE MODEL yang digunakan untuk membuat model. Anda dapat mengonfigurasi parameter sesuai dengan kebutuhan bisnis Anda.
Parameter | Deskripsi |
n_clusters | Jumlah kluster. Nilai default: 4. |
Contoh
Buat model pengelompokan K-means.
/*polar4ai*/CREATE MODEL test_kmeans WITH
(model_class = 'kmeans', x_cols = 'dx1,dx2',
y_cols='',model_parameter=(n_clusters=2))
AS (select * from db4ai.testdata1);Prediksi model:
/*polar4ai*/select dx1,dx2 FROM
PREDICT(MODEL test_kmeans,
select * from db4ai.testdata1 limit 10)
WITH (x_cols = 'dx1,dx2',
y_cols='');Kolom dalam x_cols harus menggunakan data titik mengambang atau bilangan bulat.