Cara Membangun Segmentasi Konsument Fase II: Pembuatan Model

Ini adalah bagian dari rangkaian tulisan Membuat Solusi Segmentasi Pelanggan dengan Alibaba Cloud. Rangakaian tulisan ini dibuat oleh Bima Putra Pratama, Data Scientist - DANA Indonesia.

Untuk melihat tulisan lain dari rangkaian tulisan ini, kunjungi halaman ini.
Untuk melihat langkah sebelumnya,klik di sini.

Kita akan menggunakan algoritme k-means untuk membuat model segmentasi. K-means merupakan salah satu algoritme terpopuler yang di gunakan untuk segmentasi. Algoritme ini membuat sejumlah k kluster yang nantinya data lain akan di bagi berdasarkan kemiripan karakteristik di kluster ini.
Algoritme ini secara acak memilih k objek, yang masing-masing awalnya mewakili nilai rata-rata atau pusat kluster. Kemudian, algoritme menetapkan objek yang tersisa ke kluster terdekat berdasarkan jaraknya dari pusat setiap kluster dan menghitung ulang nilai rata-rata setiap kluster. Proses ini berulang hingga fungsi kriteria bertemu.
Algoritme pengelompokan K-means mengasumsikan bahwa kita memperoleh atribut objek dari vektor spasial, dan tujuannya adalah untuk memastikan jumlah kesalahan kuadrat rata-rata minimum di dalam setiap grup.
Pada langkah ini kita akan membuat percobaan menggunakan PAI studio dan melakukan optimalisasi menggunakan Data Science Workshop (DSW). Studio PAI dan DSW adalah bagian dari Alibaba Machine Learning Platform For AI.
Untuk membuat percobaan di studio PAI relatif sederhana. PAI Studio sudah memiliki beberapa fungsi sebagai komponen yang dapat kita drag dan drop ke panel percobaan. Kemudian kita hanya perlu menghubungkan setiap komponen. Gambar di bawah menunjukkan eksperimen yang akan kita buat untuk membuat model kita.

Langkah 1: Eksplorasi Data
Pada langkah ini, kita bertujuan untuk memahami data. Kita akan menjelajahi data kita dengan menghasilkan statistik deskriptif, membuat histogram, dan membuat scatter plot untuk memeriksa korelasi antar variabel. Kita bisa melakukan ini dengan membuat komponen untuk melakukan tugas tersebut setelah membaca data kita.

Akhirnya, kita memiliki skewed data untuk frekuensi dan moneter. Oleh karena itu, kita perlu melakukan rekayasa variabel sebelum membuat model.

Langkah 2: Rekayasa Variabel
Kita akan melakukan transformasi log untuk menangani data skewed dalam data kita. Kita juga perlu membakukan nilai sebelum kita menggunakannya untuk permodelan. Karena K-Means menggunakan jarak sebagai pengukuran, dan kita membutuhkan setiap parameter kita berada pada skala yang sama. Untuk melakukan ini, kita perlu membuat komponen transformasi variabel dan komponen standarisasi.

Kemudian di bawah komponen ini, kita harus menyimpan parameter standar ke dalam tabel agar dapat digunakan selama penerapan.

Langkah 3: Pembuatan Model
Sekarang itu saatnya untuk membuat model kita. Kita akan menggunakan K-Means untuk menemukan kluster pelanggan. Untuk melakukan ini, kita perlu memasukkan jumlah kluster sebagai hyper-parameter model kita.
Untuk menemukan jumlah kluster yang optimal, kita perlu menggunakan Data Science Workbench untuk melakukan iterasi permodelan menggunakan jumlah kluster yang berbeda dan mencari yang optimum dengan menghasilkan elbow plot. Jumlah kluster yang optimal adalah tempat kesalahan jumlah kuadrat mulai merata.

DSW adalah lingkungan seperti Notebook Jupyter . Di sini Kita perlu membuat percobaan dengan menulis skrip python dan menghasilkan plot siku.

Hasilnya, kita menemukan bahwa kluster optimal kita adalah lima. Kemudian kita menggunakan ini sebagai hyper-parameter kita untuk komponen K-Means di PAI studio dan menjalankan komponen tersebut.
Hasil dari komponen ini, kita memiliki cluster_index untuk setiap pelanggan. Kita juga bisa memvisualisasikan hasilnya dalam bentuk scatter plot yang sudah diwarnai cluster_index . Komponen ini juga menghasilkan model yang akan disajikan nanti.

Langkah 4: Menyimpan Hasil Segmentasi
Disini kita menggabungkan data asli dengan kluster yang sudah di tentukan hasil permodelan k-means. Kemudian kita simpan hasilnya ke tabel MaxCompute menggunakan komponen Write MaxCompute Table.

Langkah 5: Labeling Segmen Pelanggan
Kita akan menggunakan komponen SQL untuk menghitung rata-rata Recency, Frequency, dan Monetary untuk setiap kluster untuk memahami karakteristik setiap kluster dan mewakili nama untuk setiap kluster.

Sekarang, kita kembali ke DataWorks dan membuat PAI Node untuk menjalankan eksperimen kita. Kita kemudian perlu membuat node SQL untuk menulis DML yang berfungsi untuk menyegmentasi setiap kluster. Terakhir kita membuat satu node Data Integration untuk menyimpan data dari MaxCompute ke OSS.

Kesimpulan Pembuatan Model:
Itulah lima langkah yang perlu dilakukan untuk melakukan permodelan menggunakan produk Alibaba Cloud seperti OSS, MaxCompute , DataWorks , dan Machine Learning Platform for AI. Secara ringkas, diagram di bawah ini menunjukkan arsitektur pelatihan model dari persiapan data hingga pelatihan model.

Untuk melanjutkan ke langkah berikutnya, klik di sini.
Untuk melihat langkah sebelumnya, klik di sini.
Untuk melihat tulisan lainnya, klik di sini.

Community

Cara Membangun Segmentasi Konsument Fase II: Pembuatan Model

Read previous post:

Read next post:

Alibaba Cloud Indonesia

You may also like

Comments

Alibaba Cloud Indonesia

Related Products

MaxCompute

OSS(Object Storage Service)

Hologres

API Gateway