Bangun sistem analisis profil pengguna website dengan wawasan otomatis - DataWorks

Topik ini menggunakan analisis profil pengguna situs web sederhana sebagai contoh untuk membantu Anda memahami fitur utama dan tugas umum DataWorks, termasuk sinkronisasi data, pemrosesan data, manajemen data, serta operasi konsumsi data.

Tujuan kasus

Kasus ekspektasi

Setelah menyelesaikan operasi yang dijelaskan dalam kasus ini, Anda akan mampu menangani tugas terkait data secara mandiri di DataWorks, seperti sinkronisasi data, pengembangan data, dan O&M tugas.

Audiens target

Kasus ini ditujukan bagi personel yang perlu mengambil data dari gudang data untuk analisis dan wawasan, seperti pengembang, analis data, dan personel operasi produk.

Desain kasus

Untuk merumuskan strategi bisnis, Anda perlu mengekstrak profil pengguna dasar dari data perilaku situs web. Misalnya, informasi seperti atribut geografis dan atribut sosial kelompok pengguna diperlukan untuk mengimplementasikan penjadwalan tugas periodik dan mencapai operasi halus lalu lintas situs web. Operasi ini diselesaikan menggunakan DataWorks.

Layanan yang terlibat

Proses analisis profil pengguna situs web melibatkan database untuk menyimpan data mentah, database penyimpanan komputasi, dan platform untuk mengembangkan seluruh proses. Tabel berikut mencantumkan layanan yang digunakan dalam kasus ini.

Kategori layanan	Nama layanan	Deskripsi
Database	ApsaraDB RDS for MySQL	Kasus ini menyediakan database ApsaraDB RDS for MySQL untuk menyimpan informasi pengguna dasar.
Database	Object Storage Service (OSS)	Kasus ini menyediakan objek OSS untuk menyimpan informasi log.
Mesin komputasi	MaxCompute	Dalam kasus ini, Anda dapat menggunakan MaxCompute, EMR, EMR Serverless StarRocks, atau EMR Serverless Spark computing resource berdasarkan DataWorks untuk pengembangan guna memproses data mentah dan menyimpan data yang diproses di gudang data yang diinginkan.
	EMR Serverless StarRocks
	E-MapReduce (EMR)
	EMR Serverless Spark
Data mid-end	DataWorks	Dalam kasus ini, DataWorks berfungsi sebagai data mid-end dan digunakan untuk sinkronisasi data, pemrosesan data, pemantauan kualitas data, konsumsi data, dan penjadwalan tugas.

Penting

Selama proses analisis profil pengguna situs web yang melibatkan mesin komputasi berbeda, database dan DataWorks adalah sumber daya umum untuk analisis ini. Anda hanya perlu mengaitkan mesin komputasi yang berbeda dengan ruang kerja DataWorks Anda sebagai sumber daya komputasi.
Jika menggunakan sumber daya komputasi EMR atau EMR Serverless Spark, Anda harus menyiapkan sumber data OSS untuk menerima informasi pengguna dasar dan informasi log dari kasus ini. Jika menggunakan EMR Serverless StarRocks sebagai layanan komputasi dan penyimpanan, Anda harus menyiapkan sumber data OSS untuk menyimpan paket .jar yang digunakan untuk mendaftarkan fungsi di StarRocks. Selain itu, pastikan bahwa sumber data OSS memiliki ruang penyimpanan yang cukup dan Anda memiliki izin yang diperlukan.

Desain skenario

Tambahkan database yang diperlukan ke ruang kerja DataWorks Anda sebagai sumber data dan kaitkan mesin komputasi yang diperlukan sebagai sumber daya komputasi. Dengan cara ini, Anda dapat memproses data dalam sumber daya komputasi untuk mendapatkan atribut geografis, atribut sosial, dan informasi lainnya dari kelompok pengguna yang diperlukan, serta mengelola dan mengonsumsi informasi data tersebut.

Desain proses

Dalam kasus ini, Anda dapat memilih proses analisis profil pengguna situs web yang sesuai berdasarkan mesin komputasi yang digunakan. Dokumentasi disediakan untuk analisis profil pengguna yang melibatkan empat jenis mesin komputasi: Analisis profil pengguna (MaxCompute), Analisis profil pengguna (StarRocks), Analisis profil pengguna (EMR), dan Analisis profil pengguna (Spark). Proses ini mencakup langkah-langkah berikut:

Gunakan Data Integration untuk mengekstrak informasi pengguna dasar dan log akses situs web dari berbagai sumber data ke mesin komputasi.
Proses dan pisahkan log akses situs web menjadi bidang-bidang yang dapat dianalisis.
Agregasikan informasi pengguna dasar dan log akses situs web yang telah diproses di mesin komputasi.
Proses lebih lanjut data untuk menghasilkan profil pengguna dasar.

Operasi

Tabel berikut menjelaskan operasi yang terlibat dalam kasus ini.

Langkah	Operasi	Tujuan bertahap
Sinkronisasi data	Sinkronkan data informasi pengguna dari MySQL dan data log akses pengguna yang disimpan di OSS ke sumber daya komputasi yang berbeda. MaxCompute dan Spark: Gunakan Data Integration untuk langsung menyinkronkan data mentah ke sumber daya komputasi terkait. EMR dan Spark: Gunakan objek OSS yang telah disiapkan untuk menyimpan data mentah yang disinkronkan dan gunakan tabel EMR dan Spark untuk membaca data tersebut.	Pelajari item berikut: Cara menyinkronkan data dari berbagai sumber data ke MaxCompute, EMR, StarRocks, atau Spark. Cara membuat tabel untuk sumber data terkait. Cara memicu tugas untuk segera dijalankan. Cara melihat log tugas.
Proses data	Gunakan Data Studio untuk membagi data log menjadi bidang-bidang yang dapat dianalisis dengan metode seperti fungsi dan ekspresi reguler, kemudian proses dan agregasikan bidang-bidang tersebut dengan tabel informasi pengguna untuk menghasilkan data profil pengguna dasar.	Pelajari item berikut: Cara membuat dan mengonfigurasi tugas dalam alur kerja DataWorks. Cara menjalankan alur kerja.
Kelola data	Gunakan Peta Data untuk mengelola dan melihat metadata tabel sumber. Pantau data kotor yang dihasilkan selama perubahan data sumber. Jika terjadi kesalahan, hentikan tugas terkait yang sedang berjalan untuk mencegah dampak negatif akibat kesalahan tersebut.	Pelajari cara memperoleh metadata tabel sumber data berdasarkan DataWorks, mencari tabel sumber data, dan melihat informasi detail tabel sumber data. Pelajari cara mengonfigurasi aturan pemantauan kualitas data untuk tabel yang dihasilkan oleh tugas DataWorks untuk dengan cepat mengidentifikasi data kotor yang dihasilkan selama perubahan data sumber dan mencegah data kotor mempengaruhi tugas turunan.
Konsumsi data	Gunakan DataAnalysis untuk melakukan kueri SQL dan analisis pada tabel hasil akhir untuk analisis profil pengguna situs web. Sebagai contoh, Anda dapat menganalisis distribusi geografis pengguna dan peringkat kota berdasarkan jumlah pengguna terdaftar. Gunakan fitur API DataService Studio untuk membuat layanan API dari tabel hasil akhir.	Pelajari cara menampilkan data secara visual dan membuat API berdasarkan DataWorks.

Data kasus

Struktur data dalam bagian ini akan digunakan dalam langkah-langkah sinkronisasi data, pemrosesan, dan manajemen berikutnya untuk menghasilkan profil pengguna.

Struktur data log

Sebelum memulai operasi dalam kasus ini, pastikan Anda sudah familiar dengan data bisnis yang ada, format data, dan struktur data profil pengguna dasar yang diperlukan untuk analisis latar belakang bisnis.

Kode berikut menampilkan data log mentah di file OSS user_log.txt:

$remote_addr - $remote_user [$time_local] "$request" $status $body_bytes_sent"$http_referer" "$http_user_agent" [unknown_content];

Informasi efektif berikut dapat diperoleh dari data log mentah.

Nama bidang	Deskripsi bidang
$remote_addr	Alamat IP klien yang mengirim permintaan.
$remote_user	Nama pengguna yang digunakan untuk masuk ke klien.
$time_local	Waktu lokal server.
$request	Permintaan HTTP. Permintaan HTTP terdiri dari jenis permintaan, URL permintaan, dan nomor versi HTTP.
$status	Kode status yang dikembalikan oleh server.
$body_bytes_sent	Jumlah byte yang dikembalikan ke klien. Jumlah byte header tidak termasuk dalam nilai bidang ini.
$http_referer	URL sumber permintaan.
$http_user_agent	Informasi tentang klien yang mengirim permintaan, seperti browser yang digunakan.

Struktur data informasi pengguna

Tabel berikut mencantumkan struktur tabel data informasi pengguna MySQL ods_user_info_d.

Nama bidang	Deskripsi bidang
uid	Nama pengguna.
gender	Jenis kelamin.
age_range	Rentang usia.
zodiac	Tanda zodiak.

Struktur data yang diperoleh akhirnya

Tabel berikut mencantumkan struktur tabel data akhir yang dapat diperoleh berdasarkan analisis data mentah. Anda dapat mengonfirmasi struktur tabel data akhir berdasarkan kebutuhan bisnis Anda.

Nama bidang	Deskripsi bidang
uid	Nama pengguna.
region	Wilayah.
device	Jenis terminal.
pv	Jumlah tampilan halaman.
gender	Jenis kelamin.
age_range	Rentang usia.
Zodiac	Tanda zodiak.