Topik ini menggunakan analisis profil pengguna situs web sederhana sebagai contoh untuk membantu Anda memahami fitur utama dan tugas umum DataWorks, termasuk sinkronisasi data, pemrosesan data, manajemen data, serta operasi konsumsi data.
Tujuan kasus
Kasus ekspektasi
Setelah menyelesaikan operasi yang dijelaskan dalam kasus ini, Anda akan mampu menangani tugas terkait data secara mandiri di DataWorks, seperti sinkronisasi data, pengembangan data, dan O&M tugas.
Audiens target
Kasus ini ditujukan bagi personel yang perlu mengambil data dari gudang data untuk analisis dan wawasan, seperti pengembang, analis data, dan personel operasi produk.
Desain kasus
Untuk merumuskan strategi bisnis, Anda perlu mengekstrak profil pengguna dasar dari data perilaku situs web. Misalnya, informasi seperti atribut geografis dan atribut sosial kelompok pengguna diperlukan untuk mengimplementasikan penjadwalan tugas periodik dan mencapai operasi halus lalu lintas situs web. Operasi ini diselesaikan menggunakan DataWorks.
Layanan yang terlibat
Proses analisis profil pengguna situs web melibatkan database untuk menyimpan data mentah, database penyimpanan komputasi, dan platform untuk mengembangkan seluruh proses. Tabel berikut mencantumkan layanan yang digunakan dalam kasus ini.
Kategori layanan | Nama layanan | Deskripsi |
Database | Kasus ini menyediakan database ApsaraDB RDS for MySQL untuk menyimpan informasi pengguna dasar. | |
Kasus ini menyediakan objek OSS untuk menyimpan informasi log. | ||
Mesin komputasi | Dalam kasus ini, Anda dapat menggunakan MaxCompute, EMR, EMR Serverless StarRocks, atau EMR Serverless Spark computing resource berdasarkan DataWorks untuk pengembangan guna memproses data mentah dan menyimpan data yang diproses di gudang data yang diinginkan. | |
Data mid-end | Dalam kasus ini, DataWorks berfungsi sebagai data mid-end dan digunakan untuk sinkronisasi data, pemrosesan data, pemantauan kualitas data, konsumsi data, dan penjadwalan tugas. |
Selama proses analisis profil pengguna situs web yang melibatkan mesin komputasi berbeda, database dan DataWorks adalah sumber daya umum untuk analisis ini. Anda hanya perlu mengaitkan mesin komputasi yang berbeda dengan ruang kerja DataWorks Anda sebagai sumber daya komputasi.
Jika menggunakan sumber daya komputasi EMR atau EMR Serverless Spark, Anda harus menyiapkan sumber data OSS untuk menerima informasi pengguna dasar dan informasi log dari kasus ini. Jika menggunakan EMR Serverless StarRocks sebagai layanan komputasi dan penyimpanan, Anda harus menyiapkan sumber data OSS untuk menyimpan paket
.jaryang digunakan untuk mendaftarkan fungsi di StarRocks. Selain itu, pastikan bahwa sumber data OSS memiliki ruang penyimpanan yang cukup dan Anda memiliki izin yang diperlukan.
Desain skenario
Tambahkan database yang diperlukan ke ruang kerja DataWorks Anda sebagai sumber data dan kaitkan mesin komputasi yang diperlukan sebagai sumber daya komputasi. Dengan cara ini, Anda dapat memproses data dalam sumber daya komputasi untuk mendapatkan atribut geografis, atribut sosial, dan informasi lainnya dari kelompok pengguna yang diperlukan, serta mengelola dan mengonsumsi informasi data tersebut.
Desain proses
Dalam kasus ini, Anda dapat memilih proses analisis profil pengguna situs web yang sesuai berdasarkan mesin komputasi yang digunakan. Dokumentasi disediakan untuk analisis profil pengguna yang melibatkan empat jenis mesin komputasi: Analisis profil pengguna (MaxCompute), Analisis profil pengguna (StarRocks), Analisis profil pengguna (EMR), dan Analisis profil pengguna (Spark). Proses ini mencakup langkah-langkah berikut:
Gunakan Data Integration untuk mengekstrak informasi pengguna dasar dan log akses situs web dari berbagai sumber data ke mesin komputasi.
Proses dan pisahkan log akses situs web menjadi bidang-bidang yang dapat dianalisis.
Agregasikan informasi pengguna dasar dan log akses situs web yang telah diproses di mesin komputasi.
Proses lebih lanjut data untuk menghasilkan profil pengguna dasar.
Operasi
Tabel berikut menjelaskan operasi yang terlibat dalam kasus ini.
Langkah | Operasi | Tujuan bertahap |
Sinkronisasi data | Sinkronkan data informasi pengguna dari MySQL dan data log akses pengguna yang disimpan di OSS ke sumber daya komputasi yang berbeda.
| Pelajari item berikut:
|
Proses data | Gunakan Data Studio untuk membagi data log menjadi bidang-bidang yang dapat dianalisis dengan metode seperti fungsi dan ekspresi reguler, kemudian proses dan agregasikan bidang-bidang tersebut dengan tabel informasi pengguna untuk menghasilkan data profil pengguna dasar. | Pelajari item berikut:
|
Kelola data | Gunakan Peta Data untuk mengelola dan melihat metadata tabel sumber. Pantau data kotor yang dihasilkan selama perubahan data sumber. Jika terjadi kesalahan, hentikan tugas terkait yang sedang berjalan untuk mencegah dampak negatif akibat kesalahan tersebut. |
|
Konsumsi data |
| Pelajari cara menampilkan data secara visual dan membuat API berdasarkan DataWorks. |
Data kasus
Struktur data dalam bagian ini akan digunakan dalam langkah-langkah sinkronisasi data, pemrosesan, dan manajemen berikutnya untuk menghasilkan profil pengguna.
Struktur data log
Sebelum memulai operasi dalam kasus ini, pastikan Anda sudah familiar dengan data bisnis yang ada, format data, dan struktur data profil pengguna dasar yang diperlukan untuk analisis latar belakang bisnis.
Kode berikut menampilkan data log mentah di file OSS user_log.txt:
$remote_addr - $remote_user [$time_local] "$request" $status $body_bytes_sent"$http_referer" "$http_user_agent" [unknown_content];Informasi efektif berikut dapat diperoleh dari data log mentah.
Nama bidang | Deskripsi bidang |
$remote_addr | Alamat IP klien yang mengirim permintaan. |
$remote_user | Nama pengguna yang digunakan untuk masuk ke klien. |
$time_local | Waktu lokal server. |
$request | Permintaan HTTP. Permintaan HTTP terdiri dari jenis permintaan, URL permintaan, dan nomor versi HTTP. |
$status | Kode status yang dikembalikan oleh server. |
$body_bytes_sent | Jumlah byte yang dikembalikan ke klien. Jumlah byte header tidak termasuk dalam nilai bidang ini. |
$http_referer | URL sumber permintaan. |
$http_user_agent | Informasi tentang klien yang mengirim permintaan, seperti browser yang digunakan. |
Struktur data informasi pengguna
Tabel berikut mencantumkan struktur tabel data informasi pengguna MySQL ods_user_info_d.
Nama bidang | Deskripsi bidang |
uid | Nama pengguna. |
gender | Jenis kelamin. |
age_range | Rentang usia. |
zodiac | Tanda zodiak. |
Struktur data yang diperoleh akhirnya
Tabel berikut mencantumkan struktur tabel data akhir yang dapat diperoleh berdasarkan analisis data mentah. Anda dapat mengonfirmasi struktur tabel data akhir berdasarkan kebutuhan bisnis Anda.
Nama bidang | Deskripsi bidang |
uid | Nama pengguna. |
region | Wilayah. |
device | Jenis terminal. |
pv | Jumlah tampilan halaman. |
gender | Jenis kelamin. |
age_range | Rentang usia. |
Zodiac | Tanda zodiak. |