Topik ini menjelaskan cara menggunakan node MaxCompute di DataWorks untuk memproses data dalam tabel ods_user_info_d_odps dan tabel ods_raw_log_d_odps yang telah disinkronkan ke MaxCompute guna mendapatkan data profil pengguna. Tabel ods_user_info_d_odps menyimpan informasi dasar pengguna, sedangkan tabel ods_raw_log_d_odps menyimpan log akses situs web pengguna. Topik ini membantu Anda memahami cara menghitung dan menganalisis data yang disinkronkan dengan menggunakan DataWorks dan MaxCompute untuk menyelesaikan pemrosesan data sederhana dalam gudang data.
Prasyarat
Data yang diperlukan telah disinkronkan. Untuk informasi lebih lanjut, lihat Sinkronisasi data.
Langkah 1: Membangun tautan pemrosesan data
Dalam fase sinkronisasi data, data yang diperlukan telah disinkronkan ke MaxCompute. Langkah selanjutnya adalah memproses data lebih lanjut untuk menghasilkan data profil pengguna dasar.
Masuk ke konsol DataWorks dan buka panel DATA STUDIO di halaman Data Studio. Di bagian Workspace Directories dari panel DATA STUDIO, temukan alur kerja yang telah dipersiapkan dan klik nama alur kerja untuk masuk ke tab konfigurasi alur kerja.
Dalam tutorial ini, Anda perlu membuat tiga node SQL MaxCompute. Tabel berikut mencantumkan nama-nama node yang digunakan dalam tutorial ini beserta fungsionalitasnya.
Jenis Node
Nama Node
Fungsionalitas Node
MaxCompute SQLdwd_log_info_di_odpsNode ini digunakan untuk membagi data dalam tabel
ods_raw_log_d_odpsdan menyinkronkan data tersebut ke beberapa bidang di tabeldwd_log_info_di_odpsberdasarkan fungsi bawaan atau fungsi yang ditentukan pengguna (UDF) bernamagetregion.
MaxCompute SQLdws_user_info_all_di_odpsNode ini digunakan untuk menggabungkan data dalam
tabel informasi pengguna dasar
ods_user_info_d_odpsdan tabel data log yang diprosesdwd_log_info_di_odpsdan menyinkronkan hasil agregasi ke tabel
dws_user_info_all_di_odps.
MaxCompute SQLads_user_info_1d_odpsNode ini digunakan untuk memproses lebih lanjut data dalam tabel
dws_user_info_all_di_odpsdan menyinkronkan data yang diproses ke tabelads_user_info_1d_odpsuntuk menghasilkan profil pengguna dasar.Gambarlah garis untuk mengonfigurasi node leluhur untuk node SQL MaxCompute, seperti yang ditunjukkan pada gambar berikut.
CatatanAnda dapat menggambar garis untuk mengonfigurasi dependensi penjadwalan untuk node dalam alur kerja. Anda juga dapat menggunakan fitur penguraian otomatis untuk memungkinkan sistem secara otomatis mengidentifikasi dependensi penjadwalan antara node. Dalam tutorial ini, dependensi penjadwalan antara node dikonfigurasikan dengan menggambar garis. Untuk informasi tentang fitur penguraian otomatis, lihat Metode 1: Konfigurasikan dependensi penjadwalan berdasarkan lineage dalam kode suatu node.
Langkah 2: Unggah sumber daya dan daftarkan UDF
Untuk memastikan bahwa data dapat diproses sesuai harapan, Anda harus mendaftarkan UDF MaxCompute bernama getregion untuk membagi struktur data log yang disinkronkan ke MaxCompute saat Anda menyinkronkan data ke dalam tabel.
Dalam tutorial ini, sumber daya yang diperlukan disediakan untuk fungsi yang digunakan untuk mengonversi alamat IP menjadi wilayah. Anda hanya perlu mengunduh sumber daya ke mesin lokal Anda, lalu mengunggah sumber daya tersebut ke ruang kerja DataWorks yang diinginkan sebelum mendaftarkan fungsi di DataWorks.
Sumber daya alamat IP untuk fungsi ini hanya digunakan dalam tutorial ini. Jika Anda perlu mengimplementasikan pemetaan antara alamat IP dan lokasi geografis dalam skenario bisnis formal, Anda harus mencari layanan konversi alamat IP profesional dari situs web alamat IP khusus.
Unggah sumber daya (ip2region.jar)
Unduh paket ip2region.jar.
CatatanPaket
ip2region.jarhanya digunakan dalam tutorial ini.Masuk ke konsol DataWorks dan buka halaman Data Studio. Di panel navigasi sisi kiri halaman Data Studio, klik ikon
. Di panel RESOURCE MANAGEMENT, klik ikon
dan pilih . Dalam kotak dialog Buat Sumber Daya atau Fungsi, konfigurasikan parameter Nama dan klik OK.CatatanNama sumber daya dapat berbeda dari paket yang ingin Anda unggah.
Atur parameter File Source ke Lokal, klik Unggah di sebelah parameter Konten File, lalu pilih paket
ip2region.jaryang diunduh ke mesin lokal Anda.Pilih sumber daya komputasi MaxCompute yang terkait dengan ruang kerja saat Anda menyiapkan lingkungan dari daftar drop-down Sumber Data.
Di bilah alat atas tab konfigurasi, klik Save lalu klik Deploy untuk menerapkan sumber daya ke proyek MaxCompute di lingkungan pengembangan dan produksi dengan mengikuti petunjuk di layar.
Daftarkan UDF (getregion)
Masuk ke konsol DataWorks dan buka halaman Data Studio. Di panel navigasi sisi kiri halaman Data Studio, klik ikon
. Di panel RESOURCE MANAGEMENT, klik ikon
dan pilih . Dalam kotak dialog Buat Sumber Daya atau Fungsi, konfigurasikan parameter Nama. Dalam tutorial ini, parameter Nama diatur ke getregion.Di tab konfigurasi yang muncul, konfigurasikan parameter. Tabel berikut menjelaskan parameter yang harus Anda konfigurasikan dalam tutorial ini. Pertahankan nilai default untuk parameter lainnya.
Parameter
Deskripsi
Function Type
Pilih
OTHER.Data Source
Pilih sumber daya komputasi MaxCompute yang terkait dengan ruang kerja saat Anda menyiapkan lingkungan.
Class Name
Masukkan
org.alidata.odps.udf.Ip2Region.Resource List
Pilih
ip2region.jar.Description
Masukkan deskripsi. Dalam tutorial ini, deskripsi berikut dimasukkan: Konversi alamat IP menjadi wilayah.
Command Syntax
Masukkan
getregion('ip').Parameter Description
Masukkan deskripsi parameter. Dalam contoh ini, deskripsi parameter berikut dimasukkan: Alamat IP.
Di bilah alat atas tab konfigurasi, klik Simpan lalu klik Deploy untuk menerapkan fungsi ke proyek MaxCompute di lingkungan pengembangan dan produksi dengan mengikuti petunjuk yang ditampilkan.
Langkah 3: Konfigurasikan node SQL MaxCompute
Untuk melakukan pemrosesan data, Anda harus menjadwalkan node SQL MaxCompute terkait untuk mengimplementasikan setiap lapisan logika pemrosesan. Dalam tutorial ini, kode sampel lengkap untuk pemrosesan data disediakan. Anda harus mengonfigurasi kode secara terpisah untuk node dwd_log_info_di_odps, dws_user_info_all_di_odps, dan ads_user_info_1d_odps.
Konfigurasikan node dwd_log_info_di_odps
Dalam kode sampel untuk node ini, fungsi yang terdaftar digunakan untuk memproses kode SQL untuk bidang dalam tabel leluhur ods_raw_log_d_odps dan menyinkronkan data dalam tabel ke tabel dwd_log_info_di_odps.
Di panel navigasi sisi kiri halaman Data Studio, klik ikon
. Di bagian Workspace Directories dari panel DATA STUDIO, temukan alur kerja yang dibuat dan klik nama alur kerja untuk pergi ke kanvas alur kerja.Di kanvas alur kerja, gerakkan pointer di atas node
dwd_log_info_di_odpsdan klik Buka Node.Salin pernyataan SQL berikut dan tempelkan di editor kode:
Konfigurasikan parameter debugging.
Di panel navigasi sisi kanan tab konfigurasi node, klik Konfigurasi Debugging. Pada tab Konfigurasi Debugging, konfigurasikan parameter berikut. Parameter ini digunakan untuk menguji alur kerja di Langkah 4.
Parameter
Deskripsi
Computing Resource
Pilih sumber daya komputasi MaxCompute yang terkait dengan ruang kerja saat Anda menyiapkan lingkungan.
Resource Group
Pilih grup sumber daya serverless yang Anda beli saat Anda menyiapkan lingkungan.
Script Parameters
Anda tidak perlu mengonfigurasi parameter ini. Dalam kode sampel yang disediakan dalam tutorial ini, variabel ${bizdate} digunakan untuk merepresentasikan cap waktu data. Saat Anda men-debug alur kerja dengan mengikuti Langkah 4, Anda dapat menetapkan nilai variabel tersebut ke konstanta, seperti
20250223. Saat alur kerja dijalankan, variabel yang didefinisikan untuk node dalam alur kerja diganti dengan konstanta.(Opsional) Konfigurasikan properti penjadwalan.
Anda dapat mempertahankan nilai default untuk parameter terkait properti penjadwalan dalam tutorial ini. Anda dapat mengklik Properties di panel navigasi sisi kanan tab konfigurasi node untuk melihat nilai parameter pada subtab berikut. Untuk informasi tentang parameter lainnya di tab Properties, lihat Properti Penjadwalan.
Scheduling Parameters: Dalam tutorial ini, parameter penjadwalan dikonfigurasikan untuk alur kerja. Anda tidak perlu mengonfigurasi parameter penjadwalan untuk node dalam alur kerja. Parameter penjadwalan yang dikonfigurasikan dapat langsung digunakan untuk kode dan tugas yang dikembangkan berdasarkan node dalam alur kerja.
Scheduling Policies: Anda dapat mengonfigurasi parameter Time for Delayed Execution untuk menentukan durasi di mana pelaksanaan node tertinggal dari pelaksanaan alur kerja. Dalam tutorial ini, Anda tidak perlu mengonfigurasi parameter ini.
Di bilah alat atas tab konfigurasi, klik Simpan untuk menyimpan node.
Konfigurasikan node dws_user_info_all_di_odps
Node ini digunakan untuk menggabungkan tabel informasi pengguna dasar ods_user_info_d_odps dan tabel data log yang diproses dwd_log_info_di_odps dan menyinkronkan hasil agregasi ke tabel dws_user_info_all_di_odps.
Di kanvas alur kerja, gerakkan pointer di atas node
dws_user_info_all_di_odpsdan klik Buka Node.Salin pernyataan SQL berikut dan tempelkan di editor kode:
Konfigurasikan parameter debugging.
Di panel navigasi sisi kanan tab konfigurasi node, klik Konfigurasi Debugging. Pada tab Konfigurasi Debugging, konfigurasikan parameter berikut. Parameter ini digunakan untuk menguji alur kerja di Langkah 4.
Parameter
Deskripsi
Computing Resource
Pilih sumber daya komputasi MaxCompute yang terkait dengan ruang kerja saat Anda menyiapkan lingkungan.
Resource Group
Pilih grup sumber daya serverless yang Anda beli saat Anda menyiapkan lingkungan.
Script Parameters
Anda tidak perlu mengonfigurasi parameter ini. Dalam kode sampel yang disediakan dalam tutorial ini, variabel ${bizdate} digunakan untuk merepresentasikan cap waktu data. Saat Anda men-debug alur kerja dengan mengikuti Langkah 4, Anda dapat menetapkan nilai variabel tersebut ke konstanta, seperti
20250223. Saat alur kerja dijalankan, variabel yang didefinisikan untuk node dalam alur kerja diganti dengan konstanta.(Opsional) Konfigurasikan properti penjadwalan.
Anda dapat mempertahankan nilai default untuk parameter terkait properti penjadwalan dalam tutorial ini. Anda dapat mengklik Properties di panel navigasi sisi kanan tab konfigurasi node untuk melihat nilai parameter pada subtab berikut. Untuk informasi tentang parameter lainnya di tab Properties, lihat Properti Penjadwalan.
Scheduling Parameters: Dalam tutorial ini, parameter penjadwalan dikonfigurasikan untuk alur kerja. Anda tidak perlu mengonfigurasi parameter penjadwalan untuk node dalam alur kerja. Parameter penjadwalan yang dikonfigurasikan dapat langsung digunakan untuk kode dan tugas yang dikembangkan berdasarkan node dalam alur kerja.
Scheduling Policies: Anda dapat mengonfigurasi parameter Time for Delayed Execution untuk menentukan durasi di mana pelaksanaan node tertinggal dari pelaksanaan alur kerja. Dalam tutorial ini, Anda tidak perlu mengonfigurasi parameter ini.
Di bilah alat atas tab konfigurasi, klik Simpan untuk menyimpan node.
Konfigurasikan node ads_user_info_1d_odps
Node ini digunakan untuk memproses lebih lanjut data dalam tabel dws_user_info_all_di_odps dan menyinkronkan data yang diproses ke tabel ads_user_info_1d_odps untuk menghasilkan profil pengguna dasar.
Di kanvas alur kerja, gerakkan pointer di atas node
ads_user_info_1d_odpsdan klik Open Node.Salin pernyataan SQL berikut dan tempelkan di editor kode:
Konfigurasikan parameter debugging.
Di panel navigasi sisi kanan tab konfigurasi node, klik Konfigurasi Debugging. Pada tab Konfigurasi Debugging, konfigurasikan parameter berikut. Parameter ini digunakan untuk menguji alur kerja di Langkah 4.
Parameter
Deskripsi
Computing Resource
Pilih sumber daya komputasi MaxCompute yang terkait dengan ruang kerja saat Anda menyiapkan lingkungan.
Resource Group
Pilih grup sumber daya serverless yang Anda beli saat Anda menyiapkan lingkungan.
Script Parameters
Anda tidak perlu mengonfigurasi parameter ini. Dalam kode sampel yang disediakan dalam tutorial ini, variabel ${bizdate} digunakan untuk merepresentasikan cap waktu data. Saat Anda men-debug alur kerja dengan mengikuti Langkah 4, Anda dapat menetapkan nilai variabel tersebut ke konstanta, seperti
20250223. Saat alur kerja dijalankan, variabel yang didefinisikan untuk node dalam alur kerja diganti dengan konstanta.Konfigurasikan parameter debugging.
Di panel navigasi sisi kanan tab konfigurasi node, klik Konfigurasi Debugging. Pada tab Konfigurasi Debugging, konfigurasikan parameter berikut. Parameter ini digunakan untuk menguji alur kerja di Langkah 4.
Parameter
Deskripsi
Computing Resource
Pilih sumber daya komputasi MaxCompute yang terkait dengan ruang kerja saat Anda menyiapkan lingkungan.
Resource Group
Pilih grup sumber daya serverless yang Anda beli saat Anda menyiapkan lingkungan.
Script Parameters
Anda tidak perlu mengonfigurasi parameter ini. Dalam kode sampel yang disediakan dalam tutorial ini, variabel ${bizdate} digunakan untuk merepresentasikan cap waktu data. Saat Anda men-debug alur kerja dengan mengikuti Langkah 4, Anda dapat menetapkan nilai variabel tersebut ke konstanta, seperti
20250223. Saat alur kerja dijalankan, variabel yang didefinisikan untuk node dalam alur kerja diganti dengan konstanta.Di bilah alat atas tab konfigurasi, klik Simpan untuk menyimpan node.
Langkah 4: Pemrosesan data
Jalankan pemrosesan data.
Di bilah alat atas tab konfigurasi alur kerja, klik Run. Di kotak dialog Masukkan parameter runtime, tentukan nilai yang digunakan untuk parameter penjadwalan yang didefinisikan untuk setiap node dalam pelaksanaan ini, dan klik OK. Dalam tutorial ini,
20250223ditentukan. Anda dapat menentukan nilai berdasarkan kebutuhan bisnis Anda.Kueri hasil pemrosesan data.
Di panel navigasi sisi kiri halaman Data Studio, klik ikon
. Di bagian Direktori Pribadi dari panel DATA STUDIO, klik ikon
untuk membuat file yang namanya diakhiri dengan .sql. Anda dapat menentukan nama file berdasarkan kebutuhan bisnis Anda.Di bagian bawah tab konfigurasi file, periksa apakah mode bahasa adalah
MaxCompute SQL.
Di editor kode, masukkan pernyataan SQL berikut untuk menanyakan jumlah catatan data dalam tabel hasil akhir
ads_user_info_1d_odpsdan periksa apakah hasil pemrosesan data telah dihasilkan.-- Anda harus memperbarui kondisi filter partisi ke cap waktu data operasi saat ini. Dalam tutorial ini, nilai parameter penjadwalan bizdate yang dikonfigurasikan dalam langkah-langkah sebelumnya adalah 20250223. SELECT count(*) FROM ads_user_info_1d_odps WHERE dt='cap waktu data';Jika hasil yang dikembalikan setelah Anda menjalankan pernyataan di atas menunjukkan bahwa data ada, pemrosesan data selesai.
Jika hasil yang dikembalikan setelah Anda menjalankan pernyataan di atas menunjukkan bahwa data tidak ada di tujuan, Anda harus memastikan bahwa values specified for the scheduling parameters defined for the inner nodes of the workflow in this run sama dengan nilai bidang
dtdalam pernyataan di atas saat Anda menjalankan alur kerja. Anda dapat mengklik Running History di panel navigasi sisi kanan tab konfigurasi alur kerja, lalu klik View di kolom Actions dari catatan pelaksanaan yang dihasilkan untuk pelaksanaan ini untuk melihat cap waktu data yang digunakan saat alur kerja dijalankan dalam log pelaksanaan alur kerja. Cap waktu data berada dalam formatpartition=[pt=xxx].
Langkah 5: Terapkan alur kerja
Node yang dipicu otomatis hanya dapat dijadwalkan untuk dijalankan secara otomatis setelah Anda menerapkan node ke lingkungan produksi. Anda dapat merujuk pada langkah-langkah berikut untuk menerapkan alur kerja ke lingkungan produksi:
Dalam tutorial ini, parameter penjadwalan dikonfigurasikan untuk alur kerja saat Anda mengonfigurasi properti penjadwalan untuk alur kerja. Anda tidak perlu mengonfigurasi parameter penjadwalan secara terpisah untuk setiap node dalam alur kerja.
Di panel navigasi sisi kiri halaman Data Studio, klik ikon
. Di bagian Workspace Directories dari panel DATA STUDIO, temukan alur kerja yang dibuat dan klik nama alur kerja untuk masuk ke tab konfigurasi alur kerja.Di bilah alat atas tab konfigurasi, klik Deploy.
Di tab DEPLOY, klik Mulai Penerapan ke Lingkungan Produksi untuk menerapkan alur kerja dengan mengikuti petunjuk di layar.
Langkah 6: Jalankan node di lingkungan produksi
Setelah Anda menerapkan node pada suatu hari, instance yang dihasilkan untuk node dapat dijadwalkan untuk dijalankan pada hari berikutnya. Anda dapat menggunakan fitur pengisian balik data untuk mengisi balik data untuk node dalam alur kerja yang diterapkan, yang memungkinkan Anda memeriksa apakah node dapat dijalankan di lingkungan produksi. Untuk informasi lebih lanjut, lihat Isi Balik Data dan Lihat Instance Pengisian Balik Data (versi baru).
Setelah node diterapkan, klik Pusat Operasi di sudut kanan atas halaman Data Studio.
Anda juga dapat mengklik ikon
di sudut kiri atas halaman Data Studio dan pilih .Di panel navigasi sisi kiri halaman Pusat Operasi, pilih . Di halaman Node yang Dipicu Otomatis, temukan node beban nol
workshop_start_odpsdan klik nama node.Dalam grafik asiklik langsung (DAG) node, klik kanan node
workshop_start_odpsdan pilih .Di panel Isi Balik Data, pilih node untuk mana Anda ingin mengisi balik data, konfigurasikan parameter Cap Waktu Data, lalu klik Ajukan dan Alihkan.
Di bagian atas halaman Isi Balik Data, klik Segarkan untuk memeriksa apakah semua node berhasil dijalankan.
Untuk mencegah biaya berlebihan yang dihasilkan setelah operasi dalam tutorial selesai, Anda dapat mengonfigurasi parameter Periode Efektif untuk semua node dalam alur kerja atau membekukan node beban nol workshop_start_odps.
Apa yang Harus Dilakukan Selanjutnya
Visualisasikan data pada dasbor: Setelah Anda menyelesaikan analisis profil pengguna, gunakan DataAnalysis untuk menampilkan data yang diproses dalam bentuk grafik. Ini membantu Anda dengan cepat mengekstraksi informasi utama untuk mendapatkan wawasan tentang tren bisnis di balik data.
Pantau kualitas data: Konfigurasikan aturan pemantauan untuk tabel yang dihasilkan setelah pemrosesan data untuk membantu mengidentifikasi dan mengintersep data kotor terlebih dahulu guna mencegah dampak data kotor meningkat.
Kelola data: Setelah analisis profil pengguna selesai, tabel data dihasilkan di MaxCompute. Anda dapat melihat tabel data di Data Map, dan menentukan hubungan antara tabel data berdasarkan lineage.
Gunakan API untuk menyediakan layanan data: Setelah Anda mendapatkan data yang telah diproses akhir, gunakan API standar di DataService Studio untuk berbagi data dan menyediakan data untuk modul bisnis lain yang menggunakan API untuk menerima data.