Topik ini menjelaskan cara menambahkan sumber data HttpFile dan MySQL untuk mengakses informasi pengguna dasar dan log akses situs web yang disediakan dalam tutorial ini. Topik ini juga mencakup konfigurasi tugas sinkronisasi data untuk menyinkronkan data ke sumber data Object Storage Service (OSS) pribadi, serta menggunakan node Hive E-MapReduce (EMR) untuk membuat tabel dan menanyakan data yang telah disinkronkan.
Prasyarat
Lingkungan telah dipersiapkan. Untuk informasi lebih lanjut, lihat Persiapkan lingkungan.
Aturan grup keamanan telah ditambahkan di Konsol Elastic Compute Service (ECS) untuk memastikan konektivitas jaringan. Anda dapat menggunakan Port
10000dari Instance ECS untuk terhubung ke DataWorks dan menetapkan Obyek Otorisasi ke Blok CIDR dari vSwitch yang terkait dengan kelompok sumber daya. Untuk informasi lebih lanjut, lihat Tambahkan aturan grup keamanan.
Langkah 1: Tambahkan sumber data
Anda perlu menambahkan sumber data HttpFile, MySQL, dan OSS ke ruang kerja DataWorks untuk melanjutkan operasi berikutnya.
Sumber data HttpFile digunakan untuk mengakses log akses situs web pengguna.
Sumber data MySQL digunakan untuk mengakses informasi pengguna dasar.
Sumber data OSS digunakan untuk menyimpan data uji yang diperoleh dari sumber data HttpFile dan MySQL.
Tambahkan sumber data HttpFile
Buka halaman Sumber Data.
Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi sisi kiri, pilih . Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Management Center.
Di panel navigasi sisi kiri halaman SettingCenter, klik Data Sources.
Di pojok kiri atas halaman Sumber Data, klik Add Data Source. Dalam kotak dialog Add Data Source, klik HttpFile.
Di halaman Add HttpFile Data Source, konfigurasikan parameter. Dalam tutorial ini, nilai contoh digunakan dalam lingkungan pengembangan dan produksi.
Parameter
Deskripsi
Data Source Name
Nama sumber data. Dalam contoh ini, user_behavior_analysis_httpfile digunakan.
Data Source Description
Deskripsi sumber data. Sumber data ini secara eksklusif disediakan untuk kasus penggunaan DataWorks dan digunakan sebagai sumber tugas sinkronisasi batch untuk mengakses data uji yang disediakan. Sumber data ini hanya untuk membaca data dalam skenario sinkronisasi data.
URL
Masukkan
https://dataworks-workshop-2024.oss-cn-shanghai.aliyuncs.comdi bidang URL untuk lingkungan pengembangan dan produksi.Cari kelompok sumber daya yang diinginkan dan klik secara terpisah Test Network Connectivity di kolom Connection Status (Development Environment) dan Connection Status (Production Environment). Jika tes konektivitas jaringan berhasil, Connected akan muncul di kolom yang sesuai.
PentingPastikan setidaknya satu kelompok sumber daya adalah connectable. Jika tidak, Anda tidak dapat menggunakan antarmuka tanpa kode (UI) untuk mengonfigurasi tugas sinkronisasi data untuk sumber data tersebut.
Klik Complete Creation.
Tambahkan sumber data MySQL
Di panel navigasi sisi kiri halaman SettingCenter, klik Data Sources. Di pojok kiri atas halaman Sumber Data, klik Add Data Source.
Dalam kotak dialog Tambahkan Sumber Data, pilih MySQL.
Di halaman Add MySQL Data Source, konfigurasikan parameter. Tabel berikut menjelaskan parameter. Dalam contoh ini, nilai contoh digunakan dalam lingkungan pengembangan dan produksi.
Parameter
Deskripsi
Data Source Name
Nama sumber data. Dalam contoh ini, user_behavior_analysis_mysql digunakan.
Data Source Description
Deskripsi sumber data. Sumber data ini secara eksklusif disediakan untuk kasus penggunaan DataWorks dan digunakan sebagai sumber tugas sinkronisasi batch untuk mengakses data uji yang disediakan. Sumber data ini hanya untuk membaca data dalam skenario sinkronisasi data.
Configuration Mode
Pilih Connection String Mode.
Connection Address
Alamat IP Host: Masukkan
rm-bp1z69dodhh85z9qa.mysql.rds.aliyuncs.com.Nomor Port: Masukkan
3306.
Database Name
Nama database. Dalam contoh ini,
workshopdigunakan.Username
Nama pengguna. Dalam contoh ini, workshop digunakan.
Password
Kata sandi. Dalam contoh ini, workshop#2017 digunakan.
Authentication Method
Pilih Tanpa Otentikasi.
Cari kelompok sumber daya yang diinginkan dan klik secara terpisah Test Network Connectivity di kolom Connection Status (Development Environment) dan Connection Status (Production Environment). Jika tes konektivitas jaringan berhasil, Connected akan muncul di kolom yang sesuai.
Klik Complete Creation.
Tambahkan sumber data OSS
Dalam contoh ini, informasi pengguna dasar dari sumber data MySQL dan log akses situs web dari sumber data HttpFile disinkronkan ke sumber data OSS pribadi.
Di panel navigasi sisi kiri halaman SettingCenter, klik Data Sources. Di pojok kiri atas halaman Sumber Data, klik Add Data Source.
Dalam kotak dialog Add Data Source, pilih OSS.
Di halaman Add OSS Data Source, konfigurasikan parameter. Dalam contoh ini, nilai contoh digunakan dalam lingkungan pengembangan dan produksi.
Parameter
Deskripsi
Data Source Name
Nama sumber data. Dalam contoh ini, test_g digunakan.
Data Source Description
Deskripsi sumber data.
Access Mode
Pilih AccessKey Mode.
AccessKey ID
ID AccessKey dari akun yang digunakan untuk masuk ke DataWorks. Anda dapat pergi ke halaman AccessKey untuk menyalin ID AccessKey.
AccessKey Secret
Rahasia AccessKey dari akun yang digunakan untuk masuk ke DataWorks.
PentingRahasia AccessKey hanya ditampilkan saat pembuatan. Anda tidak dapat melihat Rahasia AccessKey setelah Anda membuatnya. Simpan kerahasiaannya. Jika pasangan AccessKey bocor atau hilang, hapus pasangan AccessKey dan buat pasangan AccessKey baru.
Endpoint
Endpoint OSS. Dalam contoh ini,
http://oss-cn-shanghai-internal.aliyuncs.comdigunakan.Bucket
Nama bucket OSS yang Anda buat saat Anda menyiapkan lingkungan. Dalam contoh ini, nama bucket adalah dw-emr-demo.
Cari kelompok sumber daya yang diinginkan dan klik secara terpisah Test Network Connectivity di kolom Connection Status (Development Environment) dan Connection Status (Production Environment). Jika tes konektivitas jaringan berhasil, Connected akan muncul di kolom yang sesuai.
CatatanPastikan setidaknya satu kelompok sumber daya adalah connectable. Jika tidak, Anda tidak dapat menggunakan UI tanpa kode untuk mengonfigurasi tugas sinkronisasi data untuk sumber data tersebut.
Klik Complete Creation.
Langkah 2: Konfigurasikan tugas sinkronisasi data
Di halaman Sumber Data, klik ikon
di pojok kiri atas dan pilih .Di panel Scheduled Workflow, klik kanan Business Flow dan pilih Create Workflow.
Di kotak dialog Create Workflow, atur parameter Workflow Name menjadi workshop_emr dan klik Create.
Klik dua kali alur kerja baru untuk membuka tab konfigurasi alur kerja dan membuat node beban nol serta dua tugas sinkronisasi batch.
Klik Create Node dan seret Zero-Load Node di bagian Umum ke kanvas di sebelah kanan. Di kotak dialog Create Node, atur parameter Name menjadi workshop_start_emr dan klik Confirm.
Klik Create Node dan seret Offline synchronization di bagian Integrasi Data ke kanvas di sebelah kanan. Buat dua batch synchronization nodes bernama ods_raw_log_d_2oss_emr dan ods_user_info_d_2oss_emr dengan cara yang sama. Dua node ini digunakan untuk menyinkronkan informasi pengguna dasar MySQL dan log akses situs web OSS. Lalu, klik Confirm.
Di tab konfigurasi alur kerja, seret garis terarah untuk mengonfigurasi node workshop_start_emr sebagai node leluhur dari dua node sinkronisasi batch.

Langkah 3: Konfigurasikan node sinkronisasi data
Konfigurasikan node awal alur kerja
Di panel Scheduled Workflow, klik dua kali node beban nol di alur kerja. Di panel navigasi sisi kanan tab konfigurasi node, klik Properties.
Konfigurasikan properti penjadwalan.
Bidang
Tangkapan Layar
Deskripsi
Jadwal

Waktu penjadwalan node beban nol diatur ke 00:30. Node beban nol memicu alur kerja saat ini untuk berjalan pada 00:30 setiap hari.
Atur parameter Rerun ke Allow Regardless of Running Status.
Dependensi Penjadwalan

Node beban nol
workshop_start_emrtidak memiliki node leluhur. Dalam kasus ini, Anda dapat mengonfigurasi node beban nol sebagai node turunan dari root node of the workspace. Node akar dapat digunakan untuk memicu node beban nolworkshop_start_emruntuk berjalan.Node akar ruang kerja dinamai dalam format
Nama ruang kerja_root.Setelah konfigurasi selesai, klik ikon
di pojok kiri atas.
Konfigurasikan node sinkronisasi batch
Sinkronkan informasi pengguna dasar dari sumber data MySQL ke bucket OSS yang dibuat.
Di halaman DataStudio, klik dua kali node ods_user_info_d_2oss_emr untuk membuka halaman konfigurasi node.
Buat koneksi jaringan antara kelompok sumber daya yang ingin Anda gunakan dan sumber data.
Setelah Anda menyelesaikan konfigurasi koneksi jaringan dan sumber daya, klik Next dan selesaikan tes konektivitas sesuai petunjuk.
Parameter
Deskripsi
Source
Sumber: Atur nilai ke MySQL.
Nama Sumber Data: Atur nilai ke user_behavior_analysis_mysql.
Resource Group
Pilih kelompok sumber daya serverless yang Anda beli.
Destination
Tujuan: Atur nilai ke OSS.
Nama Sumber Data: Atur ke test_g, yang menentukan nama sumber data OSS pribadi yang Anda tambahkan.
Konfigurasikan node sinkronisasi data.
Parameter
Deskripsi
Source
Table: Pilih tabel ods_user_info_d di sumber data.
Split key: Kunci pemisah untuk data yang akan dibaca. Kami merekomendasikan Anda menggunakan kunci utama atau kolom terindeks sebagai kunci pemisah. Hanya bidang tipe INTEGER yang didukung. Dalam contoh ini, uid digunakan.
Destination
Text type: Atur nilai ke text.
Object Name (Path Included): Jalur objek OSS. Konfigurasikan parameter ini berdasarkan folder yang Anda buat di bucket OSS. Dalam contoh ini, masukkan ods_user_info_d/user_${bizdate}/user_${bizdate}.txt. ods_user_info_d adalah nama folder yang Anda buat di bucket OSS. $bizdate menunjukkan tanggal hari sebelumnya.
Column Delimiter: Masukkan |.
Konfigurasikan properti penjadwalan.
Di panel navigasi sisi kanan tab konfigurasi node, klik Properti. Di tab Properties, Anda dapat mengonfigurasi properti penjadwalan dan informasi dasar tentang node. Tabel berikut menjelaskan parameter penjadwalan.
Bidang
Deskripsi
Tangkapan Layar
Scheduling Parameter
Klik Tambah Parameter di bagian Scheduling Parameter. Di baris yang muncul di tabel, Anda dapat menentukan parameter penjadwalan dan nilai parameter penjadwalan tersebut.
Atur Nama Parameter ke bizdate.
Atur Nilai Parameter ke $[yyyymmdd-1].

Schedule
Atur parameter Rerun ke Allow Regardless of Running Status.

Dependencies
Pastikan bahwa tabel yang dihasilkan digunakan sebagai tabel output dari node saat ini.
Tabel output dinamai dalam format
Nama ruang kerja.Nama node.
Setelah konfigurasi selesai, klik ikon
di bilah alat.
Sinkronkan log akses situs web dari sumber data HttpFile ke bucket OSS yang dibuat.
Di halaman DataStudio, klik dua kali node ods_raw_log_d_2oss_emr untuk membuka halaman konfigurasi node.
Buat koneksi jaringan antara kelompok sumber daya yang ingin Anda gunakan dan sumber data.
Setelah Anda menyelesaikan konfigurasi koneksi jaringan dan sumber daya, klik Next dan selesaikan tes konektivitas sesuai petunjuk.
Parameter
Deskripsi
Source
Sumber: Atur nilai ke HttpFile.
Nama Sumber Data: Atur nilai ke user_behavior_analysis_httpfile.
Resource Group
Pilih kelompok sumber daya serverless yang Anda beli.
Destination
Tujuan: Atur nilai ke OSS.
Nama Sumber Data: Atur nilai ke test_g, yang menentukan nama sumber data OSS pribadi yang Anda tambahkan.
Konfigurasikan node sinkronisasi data.
Parameter
Deskripsi
Source
File Path: Atur nilai ke /user_log.txt.
Text type: Atur nilai ke text.
Column Delimiter: Masukkan |.
Compression format: Format kompresi objek OSS. Nilai valid: None, Gzip, Bzip2, dan Zip. Pilih None.
Skip Header: Atur nilai ke Tidak.
Destination
Text type: Atur nilai ke text.
Object Name (Path Included): Jalur objek OSS. Konfigurasikan parameter ini berdasarkan folder yang Anda buat di bucket OSS. Dalam contoh ini, masukkan ods_raw_log_d/log_${bizdate}/log_${bizdate}.txt. ods_raw_log_d adalah nama folder yang Anda buat di bucket OSS. $bizdate menunjukkan tanggal hari sebelumnya.
Column Delimiter: Masukkan |.
Konfigurasikan properti penjadwalan.
Di panel navigasi sisi kanan tab konfigurasi node, klik Properties. Di tab Properties, Anda dapat mengonfigurasi properti penjadwalan dan informasi dasar tentang node. Tabel berikut menjelaskan parameter penjadwalan.
Bidang
Deskripsi
Tangkapan Layar
Scheduling Parameter
Klik Tambah Parameter di bagian Scheduling Parameter. Di baris yang muncul di tabel, Anda dapat menentukan parameter penjadwalan dan nilai parameter penjadwalan tersebut.
Atur Nama Parameter ke bizdate.
Atur Nilai Parameter ke $[yyyymmdd-1].

Schedule
Atur parameter Rerun ke Allow Regardless of Running Status.

Dependencies
Pastikan bahwa tabel yang dihasilkan digunakan sebagai tabel output dari node saat ini.
Tabel output dinamai dalam format
Nama ruang kerja.Nama node.
Setelah konfigurasi selesai, klik ikon
di bilah alat.
Buat tabel EMR untuk menyinkronkan data
Anda perlu membuat dua tabel EMR: ods_user_info_d_emr dan ods_raw_log_d_emr. Lalu, Anda dapat menggunakan tabel-tabel tersebut untuk menanyakan informasi pengguna dasar ApsaraDB RDS for MySQL dan log akses situs web OSS yang telah disinkronkan.
Di panel Scheduled Workflow, klik alur kerja baru, klik kanan EMR, lalu pilih .
Di kotak dialog Create Node, konfigurasikan parameter Name dan klik Confirm.
Anda perlu membuat dua node EMR Hive: ods_user_info_d_emr dan ods_raw_log_d_emr, yang digunakan untuk membuat tabel terkait. Lalu, Anda perlu mengonfigurasi dependensi antar node dengan menggambar garis pada tab konfigurasi alur kerja. Gambar berikut memberikan contoh.

Di tab konfigurasi setiap node EMR Hive, masukkan pernyataan CREATE TABLE dan pilih kelompok sumber daya tanpa server untuk parameter Kelompok Sumber Daya di bagian Resource Group dari tab Properties. Lalu, klik Save dan execute pernyataan CREATE TABLE untuk setiap node.
Buat tabel ods_user_info_d_emr.
Klik dua kali node ods_user_info_d_emr. Di tab konfigurasi node yang muncul, konfigurasikan node ods_user_info_d_emr.
Edit kode SQL.
CREATE EXTERNAL TABLE IF NOT EXISTS ods_user_info_d_emr ( `uid` STRING COMMENT 'ID Pengguna', `gender` STRING COMMENT 'Jenis Kelamin', `age_range` STRING COMMENT 'Rentang Usia', `zodiac` STRING COMMENT 'Zodiak' ) PARTITIONED BY ( dt STRING ) ROW FORMAT delimited fields terminated by '|' LOCATION 'oss://dw-emr-demo/ods_user_info_d/'; ALTER TABLE ods_user_info_d_emr ADD IF NOT EXISTS PARTITION (dt='${bizdate}') LOCATION 'oss://dw-emr-demo/ods_user_info_d/user_${bizdate}/';CatatanDalam kode sebelumnya, jalur contoh digunakan untuk LOCATION. Jalur tersebut didasarkan pada nilai parameter Nama Objek (Termasuk Jalur) saat Anda mengonfigurasi node sinkronisasi batch terkait. Anda harus menyetel parameter LOCATION ke jalur folder yang dibuat. dw-emr-demo adalah nama domain bucket OSS yang Anda buat saat menyiapkan lingkungan.
Konfigurasikan properti penjadwalan untuk node.
Bidang
Deskripsi
Tangkapan Layar
Scheduling Parameter
Klik Tambah Parameter di bagian Scheduling Parameter. Di baris yang muncul di tabel, Anda dapat menentukan parameter penjadwalan dan nilai parameter penjadwalan tersebut.
Atur Nama Parameter ke bizdate.
Atur Nilai Parameter ke $[yyyymmdd-1].

Schedule
Atur parameter Rerun ke Allow Regardless of Running Status.

Dependencies
Pastikan bahwa tabel yang dihasilkan digunakan sebagai tabel output dari node saat ini.
Tabel output dinamai dalam format
Nama ruang kerja.Nama node.
Setelah konfigurasi selesai, klik ikon
.
Buat tabel ods_raw_log_d_emr.
Klik dua kali node ods_raw_log_d_emr. Di tab konfigurasi node yang muncul, konfigurasikan node ods_raw_log_d_emr.
Edit kode SQL.
-- Buat tabel yang digunakan untuk menyimpan log akses situs web. CREATE EXTERNAL TABLE IF NOT EXISTS ods_raw_log_d_emr ( `col` STRING ) PARTITIONED BY ( dt STRING ); ALTER TABLE ods_raw_log_d_emr ADD IF NOT EXISTS PARTITION (dt='${bizdate}') LOCATION 'oss://dw-emr-demo/ods_raw_log_d/log_${bizdate}/';CatatanDalam kode sebelumnya, jalur contoh digunakan untuk LOCATION. Jalur tersebut didasarkan pada nilai parameter Nama Objek (Termasuk Jalur) saat Anda mengonfigurasi node sinkronisasi batch terkait. Anda harus menyetel parameter LOCATION ke jalur folder yang dibuat. dw-emr-demo adalah nama bucket OSS yang Anda buat saat menyiapkan lingkungan.
Konfigurasikan properti penjadwalan untuk node.
Bidang
Deskripsi
Tangkapan Layar
Scheduling Parameter
Klik Tambah Parameter di bagian Scheduling Parameter. Di baris yang muncul di tabel, Anda dapat mengonfigurasi parameter penjadwalan dan menentukan nilai parameter penjadwalan tersebut.
Atur Nama Parameter ke bizdate.
Atur Nilai Parameter ke $[yyyymmdd-1].

Schedule
Atur parameter Rerun ke Allow Regardless of Running Status.

Dependencies
Pastikan bahwa tabel yang dihasilkan digunakan sebagai tabel output dari node saat ini.
Tabel output dinamai dalam format
Nama ruang kerja.Nama node.
Setelah konfigurasi selesai, klik ikon
.
Langkah 4: Jalankan node dalam alur kerja dan lihat hasilnya
Jalankan alur kerja
Di halaman DataStudio, klik dua kali alur kerja workshop_emr di bawah Business Flow. Di tab konfigurasi alur kerja, klik ikon
di bilah alat atas untuk menjalankan node dalam alur kerja berdasarkan dependensi penjadwalan antar node.Konfirmasi status.
Lihat status node.
Jika node berada dalam keadaan
, proses sinkronisasi normal.Jika node berada dalam keadaan
dan pesan kesalahan "java.net.ConnectException: Connection timed out (Connection timed out)"muncul, Anda harus menambahkan aturan grup keamanan di Konsol ECS, gunakan Port10000dari Instance ECS untuk terhubung ke DataWorks dan atur Obyek Otorisasi ke Blok CIDR dari vSwitch yang terkait dengan kelompok sumber daya. Anda dapat melakukan langkah-langkah berikut untuk mendapatkan blok CIDR vSwitch: Pergi ke halaman Kelompok Sumber Daya, temukan kelompok sumber daya yang diinginkan, dan klik Network Settings di kolom Tindakan. Di tab Pengikatan VPC pada halaman yang muncul, dapatkan blok CIDR vSwitch. Untuk informasi lebih lanjut tentang cara menambahkan aturan grup keamanan, lihat Tambahkan aturan grup keamanan.
Lihat log node yang sedang berjalan: Klik kanan node ods_user_info_d_emr atau ods_raw_log_d_emr dan pilih Lihat Log. Jika informasi yang ditunjukkan dalam gambar berikut muncul di log, node telah dijalankan dan data telah disinkronkan.

Kueri hasil sinkronisasi
Buat kueri ad hoc.
Di panel navigasi sisi kiri halaman DataStudio, klik ikon
. Di panel Kueri Ad Hoc, klik kanan Kueri Ad Hoc dan pilih Create Node > EMR Hive.Kueri tabel hasil sinkronisasi.
Jalankan pernyataan SQL berikut untuk mengonfirmasi hasil penulisan data. Lihat jumlah catatan yang diimpor ke tabel ods_raw_log_d_emr dan ods_user_info_d_emr.
-- Dalam pernyataan kueri, ubah nilai kunci partisi menjadi cap waktu data dari node. Misalnya, jika node dijalankan pada 7 November 2019, cap waktu data adalah 20191106, yaitu satu hari sebelum node dijalankan. SELECT * from ods_user_info_d_emr where dt=Cap waktu data; SELECT * from ods_raw_log_d_emr where dt=Cap waktu data;
Apa yang harus dilakukan selanjutnya
Setelah Anda memahami cara menyinkronkan data berdasarkan tutorial ini, Anda dapat melanjutkan ke tutorial berikutnya. Di tutorial berikutnya, Anda akan belajar cara menghitung dan menganalisis data yang telah disinkronkan. Untuk informasi lebih lanjut, lihat Proses data.