Dalam topik ini, tugas sinkronisasi batch di Data Integration digunakan untuk menyinkronkan informasi pengguna dasar yang disimpan dalam tabel MySQL ods_user_info_d dan log akses situs web pengguna yang disimpan dalam objek Object Storage Service (OSS) user_log.txt ke tabel MaxCompute ods_user_info_d_odps. Topik ini menjelaskan cara menggunakan layanan Data Integration dari DataWorks untuk menyinkronkan data antara sumber data heterogen dalam desain alur kerja.
Prasyarat
Anda telah membaca pengenalan eksperimen dan memiliki pemahaman awal tentang tutorial ini. Untuk informasi lebih lanjut tentang eksperimen, lihat Pengenalan Eksperimen.
Lingkungan yang diperlukan telah dipersiapkan untuk sinkronisasi data. Untuk informasi lebih lanjut, lihat Analisis Persyaratan.
Tujuan
Menyinkronkan data dalam sumber data publik yang disediakan dalam contoh ini ke MaxCompute untuk menyelesaikan sinkronisasi data dalam desain alur kerja.
Jenis Sumber | Data yang akan disinkronkan | Skema tabel sumber | Jenis Tujuan | Tabel tujuan | Skema tabel tujuan |
MySQL | Tabel: ods_user_info_d Informasi pengguna dasar |
| MaxCompute |
|
|
HttpFile | objek: user_log.txt Log akses situs web pengguna | Sebuah rekaman akses pengguna menempati satu baris. | MaxCompute |
|
|
Dalam tutorial ini, data uji dan sumber data yang diperlukan telah disiapkan. Untuk mengakses data uji dari ruang kerja Anda, Anda hanya perlu menambahkan informasi sumber data ke ruang kerja Anda.
Data dalam eksperimen ini hanya dapat digunakan untuk operasi eksperimental di DataWorks. Semua data adalah data tiruan manual dan hanya dapat dibaca di Data Integration.
Pergi ke halaman DataStudio
Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi sisi kiri, pilih . Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Data Development.
Langkah 1: Desain alur kerja
Desain alur kerja
Buat alur kerja.
Komponen pengembangan digunakan untuk mengembangkan data berdasarkan alur kerja. Sebelum membuat node, Anda harus membuat alur kerja. Untuk informasi lebih lanjut, lihat Buat alur kerja.
Dalam contoh ini, alur kerja bernama
Analisis Profil Pengguna_MaxComputedigunakan.
Desain alur kerja.
Setelah membuat alur kerja, kanvas alur kerja secara otomatis ditampilkan. Di bagian atas kanvas alur kerja, klik Create Node, seret node ke kanvas alur kerja, dan gambar garis untuk mengonfigurasi dependensi antar node untuk sinkronisasi data berdasarkan desain alur kerja.

Dalam tutorial ini, tidak ada garis keturunan antara node beban nol dan node sinkronisasi. Dalam hal ini, dependensi antar node dikonfigurasi dengan menggambar garis di alur kerja. Untuk informasi lebih lanjut tentang cara mengonfigurasi dependensi, lihat Panduan konfigurasi dependensi penjadwalan. Tabel berikut menjelaskan jenis node, nama node, dan fungsionalitas setiap node.
Klasifikasi Node
Jenis Node
Konvensi Penamaan
(Dinamai berdasarkan tabel output akhir)
Fungsionalitas Node
Umum
Node beban nol
workshop_start_odpsDigunakan untuk mengelola seluruh alur kerja untuk analisis profil pengguna. Misalnya, node beban nol menentukan waktu alur kerja mulai berjalan. Jika alur kerja di ruang kerja kompleks, node beban nol membuat jalur aliran data dalam alur kerja lebih jelas. Node ini adalah node simulasi kering. Anda tidak perlu mengedit kode node.
Integrasi Data
Sinkronisasi Batch
ods_user_info_d_odpsDigunakan untuk menyinkronkan informasi pengguna dasar yang disimpan di MySQL ke tabel MaxCompute
ods_user_info_d_odps.Integrasi Data
Sinkronisasi Batch
ods_raw_log_d_odpsDigunakan untuk menyinkronkan log akses situs web pengguna yang disimpan di OSS ke tabel MaxCompute
ods_raw_log_d_odps.
Konfigurasikan logika penjadwalan
Dalam contoh ini, node beban nol workshop_start_odps digunakan untuk memicu alur kerja berjalan pada pukul 00:30 setiap hari. Tabel berikut menjelaskan konfigurasi properti penjadwalan untuk node beban nol. Anda tidak perlu memodifikasi konfigurasi penjadwalan node lainnya. Untuk informasi tentang logika implementasi, lihat Konfigurasikan waktu penjadwalan untuk node dalam alur kerja dalam skenario berbeda. Untuk informasi tentang konfigurasi penjadwalan lainnya, lihat Ikhtisar.
Item Konfigurasi | Cuplikan Layar | Deskripsi |
Waktu Penjadwalan |
| Waktu penjadwalan node beban nol diatur ke 00:30. Node beban nol memicu alur kerja saat ini untuk berjalan pada pukul 00:30 setiap hari. |
Dependensi Penjadwalan |
| Node beban nol |
Semua node dalam alur kerja DataWorks perlu bergantung pada node leluhur. Semua node dalam fase sinkronisasi data bergantung pada node beban nol workshop_start_odps. Oleh karena itu, pelaksanaan alur kerja sinkronisasi data dipicu oleh node workshop_start_odps.
Langkah 2: Konfigurasikan tugas sinkronisasi data
Buat tabel MaxCompute tujuan
Anda harus membuat tabel MaxCompute yang digunakan untuk menyimpan data yang disinkronkan menggunakan Data Integration sebelumnya. Dalam tutorial ini, tabel dibuat dengan cara cepat. Untuk informasi lebih lanjut tentang operasi tabel MaxCompute terkait, lihat Buat dan kelola tabel MaxCompute.
Pergi ke titik masuk untuk membuat tabel.

Buat tabel bernama ods_raw_log_d.
Di kotak dialog Buat Tabel, masukkan
ods_raw_log_d_odpsdi kolom Nama. Di bagian atas tab konfigurasi tabel, klik DDL, masukkan pernyataan pembuatan tabel berikut, dan kemudian klik Generate Table Schema. Di kotak dialog Confirm, klik Konfirmasi untuk menimpa konfigurasi asli.CREATE TABLE IF NOT EXISTS ods_raw_log_d_odps ( col STRING ) PARTITIONED BY ( dt STRING ) LIFECYCLE 7;Buat tabel bernama ods_user_info_d_odps.
Di kotak dialog Buat Tabel, masukkan
ods_user_info_d_odpsdi kolom Nama. Di bagian atas tab konfigurasi tabel, klik DDL, masukkan pernyataan pembuatan tabel berikut, dan kemudian klik Generate Table Schema. Di kotak dialog Confirm, klik Konfirmasi untuk menimpa konfigurasi asli.CREATE TABLE IF NOT EXISTS ods_user_info_d_odps ( uid STRING COMMENT 'ID pengguna', gender STRING COMMENT 'Jenis kelamin', age_range STRING COMMENT 'Rentang usia', zodiac STRING COMMENT 'Tanda zodiak' ) PARTITIONED BY ( dt STRING ) LIFECYCLE 7;Komit dan terapkan tabel.
Setelah mengonfirmasi bahwa informasi tabel valid, klik Commit to Development Environment dan Commit to Production Environment secara berurutan di tab konfigurasi tabel ods_user_info_d dan ods_raw_log_d. Di proyek MaxCompute yang terkait dengan ruang kerja di lingkungan pengembangan dan produksi, sistem membuat tabel fisik terkait di proyek MaxCompute berdasarkan konfigurasi node.
CatatanSetelah mendefinisikan skema tabel, Anda dapat mengomitm tabel ke lingkungan pengembangan dan produksi. Setelah tabel dikomit, Anda dapat melihat tabel di proyek MaxCompute di lingkungan tertentu.
Jika Anda mengomitm tabel ke lingkungan pengembangan ruang kerja, tabel dibuat di proyek MaxCompute yang terkait dengan ruang kerja di lingkungan pengembangan.
Jika Anda mengomitm tabel ke lingkungan produksi ruang kerja, tabel dibuat di proyek MaxCompute yang terkait dengan ruang kerja di lingkungan produksi.
Tambahkan sumber
Dalam tutorial ini, data dalam database ApsaraDB RDS for MySQL dan Bucket OSS digunakan sebagai data uji. Anda harus menambahkan sumber data ApsaraDB RDS for MySQL bernama user_behavior_analysis_mysql dan sumber data HttpFile bernama user_behavior_analysis_mysql ke ruang kerja Anda agar Anda dapat mengakses data uji. Informasi dasar tentang sumber data yang digunakan untuk pengujian disediakan.
Sebelum mengonfigurasi tugas sinkronisasi Data Integration, Anda dapat menambahkan dan mengonfigurasi database atau gudang data sumber dan tujuan di halaman Sumber Data di konsol DataWorks. Ini memungkinkan Anda mencari sumber data berdasarkan nama saat mengonfigurasi tugas sinkronisasi untuk menentukan database atau gudang data sumber dan tujuan yang ingin Anda gunakan.
Data dalam eksperimen ini hanya dapat digunakan untuk operasi eksperimental di DataWorks. Semua data adalah data tiruan manual dan hanya dapat dibaca di Data Integration.
Data uji dalam sumber data HttpFile dan ApsaraDB RDS for MySQL yang ingin Anda tambahkan pada langkah ini disimpan di Internet. Pastikan Gateway NAT Internet dikonfigurasi untuk grup sumber daya DataWorks Anda sesuai dengan Langkah 2. Jika tidak, kesalahan berikut dilaporkan saat Anda menguji konektivitas:
HttpFile:
ErrorMessage:[Connect to dataworks-workshop-2024.oss-cn-shanghai.aliyuncs.com:443 [dataworks-workshop-2024.oss-cn-shanghai.aliyuncs.com/106.14.XX.XX] failed: connect timed out]MySQL:
ErrorMessage:[Exception:Communications link failure The last packet sent successfully to the server was 0 milliseconds ago. The driver has not received any packets from the server.<br><br>ExtraInfo:Resource Group IP:****,detail version info:mysql_all],Root Cause:[connect timed out]
Tambahkan sumber data ApsaraDB RDS for MySQL bernama user_behavior_analysis_mysql
Tambahkan sumber data ApsaraDB RDS for MySQL ke ruang kerja Anda. Kemudian, uji apakah koneksi jaringan telah dibuat antara sumber data dan grup sumber daya yang ingin Anda gunakan untuk sinkronisasi data. Sumber data ApsaraDB RDS for MySQL digunakan untuk membaca informasi pengguna dasar yang disimpan di ApsaraDB RDS for MySQL dan dapat diakses dari DataWorks.
Pergi ke halaman Sumber Data.
Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi sisi kiri, pilih . Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Management Center.
Di panel navigasi sisi kiri halaman SettingCenter, klik Data Sources.
Tambahkan sumber data ApsaraDB RDS for MySQL.
Di halaman Data Sources, klik Add Data Source.
Di kotak dialog Tambah Sumber Data, klik MySQL.
Di halaman Add MySQL Data Source, konfigurasikan parameter. Tabel berikut menjelaskan parameter.

Parameter
Deskripsi
Nama Sumber Data
Nama sumber data. Masukkan user_behavior_analysis_mysql.
Deskripsi Sumber Data
Deskripsi sumber data. Sumber data ini disediakan secara eksklusif untuk kasus penggunaan DataWorks dandigunakan sebagai sumber tugas sinkronisasi batch untuk mengakses data uji yang disediakan. Sumber data ini hanya untuk pembacaan data dalam skenario sinkronisasi data.
Mode Konfigurasi
Atur parameter ini ke Mode String Koneksi.
Lingkungan
Pilih Pengembangan dan Produksi.
CatatanAnda harus menambahkan sumber data di lingkungan pengembangan dan sumber data di lingkungan produksi. Jika tidak, kesalahan akan dilaporkan saat tugas terkait dijalankan untuk menghasilkan data.
Alamat Koneksi
Alamat IP Host
rm-bp1z69dodhh85z9qa.mysql.rds.aliyuncs.comNomor Port
3306Nama Database
workshopNama Pengguna
workshopKata Sandi
workshop#2017Metode Otentikasi
Atur parameter ini ke Tanpa Otentikasi.
Konfigurasi Koneksi
Di bagian Konfigurasi Koneksi, temukan grup sumber daya serverless yang Anda beli dan klik Test Network Connectivity di kolom Connection Status. Anda perlu menguji koneksi jaringan antara grup sumber daya dan sumber data di lingkungan pengembangan dan produksi secara terpisah. Setelah sistem mengembalikan pesan yang menunjukkan bahwa pengujian berhasil, status konektivitas berubah menjadi Connected.
PentingData uji dalam sumber data ApsaraDB RDS for MySQL yang ingin Anda tambahkan pada langkah ini disimpan di Internet. Pastikan Gateway NAT Internet dikonfigurasi untuk grup sumber daya DataWorks Anda sesuai dengan Langkah 2. Jika tidak, kesalahan berikut dilaporkan saat Anda menguji konektivitas:
ErrorMessage:[Exception:Communications link failure The last packet sent successfully to the server was 0 milliseconds ago. The driver has not received any packets from the server.<br><br>ExtraInfo:Resource Group IP:****,detail version info:mysql_all],Root Cause:[connect timed out].
Tambahkan sumber data HttpFile bernama user_behavior_analysis_httpfile
Tambahkan sumber data HttpFile ke ruang kerja Anda. Kemudian, uji apakah koneksi jaringan telah dibuat antara sumber data dan grup sumber daya yang ingin Anda gunakan untuk sinkronisasi data. Sumber data HttpFile digunakan untuk membaca data uji akses situs web pengguna yang disimpan di OSS dan dapat diakses dari DataWorks.
Pergi ke halaman Sumber Data.
Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi sisi kiri, pilih . Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Management Center.
Di panel navigasi sisi kiri halaman SettingCenter, klik Data Sources.
Tambahkan sumber data HttpFile.
Di halaman Data Sources, klik Add Data Source.
Di kotak dialog Add Data Source, klik HttpFile.
Di halaman Add HttpFile Data Source, konfigurasikan parameter. Tabel berikut menjelaskan parameter.
Parameter
Deskripsi
Nama Sumber Data
Nama sumber data. Ini adalah pengenal sumber data di ruang kerja Anda. Dalam contoh ini, parameter diatur ke user_behavior_analysis_httpfile.
Deskripsi Sumber Data
Deskripsi sumber data. Sumber data ini disediakan secara eksklusif untuk kasus penggunaan DataWorks dan digunakan sebagai sumber tugas sinkronisasi batch untuk mengakses data uji yang disediakan. Sumber data ini hanya untuk pembacaan data dalam skenario sinkronisasi data.
Lingkungan
Pilih Lingkungan Pengembangan dan Lingkungan Produksi.
CatatanAnda harus menambahkan sumber data di lingkungan pengembangan dan sumber data di lingkungan produksi. Jika tidak, kesalahan akan dilaporkan saat tugas terkait dijalankan untuk menghasilkan data.
Domain URL
URL Bucket OSS. Masukkan
https://dataworks-workshop-2024.oss-cn-shanghai.aliyuncs.com.Konfigurasi Koneksi
Di bagian Konfigurasi Koneksi, temukan grup sumber daya serverless yang Anda beli dan klik Test Network Connectivity di kolom Connection Status. Anda perlu menguji koneksi jaringan antara grup sumber daya dan sumber data di lingkungan pengembangan dan produksi secara terpisah. Setelah sistem mengembalikan pesan yang menunjukkan bahwa pengujian berhasil, status konektivitas berubah menjadi Connected.
PentingData uji dalam sumber data HttpFile yang ingin Anda tambahkan pada langkah ini disimpan di Internet. Pastikan Gateway NAT Internet dikonfigurasi untuk grup sumber daya DataWorks Anda sesuai dengan Langkah 2. Jika tidak, kesalahan berikut dilaporkan saat Anda menguji konektivitas:
ErrorMessage:[Connect to dataworks-workshop-2024.oss-cn-shanghai.aliyuncs.com:443 [dataworks-workshop-2024.oss-cn-shanghai.aliyuncs.com/106.14.XX.XX] failed: connect timed out].
Konfigurasikan tugas sinkronisasi batch untuk menyinkronkan informasi pengguna dasar
Dalam contoh ini, tugas sinkronisasi batch digunakan untuk menyinkronkan informasi pengguna dasar dari tabel MySQL ods_user_info_d ke tabel MaxCompute ods_user_info_d_odps.
Klik dua kali node sinkronisasi batch
ods_user_info_d_odpsuntuk masuk ke tab konfigurasi node.Konfigurasikan koneksi jaringan dan grup sumber daya.
Setelah mengonfigurasi source, resource group, dan destination, klik Next dan selesaikan pengujian konektivitas sesuai petunjuk. Tabel berikut menjelaskan konfigurasi.

Parameter
Deskripsi
Source
Atur parameter ke
MySQL.Atur parameter Data Source Name ke
user_behavior_analysis_mysql.
Resource Group
Pilih grup sumber daya serverless yang Anda beli di fase persiapan lingkungan.
Destination
Atur parameter ke
MaxCompute.Atur parameter Data Source Name ke
user_behavior_analysis_mysql.
Konfigurasikan tugas berdasarkan node sinkronisasi batch.
Konfigurasikan sumber dan tujuan.
Item
Parameter
Deskripsi
Ilustrasi
Source
Table
Pilih tabel MySQL
ods_user_info_d.
Split key
Kunci pemisah untuk data yang akan dibaca. Kami sarankan Anda menggunakan kunci utama atau kolom terindeks sebagai kunci pemisah. Hanya bidang bertipe INTEGER yang didukung.
Dalam contoh ini, bidang
uiddigunakan sebagai kunci pemisah.Destination
Tunnel Resource Group
Dalam tutorial ini, Common transmission resources dipilih secara default. Jika kuota Tunnel eksklusif ada, Anda dapat memilih kuota Tunnel eksklusif dari daftar drop-down.
CatatanUntuk informasi lebih lanjut tentang sumber daya transmisi data MaxCompute, lihat Beli dan gunakan grup sumber daya eksklusif untuk layanan transmisi data. Jika kuota Tunnel eksklusif tidak tersedia karena pembayaran terlambat atau kedaluwarsa, tugas yang sedang berjalan secara otomatis beralih dari kuota Tunnel eksklusif ke kuota Tunnel gratis.

schema
Dalam tutorial ini, default dipilih. Jika Anda memiliki skema lain di proyek MaxCompute Anda, Anda dapat memilih skema dari daftar drop-down.
Table
Pilih tabel
ods_user_info_d_odpsyang dibuat dalam kueri ad-hoc dari daftar drop-down.Partition Information
Dalam tutorial ini, atur nilainya ke
${bizdate}.Write Mode
Pilih Bersihkan data yang ada sebelum menulis (Insert Overwrite) dari daftar drop-down.
Nilai yang valid:
Insert Into: menyisipkan data ke dalam tabel atau partisi statis tabel.
Insert Overwrite: membersihkan tabel tertentu dan menyisipkan data ke dalam tabel atau partisi statis tabel.
Write by Converting Empty Strings into Null
Dalam tutorial ini, pilih No.
Konfigurasikan pemetaan bidang dan pengaturan umum.
DataWorks memungkinkan Anda mengonfigurasi pemetaan antara bidang sumber dan bidang tujuan untuk membaca data dari bidang sumber tertentu dan menulis data ke bidang tujuan. Di bagian Kontrol Saluran, Anda juga dapat menggunakan fitur seperti paralelisme pembacaan dan penulisan data, laju transmisi maksimum yang dapat mencegah sinkronisasi data memengaruhi kinerja database, dan kebijakan untuk catatan data kotor dan eksekusi terdistribusi. Dalam tutorial ini, pengaturan default digunakan. Untuk informasi tentang item konfigurasi lainnya untuk tugas sinkronisasi, lihat Konfigurasikan tugas sinkronisasi batch menggunakan antarmuka tanpa kode.
Konfigurasikan properti penjadwalan.
Di tab konfigurasi node, klik Properti di panel navigasi sisi kanan. Di tab Properties, konfigurasikan properti penjadwalan dan informasi dasar untuk node. Untuk informasi lebih lanjut, lihat Properti penjadwalan node. Tabel berikut menjelaskan konfigurasi.
Bagian
Deskripsi
Ilustrasi
Scheduling Parameter
Pertahankan nilai default
$bizdateuntuk Parameter Penjadwalan.CatatanMasukkan bizdate untuk Nama Parameter dan $bizdate untuk Nilai Parameter, yang digunakan untuk menanyakan tanggal hari sebelumnya. Tanggal dalam format
yyyymmdd.
Schedule
Scheduling Cycle: Atur nilainya ke
Hari.Scheduled time: Atur nilainya ke
00:30.Rerun: Atur nilainya ke Izinkan Terlepas dari Status Berjalan.
Gunakan nilai default untuk parameter lainnya.
CatatanWaktu ketika node saat ini dijadwalkan untuk berjalan setiap hari ditentukan oleh waktu penjadwalan node beban nol workshop_start alur kerja. Node saat ini dijadwalkan untuk berjalan setelah pukul 00:30 setiap hari.

Resource Group
Pilih grup sumber daya serverless yang Anda beli di fase persiapan lingkungan.

Dependencies
Tentukan ancestor nodes of the current node: Tentukan apakah akan menampilkan node
workshop_startdi Node Induk untuk node saat ini. Node yang Anda tentukan sebagai node leluhur dari node saat ini dengan menggambar garis ditampilkan. Jika nodeworkshop_starttidak ditampilkan, periksa apakah desain alur kerja dalam fase sinkronisasi data bisnis telah selesai dengan merujuk ke 2. Desain alur kerja.Dalam contoh ini, ketika waktu penjadwalan node
workshop_starttiba dan node selesai berjalan, node saat ini dipicu untuk berjalan.Tentukan output of the current node: Tentukan apakah output dengan nama dalam format
nama Proyek MaxCompute di lingkungan produksi.ods_user_info_d_odpsuntuk node saat ini ada. Jika output node tidak ada, Anda harus menambahkan output node secara manual dengan output name yang ditentukan.
CatatanDi DataWorks, output node digunakan untuk mengonfigurasi dependensi penjadwalan antara node dan node turunannya. Jika node SQL bergantung pada node sinkronisasi, ketika node SQL mulai memproses tabel output node sinkronisasi, DataWorks menggunakan fitur penguraian otomatis untuk dengan cepat mengonfigurasi node sinkronisasi sebagai node leluhur dari node SQL berdasarkan garis keturunan tabel. Anda perlu memastikan apakah node output yang memiliki nama sama dengan tabel output node dalam format
Nama Proyek MaxCompute di lingkungan produksi.ods_user_info_d_odpsada.

Konfigurasikan tugas sinkronisasi batch untuk menyinkronkan log akses situs web pengguna
Dalam contoh ini, tugas sinkronisasi batch digunakan untuk menyinkronkan log akses situs web pengguna dari file user_log.txt dalam sumber data HttpFile publik ke tabel MaxCompute ods_raw_log_d_odps.
Klik dua kali node sinkronisasi batch
ods_raw_log_d_odpsuntuk masuk ke tab konfigurasi node.Konfigurasikan koneksi jaringan dan grup sumber daya.
Setelah mengonfigurasi source, resource group, dan destination, klik Next dan selesaikan pengujian konektivitas sesuai petunjuk. Tabel berikut menjelaskan konfigurasi.

Parameter
Deskripsi
Source
Atur parameter ke
HttpFile.Atur parameter Data Source Name ke
user_behavior_analysis_HttpFile.
Resource Group
Pilih grup sumber daya serverless yang Anda beli di fase persiapan lingkungan.
Destination
Atur parameter ke
MaxCompute.Atur parameter Data Source Name ke
user_behavior_analysis_mysql.
Konfigurasikan tugas.
Konfigurasikan sumber dan tujuan.
Item
Parameter
Deskripsi
Ilustrasi
Source
File Path
Dalam tutorial ini, atur nilainya ke
/user_log.txt.
File Type
Pilih
textdari daftar drop-down.Column Delimiter
Atur nilainya ke
|.Advanced configuration
Coding
Pilih format pengkodean
UTF-8dari daftar drop-down.
Compression format
Pilih format
UTF-8dari daftar drop-down.Skip Header
Pilih
Tidakdari daftar drop-down. Header tidak dilewati.Destination
Tunnel Resource Group
Dalam tutorial ini, Common transmission resources dipilih secara default. Jika kuota Tunnel eksklusif ada, Anda dapat memilih kuota Tunnel eksklusif dari daftar drop-down.
CatatanUntuk informasi lebih lanjut tentang sumber daya transmisi data MaxCompute, lihat Beli dan gunakan grup sumber daya eksklusif untuk layanan transmisi data. Jika kuota Tunnel eksklusif tidak tersedia karena pembayaran terlambat atau kedaluwarsa, tugas yang sedang berjalan secara otomatis beralih dari kuota Tunnel eksklusif ke kuota Tunnel gratis.

schema
Dalam tutorial ini, default dipilih. Jika Anda memiliki skema lain di ruang kerja DataWorks Anda, Anda dapat memilih skema dari daftar drop-down.
Table
Pilih tabel
ods_raw_log_d_odpsyang dibuat dalam kueri ad-hoc dari daftar drop-down.Partition information
Dalam tutorial ini, atur nilainya ke
${bizdate}.Write Mode
Pilih Bersihkan data yang ada sebelum menulis (Insert Overwrite) dari daftar drop-down.
Nilai yang valid:
Insert Into: menyisipkan data ke dalam tabel atau partisi statis tabel.
Insert Overwrite: membersihkan tabel tertentu dan menyisipkan data ke dalam tabel atau partisi statis tabel.
Write by Converting Empty Strings into Null
Dalam tutorial ini, pilih No.
Setelah mengonfigurasi sumber data, klik Confirm Data Structure untuk memeriksa apakah file log dapat dibaca.
Konfigurasikan pemetaan bidang dan pengaturan umum.
DataWorks memungkinkan Anda mengonfigurasi pemetaan antara bidang sumber dan bidang tujuan untuk membaca data dari bidang sumber tertentu dan menulis data ke bidang tujuan. Di bagian Kontrol Saluran, Anda juga dapat menggunakan fitur seperti paralelisme pembacaan dan penulisan data, laju transmisi maksimum yang dapat mencegah sinkronisasi data memengaruhi kinerja database, dan kebijakan untuk catatan data kotor dan eksekusi terdistribusi. Dalam tutorial ini, pengaturan default digunakan. Untuk informasi tentang item konfigurasi lainnya untuk tugas sinkronisasi, lihat Konfigurasikan tugas sinkronisasi batch menggunakan antarmuka tanpa kode.
Konfigurasikan properti penjadwalan.
Di tab konfigurasi node, klik Properti di panel navigasi sisi kanan. Di tab Properties, konfigurasikan properti penjadwalan dan informasi dasar untuk node. Untuk informasi lebih lanjut, lihat Properti penjadwalan node. Tabel berikut menjelaskan konfigurasi.
Parameter
Deskripsi
Ilustrasi
Scheduling Parameter
Pertahankan nilai default
$bizdateuntuk Parameter Penjadwalan.CatatanMasukkan bizdate untuk Nama Parameter dan $bizdate untuk Nilai Parameter, yang digunakan untuk menanyakan tanggal hari sebelumnya. Tanggal dalam format
yyyymmdd.
Schedule
Scheduling Cycle: Atur nilainya ke
Hari.Scheduled time: Atur nilainya ke
00:30.Rerun: Atur nilainya ke Izinkan Terlepas dari Status Berjalan.
Gunakan nilai default untuk parameter lainnya.
CatatanWaktu ketika node saat ini dijadwalkan untuk berjalan setiap hari ditentukan oleh waktu penjadwalan node beban nol workshop_start alur kerja. Node saat ini dijadwalkan untuk berjalan setelah pukul 00:30 setiap hari.

Resource Group
Pilih grup sumber daya serverless yang Anda beli di fase persiapan lingkungan.

Dependencies
Tentukan ancestor nodes of the current node: Tentukan apakah akan menampilkan node
workshop_startdi Node Induk untuk node saat ini. Node yang Anda tentukan sebagai node leluhur dari node saat ini dengan menggambar garis ditampilkan. Jika nodeworkshop_starttidak ditampilkan, periksa apakah desain alur kerja dalam fase sinkronisasi data bisnis telah selesai dengan merujuk ke 2. Desain alur kerja.Dalam contoh ini, ketika waktu penjadwalan node
workshop_starttiba dan node selesai berjalan, node saat ini dipicu untuk berjalan.Tentukan output of the current node: Tentukan apakah ada output untuk node saat ini dengan nama dalam format
Nama Proyek MaxCompute di lingkungan produksi.ods_raw_log_d_odps. Jika output node tidak ada, Anda harus menambahkan output node secara manual dengan output name yang ditentukan.
CatatanDi DataWorks, output node digunakan untuk mengonfigurasi dependensi penjadwalan antara node dan node turunannya. Jika node SQL bergantung pada node sinkronisasi, ketika node SQL mulai memproses tabel output node sinkronisasi, DataWorks menggunakan fitur penguraian otomatis untuk dengan cepat mengonfigurasi node sinkronisasi sebagai node leluhur dari node SQL berdasarkan garis keturunan tabel. Anda perlu memastikan apakah node output yang memiliki nama sama dengan tabel output node dalam format
Nama Proyek MaxCompute di lingkungan produksi.ods_raw_log_d_odpsada.
Langkah 8: Jalankan alur kerja dan lihat hasilnya
Jalankan alur kerja
Di halaman DataStudio, klik dua kali alur kerja
Analisis Profil Pengguna_MaxComputedi bawah Business Flow. Di tab konfigurasi alur kerja, klik ikon
di bilah alat atas untuk menjalankan node dalam alur kerja berdasarkan dependensi penjadwalan antar node.Konfirmasi status.
Lihat status node: Jika sebuah node berada dalam keadaan
, proses sinkronisasi normal.Lihat log pelaksanaan node: Misalnya, klik kanan node
ods_user_info_d_odpsatauods_raw_log_d_odpsdan pilih Lihat Log. Jika informasi yang ditunjukkan dalam gambar berikut muncul di log, node dijalankan dan data disinkronkan.
Lihat hasil sinkronisasi
Jika node dalam alur kerja dijalankan sesuai harapan, semua informasi pengguna dasar dalam tabel ApsaraDB RDS for MySQL ods_user_info_d disinkronkan ke partisi hari sebelumnya di tabel output workshop2024_01_dev.ods_user_info_d_odps, dan semua log akses situs web pengguna dalam objek OSS user_log.txt disinkronkan ke partisi hari sebelumnya di tabel output workshop2024_01_dev.ods_raw_log_d_odps. Anda tidak perlu menerapkan pernyataan SQL kueri ke lingkungan produksi untuk eksekusi. Oleh karena itu, Anda dapat menanyakan hasil sinkronisasi dengan membuat kueri ad hoc.
Buat kueri ad hoc.
Di panel navigasi sisi kiri halaman DataStudio, klik ikon
. Di panel Kueri Ad Hoc, klik kanan Kueri Ad Hoc dan pilih .Kueri tabel hasil sinkronisasi.
Eksekusi pernyataan SQL berikut untuk mengonfirmasi hasil penulisan data. Lihat jumlah rekaman yang diimpor ke tabel
ods_raw_log_d_odpsdanods_user_info_d_odps.// Anda harus menentukan cap waktu data dari data yang Anda operasikan sebagai kondisi filter untuk partisi. Misalnya, jika sebuah node dijadwalkan untuk berjalan pada 21 Juni 2023, cap waktu data node tersebut adalah 20230620, yaitu satu hari lebih awal dari tanggal pelaksanaan node. select count(*) from ods_user_info_d_odps where dt='Cap waktu data'; select count(*) from ods_raw_log_d_odps where dt='Cap waktu data';
CatatanDalam tutorial ini, node dijalankan di DataStudio, yang merupakan lingkungan pengembangan. Oleh karena itu, data ditulis ke tabel yang ditentukan di proyek MaxCompute
workshop2024_01_devyang terkait dengan ruang kerja di lingkungan pengembangan secara default.
Apa yang harus dilakukan selanjutnya
Sinkronisasi data selesai. Anda dapat melanjutkan ke tutorial berikutnya. Di tutorial berikutnya, Anda akan mempelajari cara memproses informasi pengguna dasar dan log akses situs web pengguna di MaxCompute. Untuk informasi lebih lanjut, lihat Proses data.

