全部产品
Search
文档中心

DataWorks:Sinkronisasi data

更新时间:Jul 06, 2025

Dalam topik ini, tugas sinkronisasi batch di Data Integration digunakan untuk menyinkronkan informasi pengguna dasar yang disimpan dalam tabel MySQL ods_user_info_d dan log akses situs web pengguna yang disimpan dalam objek Object Storage Service (OSS) user_log.txt ke tabel MaxCompute ods_user_info_d_odps. Topik ini menjelaskan cara menggunakan layanan Data Integration dari DataWorks untuk menyinkronkan data antara sumber data heterogen dalam desain alur kerja.

Prasyarat

  • Anda telah membaca pengenalan eksperimen dan memiliki pemahaman awal tentang tutorial ini. Untuk informasi lebih lanjut tentang eksperimen, lihat Pengenalan Eksperimen.

  • Lingkungan yang diperlukan telah dipersiapkan untuk sinkronisasi data. Untuk informasi lebih lanjut, lihat Analisis Persyaratan.

Tujuan

Menyinkronkan data dalam sumber data publik yang disediakan dalam contoh ini ke MaxCompute untuk menyelesaikan sinkronisasi data dalam desain alur kerja.

Jenis Sumber

Data yang akan disinkronkan

Skema tabel sumber

Jenis Tujuan

Tabel tujuan

Skema tabel tujuan

MySQL

Tabel: ods_user_info_d

Informasi pengguna dasar

  • uid: nama pengguna

  • gender: jenis kelamin

  • age_range: rentang usia

  • zodiac: tanda zodiak

MaxCompute

ods_user_info_d_odps

  • uid: nama pengguna

  • gender: jenis kelamin

  • age_range: rentang usia

  • zodiac: tanda zodiak

  • dt: bidang partisi

HttpFile

objek: user_log.txt

Log akses situs web pengguna

Sebuah rekaman akses pengguna menempati satu baris.

$remote_addr - $remote_user [$time_local] "$request" $status $body_bytes_sent"$http_referer" "$http_user_agent" [unknown_content];

MaxCompute

ods_raw_log_d_odps

  • col: log mentah

  • dt: bidang partisi

Penting
  • Dalam tutorial ini, data uji dan sumber data yang diperlukan telah disiapkan. Untuk mengakses data uji dari ruang kerja Anda, Anda hanya perlu menambahkan informasi sumber data ke ruang kerja Anda.

  • Data dalam eksperimen ini hanya dapat digunakan untuk operasi eksperimental di DataWorks. Semua data adalah data tiruan manual dan hanya dapat dibaca di Data Integration.

Pergi ke halaman DataStudio

Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi sisi kiri, pilih Data Development and O&M > Data Development. Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Data Development.

Langkah 1: Desain alur kerja

Desain alur kerja

  1. Buat alur kerja.

    Komponen pengembangan digunakan untuk mengembangkan data berdasarkan alur kerja. Sebelum membuat node, Anda harus membuat alur kerja. Untuk informasi lebih lanjut, lihat Buat alur kerja.

    Dalam contoh ini, alur kerja bernama Analisis Profil Pengguna_MaxCompute digunakan.

    image

  2. Desain alur kerja.

    Setelah membuat alur kerja, kanvas alur kerja secara otomatis ditampilkan. Di bagian atas kanvas alur kerja, klik Create Node, seret node ke kanvas alur kerja, dan gambar garis untuk mengonfigurasi dependensi antar node untuk sinkronisasi data berdasarkan desain alur kerja.

    image

  3. Dalam tutorial ini, tidak ada garis keturunan antara node beban nol dan node sinkronisasi. Dalam hal ini, dependensi antar node dikonfigurasi dengan menggambar garis di alur kerja. Untuk informasi lebih lanjut tentang cara mengonfigurasi dependensi, lihat Panduan konfigurasi dependensi penjadwalan. Tabel berikut menjelaskan jenis node, nama node, dan fungsionalitas setiap node.

    Klasifikasi Node

    Jenis Node

    Konvensi Penamaan

    (Dinamai berdasarkan tabel output akhir)

    Fungsionalitas Node

    Umum

    Node beban nol

    workshop_start_odps

    Digunakan untuk mengelola seluruh alur kerja untuk analisis profil pengguna. Misalnya, node beban nol menentukan waktu alur kerja mulai berjalan. Jika alur kerja di ruang kerja kompleks, node beban nol membuat jalur aliran data dalam alur kerja lebih jelas. Node ini adalah node simulasi kering. Anda tidak perlu mengedit kode node.

    Integrasi Data

    Sinkronisasi Batch

    ods_user_info_d_odps

    Digunakan untuk menyinkronkan informasi pengguna dasar yang disimpan di MySQL ke tabel MaxCompute ods_user_info_d_odps.

    Integrasi Data

    Sinkronisasi Batch

    ods_raw_log_d_odps

    Digunakan untuk menyinkronkan log akses situs web pengguna yang disimpan di OSS ke tabel MaxCompute ods_raw_log_d_odps.

Konfigurasikan logika penjadwalan

Dalam contoh ini, node beban nol workshop_start_odps digunakan untuk memicu alur kerja berjalan pada pukul 00:30 setiap hari. Tabel berikut menjelaskan konfigurasi properti penjadwalan untuk node beban nol. Anda tidak perlu memodifikasi konfigurasi penjadwalan node lainnya. Untuk informasi tentang logika implementasi, lihat Konfigurasikan waktu penjadwalan untuk node dalam alur kerja dalam skenario berbeda. Untuk informasi tentang konfigurasi penjadwalan lainnya, lihat Ikhtisar.

Item Konfigurasi

Cuplikan Layar

Deskripsi

Waktu Penjadwalan

image

Waktu penjadwalan node beban nol diatur ke 00:30. Node beban nol memicu alur kerja saat ini untuk berjalan pada pukul 00:30 setiap hari.

Dependensi Penjadwalan

image

Node beban nol workshop_start_odps tidak memiliki node leluhur. Dalam hal ini, Anda dapat mengonfigurasi node beban nol untuk bergantung pada root node of the workspace. Node root memicu node beban nol workshop_start_spark untuk berjalan.

Catatan

Semua node dalam alur kerja DataWorks perlu bergantung pada node leluhur. Semua node dalam fase sinkronisasi data bergantung pada node beban nol workshop_start_odps. Oleh karena itu, pelaksanaan alur kerja sinkronisasi data dipicu oleh node workshop_start_odps.

Langkah 2: Konfigurasikan tugas sinkronisasi data

Buat tabel MaxCompute tujuan

Anda harus membuat tabel MaxCompute yang digunakan untuk menyimpan data yang disinkronkan menggunakan Data Integration sebelumnya. Dalam tutorial ini, tabel dibuat dengan cara cepat. Untuk informasi lebih lanjut tentang operasi tabel MaxCompute terkait, lihat Buat dan kelola tabel MaxCompute.

  1. Pergi ke titik masuk untuk membuat tabel.

    image.png

  2. Buat tabel bernama ods_raw_log_d.

    Di kotak dialog Buat Tabel, masukkan ods_raw_log_d_odps di kolom Nama. Di bagian atas tab konfigurasi tabel, klik DDL, masukkan pernyataan pembuatan tabel berikut, dan kemudian klik Generate Table Schema. Di kotak dialog Confirm, klik Konfirmasi untuk menimpa konfigurasi asli.

    CREATE TABLE IF NOT EXISTS ods_raw_log_d_odps
    (
     col STRING
    ) 
    PARTITIONED BY
    (
     dt STRING
    )
    LIFECYCLE 7;
  3. Buat tabel bernama ods_user_info_d_odps.

    Di kotak dialog Buat Tabel, masukkan ods_user_info_d_odps di kolom Nama. Di bagian atas tab konfigurasi tabel, klik DDL, masukkan pernyataan pembuatan tabel berikut, dan kemudian klik Generate Table Schema. Di kotak dialog Confirm, klik Konfirmasi untuk menimpa konfigurasi asli.

    CREATE TABLE IF NOT EXISTS ods_user_info_d_odps (
     uid STRING COMMENT 'ID pengguna',
     gender STRING COMMENT 'Jenis kelamin',
     age_range STRING COMMENT 'Rentang usia',
     zodiac STRING COMMENT 'Tanda zodiak'
    )
    PARTITIONED BY (
     dt STRING
    )
    LIFECYCLE 7;
  4. Komit dan terapkan tabel.

    Setelah mengonfirmasi bahwa informasi tabel valid, klik Commit to Development Environment dan Commit to Production Environment secara berurutan di tab konfigurasi tabel ods_user_info_d dan ods_raw_log_d. Di proyek MaxCompute yang terkait dengan ruang kerja di lingkungan pengembangan dan produksi, sistem membuat tabel fisik terkait di proyek MaxCompute berdasarkan konfigurasi node.

    Catatan

    Setelah mendefinisikan skema tabel, Anda dapat mengomitm tabel ke lingkungan pengembangan dan produksi. Setelah tabel dikomit, Anda dapat melihat tabel di proyek MaxCompute di lingkungan tertentu.

    • Jika Anda mengomitm tabel ke lingkungan pengembangan ruang kerja, tabel dibuat di proyek MaxCompute yang terkait dengan ruang kerja di lingkungan pengembangan.

    • Jika Anda mengomitm tabel ke lingkungan produksi ruang kerja, tabel dibuat di proyek MaxCompute yang terkait dengan ruang kerja di lingkungan produksi.

Tambahkan sumber

Dalam tutorial ini, data dalam database ApsaraDB RDS for MySQL dan Bucket OSS digunakan sebagai data uji. Anda harus menambahkan sumber data ApsaraDB RDS for MySQL bernama user_behavior_analysis_mysql dan sumber data HttpFile bernama user_behavior_analysis_mysql ke ruang kerja Anda agar Anda dapat mengakses data uji. Informasi dasar tentang sumber data yang digunakan untuk pengujian disediakan.

Catatan
  • Sebelum mengonfigurasi tugas sinkronisasi Data Integration, Anda dapat menambahkan dan mengonfigurasi database atau gudang data sumber dan tujuan di halaman Sumber Data di konsol DataWorks. Ini memungkinkan Anda mencari sumber data berdasarkan nama saat mengonfigurasi tugas sinkronisasi untuk menentukan database atau gudang data sumber dan tujuan yang ingin Anda gunakan.

  • Data dalam eksperimen ini hanya dapat digunakan untuk operasi eksperimental di DataWorks. Semua data adalah data tiruan manual dan hanya dapat dibaca di Data Integration.

  • Data uji dalam sumber data HttpFile dan ApsaraDB RDS for MySQL yang ingin Anda tambahkan pada langkah ini disimpan di Internet. Pastikan Gateway NAT Internet dikonfigurasi untuk grup sumber daya DataWorks Anda sesuai dengan Langkah 2. Jika tidak, kesalahan berikut dilaporkan saat Anda menguji konektivitas:

    • HttpFile: ErrorMessage:[Connect to dataworks-workshop-2024.oss-cn-shanghai.aliyuncs.com:443 [dataworks-workshop-2024.oss-cn-shanghai.aliyuncs.com/106.14.XX.XX] failed: connect timed out]

    • MySQL: ErrorMessage:[Exception:Communications link failure The last packet sent successfully to the server was 0 milliseconds ago. The driver has not received any packets from the server.<br><br>ExtraInfo:Resource Group IP:****,detail version info:mysql_all],Root Cause:[connect timed out]

Tambahkan sumber data ApsaraDB RDS for MySQL bernama user_behavior_analysis_mysql

Tambahkan sumber data ApsaraDB RDS for MySQL ke ruang kerja Anda. Kemudian, uji apakah koneksi jaringan telah dibuat antara sumber data dan grup sumber daya yang ingin Anda gunakan untuk sinkronisasi data. Sumber data ApsaraDB RDS for MySQL digunakan untuk membaca informasi pengguna dasar yang disimpan di ApsaraDB RDS for MySQL dan dapat diakses dari DataWorks.

  1. Pergi ke halaman Sumber Data.

    1. Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi sisi kiri, pilih More > Management Center. Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Management Center.

    2. Di panel navigasi sisi kiri halaman SettingCenter, klik Data Sources.

  2. Tambahkan sumber data ApsaraDB RDS for MySQL.

    1. Di halaman Data Sources, klik Add Data Source.

    2. Di kotak dialog Tambah Sumber Data, klik MySQL.

    3. Di halaman Add MySQL Data Source, konfigurasikan parameter. Tabel berikut menjelaskan parameter.

      image

      Parameter

      Deskripsi

      Nama Sumber Data

      Nama sumber data. Masukkan user_behavior_analysis_mysql.

      Deskripsi Sumber Data

      Deskripsi sumber data. Sumber data ini disediakan secara eksklusif untuk kasus penggunaan DataWorks dandigunakan sebagai sumber tugas sinkronisasi batch untuk mengakses data uji yang disediakan. Sumber data ini hanya untuk pembacaan data dalam skenario sinkronisasi data.

      Mode Konfigurasi

      Atur parameter ini ke Mode String Koneksi.

      Lingkungan

      Pilih Pengembangan dan Produksi.

      Catatan

      Anda harus menambahkan sumber data di lingkungan pengembangan dan sumber data di lingkungan produksi. Jika tidak, kesalahan akan dilaporkan saat tugas terkait dijalankan untuk menghasilkan data.

      Alamat Koneksi

      Alamat IP Host

      rm-bp1z69dodhh85z9qa.mysql.rds.aliyuncs.com

      Nomor Port

      3306

      Nama Database

      workshop

      Nama Pengguna

      workshop

      Kata Sandi

      workshop#2017

      Metode Otentikasi

      Atur parameter ini ke Tanpa Otentikasi.

      Konfigurasi Koneksi

      Di bagian Konfigurasi Koneksi, temukan grup sumber daya serverless yang Anda beli dan klik Test Network Connectivity di kolom Connection Status. Anda perlu menguji koneksi jaringan antara grup sumber daya dan sumber data di lingkungan pengembangan dan produksi secara terpisah. Setelah sistem mengembalikan pesan yang menunjukkan bahwa pengujian berhasil, status konektivitas berubah menjadi Connected.

      Penting

      Data uji dalam sumber data ApsaraDB RDS for MySQL yang ingin Anda tambahkan pada langkah ini disimpan di Internet. Pastikan Gateway NAT Internet dikonfigurasi untuk grup sumber daya DataWorks Anda sesuai dengan Langkah 2. Jika tidak, kesalahan berikut dilaporkan saat Anda menguji konektivitas: ErrorMessage:[Exception:Communications link failure The last packet sent successfully to the server was 0 milliseconds ago. The driver has not received any packets from the server.<br><br>ExtraInfo:Resource Group IP:****,detail version info:mysql_all],Root Cause:[connect timed out].

Tambahkan sumber data HttpFile bernama user_behavior_analysis_httpfile

Tambahkan sumber data HttpFile ke ruang kerja Anda. Kemudian, uji apakah koneksi jaringan telah dibuat antara sumber data dan grup sumber daya yang ingin Anda gunakan untuk sinkronisasi data. Sumber data HttpFile digunakan untuk membaca data uji akses situs web pengguna yang disimpan di OSS dan dapat diakses dari DataWorks.

  1. Pergi ke halaman Sumber Data.

    1. Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi sisi kiri, pilih More > Management Center. Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Management Center.

    2. Di panel navigasi sisi kiri halaman SettingCenter, klik Data Sources.

  2. Tambahkan sumber data HttpFile.

    1. Di halaman Data Sources, klik Add Data Source.

    2. Di kotak dialog Add Data Source, klik HttpFile.

    3. Di halaman Add HttpFile Data Source, konfigurasikan parameter. Tabel berikut menjelaskan parameter.

      Parameter

      Deskripsi

      Nama Sumber Data

      Nama sumber data. Ini adalah pengenal sumber data di ruang kerja Anda. Dalam contoh ini, parameter diatur ke user_behavior_analysis_httpfile.

      Deskripsi Sumber Data

      Deskripsi sumber data. Sumber data ini disediakan secara eksklusif untuk kasus penggunaan DataWorks dan digunakan sebagai sumber tugas sinkronisasi batch untuk mengakses data uji yang disediakan. Sumber data ini hanya untuk pembacaan data dalam skenario sinkronisasi data.

      Lingkungan

      Pilih Lingkungan Pengembangan dan Lingkungan Produksi.

      Catatan

      Anda harus menambahkan sumber data di lingkungan pengembangan dan sumber data di lingkungan produksi. Jika tidak, kesalahan akan dilaporkan saat tugas terkait dijalankan untuk menghasilkan data.

      Domain URL

      URL Bucket OSS. Masukkan https://dataworks-workshop-2024.oss-cn-shanghai.aliyuncs.com.

      Konfigurasi Koneksi

      Di bagian Konfigurasi Koneksi, temukan grup sumber daya serverless yang Anda beli dan klik Test Network Connectivity di kolom Connection Status. Anda perlu menguji koneksi jaringan antara grup sumber daya dan sumber data di lingkungan pengembangan dan produksi secara terpisah. Setelah sistem mengembalikan pesan yang menunjukkan bahwa pengujian berhasil, status konektivitas berubah menjadi Connected.

      Penting

      Data uji dalam sumber data HttpFile yang ingin Anda tambahkan pada langkah ini disimpan di Internet. Pastikan Gateway NAT Internet dikonfigurasi untuk grup sumber daya DataWorks Anda sesuai dengan Langkah 2. Jika tidak, kesalahan berikut dilaporkan saat Anda menguji konektivitas: ErrorMessage:[Connect to dataworks-workshop-2024.oss-cn-shanghai.aliyuncs.com:443 [dataworks-workshop-2024.oss-cn-shanghai.aliyuncs.com/106.14.XX.XX] failed: connect timed out].

Konfigurasikan tugas sinkronisasi batch untuk menyinkronkan informasi pengguna dasar

Dalam contoh ini, tugas sinkronisasi batch digunakan untuk menyinkronkan informasi pengguna dasar dari tabel MySQL ods_user_info_d ke tabel MaxCompute ods_user_info_d_odps.

  1. Klik dua kali node sinkronisasi batch ods_user_info_d_odps untuk masuk ke tab konfigurasi node.

  2. Konfigurasikan koneksi jaringan dan grup sumber daya.

    Setelah mengonfigurasi source, resource group, dan destination, klik Next dan selesaikan pengujian konektivitas sesuai petunjuk. Tabel berikut menjelaskan konfigurasi.

    image

    Parameter

    Deskripsi

    Source

    • Atur parameter ke MySQL.

    • Atur parameter Data Source Name ke user_behavior_analysis_mysql.

    Resource Group

    Pilih grup sumber daya serverless yang Anda beli di fase persiapan lingkungan.

    Destination

    • Atur parameter ke MaxCompute.

    • Atur parameter Data Source Name ke user_behavior_analysis_mysql.

  3. Konfigurasikan tugas berdasarkan node sinkronisasi batch.

    • Konfigurasikan sumber dan tujuan.

      Item

      Parameter

      Deskripsi

      Ilustrasi

      Source

      Table

      Pilih tabel MySQL ods_user_info_d.

      image

      Split key

      Kunci pemisah untuk data yang akan dibaca. Kami sarankan Anda menggunakan kunci utama atau kolom terindeks sebagai kunci pemisah. Hanya bidang bertipe INTEGER yang didukung.

      Dalam contoh ini, bidang uid digunakan sebagai kunci pemisah.

      Destination

      Tunnel Resource Group

      Dalam tutorial ini, Common transmission resources dipilih secara default. Jika kuota Tunnel eksklusif ada, Anda dapat memilih kuota Tunnel eksklusif dari daftar drop-down.

      Catatan

      Untuk informasi lebih lanjut tentang sumber daya transmisi data MaxCompute, lihat Beli dan gunakan grup sumber daya eksklusif untuk layanan transmisi data. Jika kuota Tunnel eksklusif tidak tersedia karena pembayaran terlambat atau kedaluwarsa, tugas yang sedang berjalan secara otomatis beralih dari kuota Tunnel eksklusif ke kuota Tunnel gratis.

      image

      schema

      Dalam tutorial ini, default dipilih. Jika Anda memiliki skema lain di proyek MaxCompute Anda, Anda dapat memilih skema dari daftar drop-down.

      Table

      Pilih tabel ods_user_info_d_odps yang dibuat dalam kueri ad-hoc dari daftar drop-down.

      Partition Information

      Dalam tutorial ini, atur nilainya ke ${bizdate}.

      Write Mode

      • Pilih Bersihkan data yang ada sebelum menulis (Insert Overwrite) dari daftar drop-down.

      • Nilai yang valid:

        • Insert Into: menyisipkan data ke dalam tabel atau partisi statis tabel.

        • Insert Overwrite: membersihkan tabel tertentu dan menyisipkan data ke dalam tabel atau partisi statis tabel.

      Write by Converting Empty Strings into Null

      Dalam tutorial ini, pilih No.

    • Konfigurasikan pemetaan bidang dan pengaturan umum.

      DataWorks memungkinkan Anda mengonfigurasi pemetaan antara bidang sumber dan bidang tujuan untuk membaca data dari bidang sumber tertentu dan menulis data ke bidang tujuan. Di bagian Kontrol Saluran, Anda juga dapat menggunakan fitur seperti paralelisme pembacaan dan penulisan data, laju transmisi maksimum yang dapat mencegah sinkronisasi data memengaruhi kinerja database, dan kebijakan untuk catatan data kotor dan eksekusi terdistribusi. Dalam tutorial ini, pengaturan default digunakan. Untuk informasi tentang item konfigurasi lainnya untuk tugas sinkronisasi, lihat Konfigurasikan tugas sinkronisasi batch menggunakan antarmuka tanpa kode.

  4. Konfigurasikan properti penjadwalan.

    Di tab konfigurasi node, klik Properti di panel navigasi sisi kanan. Di tab Properties, konfigurasikan properti penjadwalan dan informasi dasar untuk node. Untuk informasi lebih lanjut, lihat Properti penjadwalan node. Tabel berikut menjelaskan konfigurasi.

    Bagian

    Deskripsi

    Ilustrasi

    Scheduling Parameter

    Pertahankan nilai default $bizdate untuk Parameter Penjadwalan.

    Catatan

    Masukkan bizdate untuk Nama Parameter dan $bizdate untuk Nilai Parameter, yang digunakan untuk menanyakan tanggal hari sebelumnya. Tanggal dalam format yyyymmdd.

    image

    Schedule

    • Scheduling Cycle: Atur nilainya ke Hari.

    • Scheduled time: Atur nilainya ke 00:30.

    • Rerun: Atur nilainya ke Izinkan Terlepas dari Status Berjalan.

    Gunakan nilai default untuk parameter lainnya.

    Catatan

    Waktu ketika node saat ini dijadwalkan untuk berjalan setiap hari ditentukan oleh waktu penjadwalan node beban nol workshop_start alur kerja. Node saat ini dijadwalkan untuk berjalan setelah pukul 00:30 setiap hari.

    image

    Resource Group

    Pilih grup sumber daya serverless yang Anda beli di fase persiapan lingkungan.

    image

    Dependencies

    • Tentukan ancestor nodes of the current node: Tentukan apakah akan menampilkan node workshop_start di Node Induk untuk node saat ini. Node yang Anda tentukan sebagai node leluhur dari node saat ini dengan menggambar garis ditampilkan. Jika node workshop_start tidak ditampilkan, periksa apakah desain alur kerja dalam fase sinkronisasi data bisnis telah selesai dengan merujuk ke 2. Desain alur kerja.

      Dalam contoh ini, ketika waktu penjadwalan node workshop_start tiba dan node selesai berjalan, node saat ini dipicu untuk berjalan.

    • Tentukan output of the current node: Tentukan apakah output dengan nama dalam format nama Proyek MaxCompute di lingkungan produksi.ods_user_info_d_odps untuk node saat ini ada. Jika output node tidak ada, Anda harus menambahkan output node secara manual dengan output name yang ditentukan.

    Catatan
    • Di DataWorks, output node digunakan untuk mengonfigurasi dependensi penjadwalan antara node dan node turunannya. Jika node SQL bergantung pada node sinkronisasi, ketika node SQL mulai memproses tabel output node sinkronisasi, DataWorks menggunakan fitur penguraian otomatis untuk dengan cepat mengonfigurasi node sinkronisasi sebagai node leluhur dari node SQL berdasarkan garis keturunan tabel. Anda perlu memastikan apakah node output yang memiliki nama sama dengan tabel output node dalam format Nama Proyek MaxCompute di lingkungan produksi.ods_user_info_d_odps ada.

    image

Konfigurasikan tugas sinkronisasi batch untuk menyinkronkan log akses situs web pengguna

Dalam contoh ini, tugas sinkronisasi batch digunakan untuk menyinkronkan log akses situs web pengguna dari file user_log.txt dalam sumber data HttpFile publik ke tabel MaxCompute ods_raw_log_d_odps.

  1. Klik dua kali node sinkronisasi batch ods_raw_log_d_odps untuk masuk ke tab konfigurasi node.

  2. Konfigurasikan koneksi jaringan dan grup sumber daya.

    Setelah mengonfigurasi source, resource group, dan destination, klik Next dan selesaikan pengujian konektivitas sesuai petunjuk. Tabel berikut menjelaskan konfigurasi.

    image

    Parameter

    Deskripsi

    Source

    • Atur parameter ke HttpFile.

    • Atur parameter Data Source Name ke user_behavior_analysis_HttpFile.

    Resource Group

    Pilih grup sumber daya serverless yang Anda beli di fase persiapan lingkungan.

    Destination

    • Atur parameter ke MaxCompute.

    • Atur parameter Data Source Name ke user_behavior_analysis_mysql.

  3. Konfigurasikan tugas.

    • Konfigurasikan sumber dan tujuan.

      Item

      Parameter

      Deskripsi

      Ilustrasi

      Source

      File Path

      Dalam tutorial ini, atur nilainya ke /user_log.txt.

      image

      File Type

      Pilih text dari daftar drop-down.

      Column Delimiter

      Atur nilainya ke |.

      Advanced configuration

      Coding

      Pilih format pengkodean UTF-8 dari daftar drop-down.

      image

      Compression format

      Pilih format UTF-8 dari daftar drop-down.

      Skip Header

      Pilih Tidak dari daftar drop-down. Header tidak dilewati.

      Destination

      Tunnel Resource Group

      Dalam tutorial ini, Common transmission resources dipilih secara default. Jika kuota Tunnel eksklusif ada, Anda dapat memilih kuota Tunnel eksklusif dari daftar drop-down.

      Catatan

      Untuk informasi lebih lanjut tentang sumber daya transmisi data MaxCompute, lihat Beli dan gunakan grup sumber daya eksklusif untuk layanan transmisi data. Jika kuota Tunnel eksklusif tidak tersedia karena pembayaran terlambat atau kedaluwarsa, tugas yang sedang berjalan secara otomatis beralih dari kuota Tunnel eksklusif ke kuota Tunnel gratis.

      image

      schema

      Dalam tutorial ini, default dipilih. Jika Anda memiliki skema lain di ruang kerja DataWorks Anda, Anda dapat memilih skema dari daftar drop-down.

      Table

      Pilih tabel ods_raw_log_d_odps yang dibuat dalam kueri ad-hoc dari daftar drop-down.

      Partition information

      Dalam tutorial ini, atur nilainya ke ${bizdate}.

      Write Mode

      • Pilih Bersihkan data yang ada sebelum menulis (Insert Overwrite) dari daftar drop-down.

      • Nilai yang valid:

        • Insert Into: menyisipkan data ke dalam tabel atau partisi statis tabel.

        • Insert Overwrite: membersihkan tabel tertentu dan menyisipkan data ke dalam tabel atau partisi statis tabel.

      Write by Converting Empty Strings into Null

      Dalam tutorial ini, pilih No.

      Setelah mengonfigurasi sumber data, klik Confirm Data Structure untuk memeriksa apakah file log dapat dibaca.

    • Konfigurasikan pemetaan bidang dan pengaturan umum.

      DataWorks memungkinkan Anda mengonfigurasi pemetaan antara bidang sumber dan bidang tujuan untuk membaca data dari bidang sumber tertentu dan menulis data ke bidang tujuan. Di bagian Kontrol Saluran, Anda juga dapat menggunakan fitur seperti paralelisme pembacaan dan penulisan data, laju transmisi maksimum yang dapat mencegah sinkronisasi data memengaruhi kinerja database, dan kebijakan untuk catatan data kotor dan eksekusi terdistribusi. Dalam tutorial ini, pengaturan default digunakan. Untuk informasi tentang item konfigurasi lainnya untuk tugas sinkronisasi, lihat Konfigurasikan tugas sinkronisasi batch menggunakan antarmuka tanpa kode.

  4. Konfigurasikan properti penjadwalan.

    Di tab konfigurasi node, klik Properti di panel navigasi sisi kanan. Di tab Properties, konfigurasikan properti penjadwalan dan informasi dasar untuk node. Untuk informasi lebih lanjut, lihat Properti penjadwalan node. Tabel berikut menjelaskan konfigurasi.

    Parameter

    Deskripsi

    Ilustrasi

    Scheduling Parameter

    Pertahankan nilai default $bizdate untuk Parameter Penjadwalan.

    Catatan

    Masukkan bizdate untuk Nama Parameter dan $bizdate untuk Nilai Parameter, yang digunakan untuk menanyakan tanggal hari sebelumnya. Tanggal dalam format yyyymmdd.

    image

    Schedule

    • Scheduling Cycle: Atur nilainya ke Hari.

    • Scheduled time: Atur nilainya ke 00:30.

    • Rerun: Atur nilainya ke Izinkan Terlepas dari Status Berjalan.

    Gunakan nilai default untuk parameter lainnya.

    Catatan

    Waktu ketika node saat ini dijadwalkan untuk berjalan setiap hari ditentukan oleh waktu penjadwalan node beban nol workshop_start alur kerja. Node saat ini dijadwalkan untuk berjalan setelah pukul 00:30 setiap hari.

    image

    Resource Group

    Pilih grup sumber daya serverless yang Anda beli di fase persiapan lingkungan.

    image

    Dependencies

    • Tentukan ancestor nodes of the current node: Tentukan apakah akan menampilkan node workshop_start di Node Induk untuk node saat ini. Node yang Anda tentukan sebagai node leluhur dari node saat ini dengan menggambar garis ditampilkan. Jika node workshop_start tidak ditampilkan, periksa apakah desain alur kerja dalam fase sinkronisasi data bisnis telah selesai dengan merujuk ke 2. Desain alur kerja.

      Dalam contoh ini, ketika waktu penjadwalan node workshop_start tiba dan node selesai berjalan, node saat ini dipicu untuk berjalan.

    • Tentukan output of the current node: Tentukan apakah ada output untuk node saat ini dengan nama dalam format Nama Proyek MaxCompute di lingkungan produksi.ods_raw_log_d_odps. Jika output node tidak ada, Anda harus menambahkan output node secara manual dengan output name yang ditentukan.

    Catatan

    Di DataWorks, output node digunakan untuk mengonfigurasi dependensi penjadwalan antara node dan node turunannya. Jika node SQL bergantung pada node sinkronisasi, ketika node SQL mulai memproses tabel output node sinkronisasi, DataWorks menggunakan fitur penguraian otomatis untuk dengan cepat mengonfigurasi node sinkronisasi sebagai node leluhur dari node SQL berdasarkan garis keturunan tabel. Anda perlu memastikan apakah node output yang memiliki nama sama dengan tabel output node dalam format Nama Proyek MaxCompute di lingkungan produksi.ods_raw_log_d_odps ada.

    image

Langkah 8: Jalankan alur kerja dan lihat hasilnya

Jalankan alur kerja

  1. Di halaman DataStudio, klik dua kali alur kerja Analisis Profil Pengguna_MaxCompute di bawah Business Flow. Di tab konfigurasi alur kerja, klik ikon image.png di bilah alat atas untuk menjalankan node dalam alur kerja berdasarkan dependensi penjadwalan antar node.

  2. Konfirmasi status.

    • Lihat status node: Jika sebuah node berada dalam keadaan image.png, proses sinkronisasi normal.

    • Lihat log pelaksanaan node: Misalnya, klik kanan node ods_user_info_d_odps atau ods_raw_log_d_odps dan pilih Lihat Log. Jika informasi yang ditunjukkan dalam gambar berikut muncul di log, node dijalankan dan data disinkronkan.

      image

Lihat hasil sinkronisasi

Jika node dalam alur kerja dijalankan sesuai harapan, semua informasi pengguna dasar dalam tabel ApsaraDB RDS for MySQL ods_user_info_d disinkronkan ke partisi hari sebelumnya di tabel output workshop2024_01_dev.ods_user_info_d_odps, dan semua log akses situs web pengguna dalam objek OSS user_log.txt disinkronkan ke partisi hari sebelumnya di tabel output workshop2024_01_dev.ods_raw_log_d_odps. Anda tidak perlu menerapkan pernyataan SQL kueri ke lingkungan produksi untuk eksekusi. Oleh karena itu, Anda dapat menanyakan hasil sinkronisasi dengan membuat kueri ad hoc.

  1. Buat kueri ad hoc.

    Di panel navigasi sisi kiri halaman DataStudio, klik ikon image.png. Di panel Kueri Ad Hoc, klik kanan Kueri Ad Hoc dan pilih Create Node > ODPS SQL.

  2. Kueri tabel hasil sinkronisasi.

    Eksekusi pernyataan SQL berikut untuk mengonfirmasi hasil penulisan data. Lihat jumlah rekaman yang diimpor ke tabel ods_raw_log_d_odps dan ods_user_info_d_odps.

    // Anda harus menentukan cap waktu data dari data yang Anda operasikan sebagai kondisi filter untuk partisi. Misalnya, jika sebuah node dijadwalkan untuk berjalan pada 21 Juni 2023, cap waktu data node tersebut adalah 20230620, yaitu satu hari lebih awal dari tanggal pelaksanaan node.
    select count(*) from ods_user_info_d_odps  where dt='Cap waktu data'; 
    select count(*) from ods_raw_log_d_odps where dt='Cap waktu data';

    image

    Catatan

    Dalam tutorial ini, node dijalankan di DataStudio, yang merupakan lingkungan pengembangan. Oleh karena itu, data ditulis ke tabel yang ditentukan di proyek MaxCompute workshop2024_01_dev yang terkait dengan ruang kerja di lingkungan pengembangan secara default.

Apa yang harus dilakukan selanjutnya

Sinkronisasi data selesai. Anda dapat melanjutkan ke tutorial berikutnya. Di tutorial berikutnya, Anda akan mempelajari cara memproses informasi pengguna dasar dan log akses situs web pengguna di MaxCompute. Untuk informasi lebih lanjut, lihat Proses data.