全部产品
Search
文档中心

DataWorks:Sinkronisasi data

更新时间:Feb 09, 2026

Tutorial ini menggunakan dua sumber data sebagai contoh: tabel ods_user_info_d di MySQL, yang berisi informasi dasar pengguna, dan file user_log.txt di OSS, yang berisi data log akses website. Anda akan menggunakan task sinkronisasi batch Data Integration untuk menyinkronkan data dari sumber-sumber tersebut ke tabel ods_user_info_d dan ods_raw_log_d di MaxCompute. Tutorial ini menjelaskan cara menggunakan Data Integration DataWorks untuk menyinkronkan data antar sumber data heterogen guna membangun gudang data.

Prasyarat

Pastikan Anda telah menyiapkan lingkungan operasi yang diperlukan. Untuk informasi selengkapnya, lihat Siapkan lingkungan.

1. Buat sumber data

Untuk memastikan data dapat diproses pada langkah-langkah berikutnya, Anda harus menambahkan sumber data berikut ke ruang kerja DataWorks Anda guna mengambil data mentah.

  • Sumber data MySQL: Tutorial ini menggunakan sumber data bernama user_behavior_analysis_mysql untuk mengambil informasi dasar pengguna (ods_user_info_d) dari MySQL.

  • Sumber data HttpFile: Dalam tutorial ini, sumber data diberi nama user_behavior_analysis_httpfile dan digunakan untuk mengambil log akses website pengguna (user_log.txt) yang disimpan di OSS.

Catatan

Jika Anda telah membuat sumber data MySQL dan HttpFile untuk tutorial analisis persona pengguna lainnya, Anda dapat melewati langkah ini.

Buat sumber data MySQL (user_behavior_analysis_mysql)

Informasi dasar pengguna untuk tutorial ini disimpan dalam database MySQL. Anda harus membuat sumber data MySQL untuk menyinkronkan informasi pengguna (ods_user_info_d) dari database ke MaxCompute.

  1. Buka halaman Sumber Data.

    1. Login ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi kiri, pilih More > Management Center. Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down lalu klik Go to Management Center.

    2. Di panel navigasi kiri, klik Data Sources untuk membuka halaman Sumber Data.

  2. Klik Add Data Source. Cari dan pilih MySQL sebagai tipe sumber data.

  3. Pada halaman Add MySQL Data Source, konfigurasikan parameter berikut. Untuk tutorial ini, gunakan nilai contoh yang sama untuk lingkungan pengembangan maupun produksi.

    Tabel berikut menjelaskan parameter utama. Anda dapat mempertahankan nilai default untuk parameter lainnya.

    Parameter

    Deskripsi

    Data Source Name

    Masukkan nama untuk sumber data. Untuk tutorial ini, masukkan user_behavior_analysis_mysql.

    Data Source Description

    Sumber data ini digunakan untuk tutorial DataWorks. Baca data dari sumber data ini saat Anda mengonfigurasi task sinkronisasi batch untuk mengakses data uji yang disediakan oleh platform. Sumber data ini hanya dapat dibaca dalam skenario Data Integration. Modul lain tidak dapat menggunakannya.

    Configuration Mode

    Pilih Connection String Mode.

    Connection Address

    • Alamat IP host: rm-bp1z69dodhh85z9qa.mysql.rds.aliyuncs.com

    • Port: 3306

    Database Name

    Masukkan nama database. Untuk tutorial ini, masukkan workshop.

    Username

    Masukkan username. Untuk tutorial ini, masukkan workshop.

    Password

    Masukkan password. Untuk tutorial ini, masukkan workshop#2017.

    Authentication Method

    Tidak ada autentikasi.

  4. Pada bagian Connection Configuration, klik Test Network Connectivity untuk lingkungan produksi maupun pengembangan. Pastikan status konektivitasnya adalah Connected.

    Penting
    • Pastikan kelompok sumber daya telah disambungkan ke ruang kerja dan akses jaringan publik telah diaktifkan. Jika tidak, sinkronisasi data akan gagal. Untuk informasi selengkapnya, lihat Siapkan lingkungan.

    • Jika Anda tidak memiliki kelompok sumber daya yang tersedia, ikuti petunjuk di bagian konfigurasi koneksi. Klik Purchase dan Associated Purchased Resource Group.

  5. Klik Complete Creation.

Buat sumber data HttpFile (user_behavior_analysis_httpfile)

Log akses website pengguna untuk tutorial ini disimpan di OSS. Anda harus membuat sumber data HttpFile untuk menyinkronkan log akses website pengguna (user_log.txt) dari OSS ke MaxCompute.

  1. Klik Data Sources di panel navigasi kiri.

  2. Klik Add Data Source. Pada kotak dialog Add Data Source, cari dan pilih HttpFile sebagai tipe sumber data.

  3. Pada halaman Add HttpFile Data Source, konfigurasikan parameter berikut. Untuk tutorial ini, gunakan nilai contoh yang sama untuk lingkungan pengembangan maupun produksi.

    Tabel berikut menjelaskan parameter utama. Anda dapat mempertahankan nilai default untuk parameter lainnya.

    Parameter

    Deskripsi

    Data Source Name

    Masukkan nama sumber data. Untuk tutorial ini, masukkan user_behavior_analysis_httpfile.

    Data Source Description

    Sumber data ini digunakan untuk tutorial DataWorks. Baca data dari sumber data ini saat Anda mengonfigurasi task sinkronisasi batch untuk mengakses data uji yang disediakan oleh platform. Sumber data ini hanya dapat dibaca dalam skenario Data Integration. Modul lain tidak dapat menggunakannya.

    URL

    Atur URL menjadi https://dataworks-workshop-2024.oss-cn-shanghai.aliyuncs.com untuk lingkungan pengembangan maupun produksi.

  4. Pada bagian Connection Configuration, klik Test Network Connectivity untuk lingkungan produksi maupun pengembangan. Pastikan status konektivitasnya adalah Connected.

    Penting
    • Pastikan kelompok sumber daya telah disambungkan ke ruang kerja dan akses jaringan publik telah diaktifkan. Jika tidak, sinkronisasi data akan gagal. Untuk informasi selengkapnya, lihat Siapkan lingkungan.

    • Jika Anda tidak memiliki kelompok sumber daya yang tersedia, ikuti petunjuk di bagian konfigurasi koneksi. Klik Purchase dan Associated Purchased Resource Group.

  5. Klik Complete Creation.

2. Bangun pipeline sinkronisasi

Pada langkah ini, Anda akan membangun pipeline sinkronisasi untuk menyinkronkan informasi pengguna dan log akses website ke tabel MaxCompute masing-masing, sehingga data siap untuk pemrosesan lebih lanjut.

  1. Klik ikon icon di pojok kiri atas dan pilih All Products > Data Development And Task Operation > DataStudio. Lalu, di bagian atas halaman, alihkan ke ruang kerja yang dibuat untuk tutorial ini.

  2. Di panel navigasi kiri, klik image untuk membuka halaman Pengembangan Data. Kemudian, di area Workspace Directories, klik image, pilih Create Workflow, dan masukkan nama workflow. Untuk tutorial ini, nama diatur menjadi user_profile_analysis.

  3. Pada halaman orkestrasi workflow, klik Create Node, seret satu node Zero Load Node dan dua node Batch Synchronization dari panel kiri ke kanvas, lalu beri nama node-node tersebut.

    image

    Tabel berikut menunjukkan contoh nama node dan fungsinya dalam tutorial ini.

    Tipe Node

    Nama Node

    Fungsi Node

    image Zero Load Node

    workshop_start

    Mengelola seluruh workflow analisis persona pengguna dan memperjelas jalur penerusan data. Node ini merupakan node Dry-run dan tidak memerlukan pengeditan kode.

    image Batch Synchronization

    ods_user_info_d

    Menyinkronkan informasi dasar pengguna dari MySQL ke tabel ods_user_info_d di MaxCompute.

    image Batch Synchronization

    ods_raw_log_d

    Menyinkronkan catatan akses website pengguna dari OSS ke tabel ods_raw_log_d di MaxCompute.

  4. Seret koneksi untuk mengatur node workshop_start sebagai node leluhur dari dua node sinkronisasi batch, seperti yang ditunjukkan pada gambar berikut.

    image
  5. Konfigurasikan properti penjadwalan workflow.

    Pada kanvas workflow, klik Scheduling di panel kanan dan konfigurasikan parameter berikut. Tabel berikut menjelaskan parameter utama. Anda dapat mempertahankan nilai default untuk parameter lainnya.

    Parameter Penjadwalan

    Deskripsi

    Scheduling Parameters

    Anda dapat mengonfigurasi parameter penjadwalan untuk seluruh workflow. Node internal workflow dapat langsung menggunakan parameter penjadwalan yang dikonfigurasi. Dalam tutorial ini, parameter diatur menjadi bizdate=$[yyyymmdd-1] untuk mendapatkan tanggal hari sebelumnya.

    Scheduling Cycle

    Diatur ke Day untuk tutorial ini.

    Scheduling Time

    Dalam tutorial ini, Scheduling Time diatur ke 00:30, yang berarti workflow akan dimulai setiap hari pada pukul 00:30.

    Scheduling Dependencies

    Workflow ini tidak memiliki dependensi hulu, sehingga Anda tidak perlu mengonfigurasi apa pun. Untuk mempermudah manajemen, klik Use Workspace Root Node untuk menyambungkan workflow ke node root ruang kerja.

    Format penamaan untuk node root ruang kerja adalah workspace_name_root.

3. Konfigurasikan task sinkronisasi

Konfigurasikan node awal

  1. Pada halaman orkestrasi workflow, arahkan kursor ke node workshop_start dan klik Open Node.

  2. Di panel kanan halaman konfigurasi node workshop_start, klik Scheduling dan konfigurasikan parameter yang diperlukan. Tabel berikut menjelaskan parameter utama. Anda dapat mempertahankan nilai default untuk parameter lainnya.

    Parameter Penjadwalan

    Deskripsi

    Scheduling Type

    Tutorial ini menggunakan dry-run scheduling.

    Resource Group

    Untuk tutorial ini, pilih kelompok sumber daya Serverless yang dibuat pada langkah Siapkan lingkungan.

    Scheduling Dependencies

    Karena workshop_start adalah node awal dan tidak memiliki dependensi hulu, Anda dapat mengklik Use Workspace Root Node untuk memicu eksekusi workflow dari node root ruang kerja.

    Node root ruang kerja diberi nama workspace_name_root.

Konfigurasikan pipeline sinkronisasi data pengguna (ods_user_info_d)

  1. Pada halaman orkestrasi workflow, arahkan kursor ke node ods_user_info_d dan klik Open Node.

  2. Konfigurasikan jaringan dan sumber daya untuk pipeline sinkronisasi.

    Parameter

    Description

    Source

    • Data source: MySQL.

    • Data source name: user_behavior_analysis_mysql.

    Resource Group

    Pilih kelompok sumber daya Serverless yang telah Anda beli pada langkah Prepare the environment.

    Destination

    • Data Destination: MaxCompute(ODPS).

    • Data Source Name: Pilih resource komputasi MaxCompute yang telah Anda sambungkan pada langkah Prepare the environment. Contohnya, MaxCompute_Source.

  3. Klik Next untuk mengonfigurasi task sinkronisasi.

    1. Configure Source and Destination

      Tabel berikut menjelaskan parameter utama. Anda dapat mempertahankan nilai default untuk parameter lainnya.

      Modul

      Item Konfigurasi

      Deskripsi

      Data source

      Table

      Pilih ods_user_info_d.

      Split key

      Kunci shard diatur ke bidang uid. Bidang `uid` adalah kunci primary dari tabel ods_user_info_d di MySQL.

      Destination

      Tunnel Resource Group

      Tutorial ini menggunakan Common transmission resources secara default. Jika Anda memiliki Kuota Tunnel eksklusif, Anda dapat memilihnya dari daftar drop-down. Untuk informasi selengkapnya tentang Kuota Tunnel eksklusif, lihat Beli dan gunakan kelompok sumber daya eksklusif untuk Data Transmission Service.

      Table

      Klik Generate Destination Table Schema untuk membuat tabel MaxCompute secara cepat. Tempel pernyataan DDL berikut ke bagian Statement for Creating Table lalu klik Create Table. Tabel ini menerima data pengguna dari sumber.

      CREATE TABLE IF NOT EXISTS ods_user_info_d (
       uid STRING COMMENT 'User ID',
       gender STRING COMMENT 'Gender',
       age_range STRING COMMENT 'Age range',
       zodiac STRING COMMENT 'Zodiac sign'
      )
      PARTITIONED BY (
       dt STRING
      )
      LIFECYCLE 7;

      Partition information

      Untuk tutorial ini, masukkan ${bizdate}. Ini memungkinkan Anda menetapkan nilai konstan untuk parameter bizdate selama fase pengujian, dan menetapkan nilai secara dinamis untuk parameter bizdate selama eksekusi terjadwal. Untuk informasi tentang format variabel dan metode konfigurasi yang didukung oleh DataStudio, lihat Scheduling Parameters.

    2. Konfirmasi Field Mapping dan Channel Control.

      DataWorks menyinkronkan data dari bidang sumber yang ditentukan ke bidang tujuan yang ditentukan berdasarkan Pemetaan bidang yang dikonfigurasi. Anda juga dapat mengatur konkurensi dan mengonfigurasi kebijakan untuk data kotor. Untuk tutorial ini, atur Policy for Dirty Data Records ke Disallow Dirty Data Records. Biarkan nilai bawaan untuk pengaturan lainnya. Untuk informasi selengkapnya, lihat Mengonfigurasi tugas sinkronisasi menggunakan Antarmuka tanpa kode.

  4. Konfigurasikan parameter debug.

    Di panel kanan halaman konfigurasi task sinkronisasi batch, klik Run Configuration. Konfigurasikan parameter berikut untuk menguji eksekusi pada Langkah 4: Sinkronisasi data.

    Item Konfigurasi

    Deskripsi

    Resource Group

    Pilih kelompok sumber daya Serverless yang Anda beli pada langkah Siapkan lingkungan.

    Script Parameters

    Anda tidak perlu mengonfigurasi parameter ini. Dalam tutorial ini, kode contoh menggunakan ${bizdate} untuk merepresentasikan waktu data. Saat Anda melakukan debug workflow pada Langkah 4, atur Value Used in This Run ke nilai konstan tertentu, misalnya 20250223. Eksekusi pekerjaan kemudian akan menggunakan konstanta ini untuk menggantikan variabel yang didefinisikan dalam pekerjaan.

  5. (Opsional) Konfigurasikan properti penjadwalan.

    Untuk tutorial ini, Anda dapat mempertahankan nilai default untuk parameter penjadwalan. Di panel kanan halaman konfigurasi task sinkronisasi batch, klik Scheduling. Untuk informasi selengkapnya tentang parameter tersebut, lihat Konfigurasi penjadwalan node.

    • Scheduling Parameters: Parameter ini telah dikonfigurasi untuk workflow. Node internal tidak memerlukan konfigurasi terpisah dan dapat langsung menggunakan parameter tersebut dalam task atau kode.

    • Scheduling Policies: Anda dapat menggunakan parameter Time for Delayed Execution untuk menentukan durasi tunggu node anak sebelum dijalankan setelah workflow dieksekusi. Parameter ini tidak diatur dalam tutorial ini.

  6. Di bilah alat node, klik Save.

Konfigurasikan pipeline sinkronisasi log pengguna (ods_raw_log_d)

  1. Pada halaman orkestrasi workflow, arahkan kursor ke node ods_raw_log_d dan klik Open Node.

  2. Konfigurasikan jaringan dan sumber daya untuk pipeline sinkronisasi.

    Parameter

    Deskripsi

    Source

    • Sumber data: HttpFile.

    • Nama sumber data: user_behavior_analysis_HttpFile.

    Resource Group

    Pilih kelompok sumber daya Serverless yang Anda beli pada langkah Siapkan lingkungan.

    Destination

    • Tujuan Data: MaxCompute(ODPS).

    • Nama Sumber Data: Pilih sumber daya komputasi MaxCompute yang Anda sambungkan pada tahap Siapkan lingkungan. Dalam contoh ini, namanya adalah MaxCompute_Source.

  3. Klik Next untuk mengonfigurasi task sinkronisasi.

    • Configure Source and Destination

      Tabel berikut menjelaskan parameter utama. Anda dapat mempertahankan nilai default untuk parameter lainnya.

      Modul

      Item Konfigurasi

      Deskripsi

      Data source

      File path

      Untuk tutorial ini, masukkan /user_log.txt.

      Text type

      Tutorial ini menggunakan tipe text.

      Column Delimiter

      Untuk tutorial ini, masukkan |.

      Advanced configuration > Skip Header

      Untuk tutorial ini, pilih No agar header tabel tidak dilewati.

      Penting

      Setelah Anda mengonfigurasi sumber data, klik Confirm Data Structure untuk memeriksa apakah file log dapat dibaca dengan benar.

      Destination

      Tunnel Resource Group

      Tutorial ini menggunakan Common transmission resources secara default. Jika Anda memiliki Kuota Tunnel eksklusif, Anda dapat memilihnya dari daftar drop-down. Untuk informasi selengkapnya tentang Kuota Tunnel eksklusif, lihat Beli dan gunakan kelompok sumber daya eksklusif untuk Data Transmission Service.

      Table

      Klik Generate Destination Table Schema untuk membuat tabel MaxCompute secara cepat. Tempel pernyataan DDL berikut ke bagian Statement for Creating Table lalu klik Create Table.

      CREATE TABLE IF NOT EXISTS ods_raw_log_d
      (
          col STRING
      )
      PARTITIONED BY
      (
          dt STRING
      )
      LIFECYCLE 7;

      Partition information

      Untuk tutorial ini, masukkan ${bizdate}. Ini memungkinkan Anda menetapkan nilai konstan untuk parameter bizdate selama fase pengujian, dan menetapkan nilai secara dinamis untuk parameter bizdate selama eksekusi terjadwal. Untuk informasi tentang format variabel dan metode konfigurasi yang didukung oleh DataStudio, lihat Scheduling Parameters.

    • Konfirmasi Field Mapping dan Channel Control.

      DataWorks menyinkronkan data dari bidang sumber yang ditentukan ke bidang tujuan yang ditentukan berdasarkan pemetaan bidang yang dikonfigurasi. Anda juga dapat mengatur konkurensi dan mengonfigurasi kebijakan untuk data kotor. Untuk tutorial ini, atur Policy for Dirty Data Records ke Disallow Dirty Data Records. Anda dapat mempertahankan nilai default untuk pengaturan lainnya. Untuk informasi selengkapnya, lihat Konfigurasikan task sinkronisasi menggunakan Antarmuka tanpa kode.

  4. Konfigurasikan parameter debug.

    Di panel kanan halaman konfigurasi task sinkronisasi batch, klik Run Configuration. Konfigurasikan parameter berikut untuk menguji eksekusi pada Langkah 4: Sinkronisasi data.

    Item Konfigurasi

    Deskripsi

    Resource Group

    Pilih kelompok sumber daya Serverless yang Anda beli pada langkah Siapkan lingkungan.

    Script Parameters

    Anda tidak perlu mengonfigurasi parameter ini. Dalam tutorial ini, kode contoh menggunakan ${bizdate} untuk merepresentasikan waktu data. Saat Anda melakukan debug workflow pada Langkah 4, atur Value Used in This Run ke nilai konstan tertentu, misalnya 20250223. Eksekusi pekerjaan kemudian akan menggunakan konstanta ini untuk menggantikan variabel yang didefinisikan dalam pekerjaan.

  5. (Opsional) Konfigurasikan properti penjadwalan.

    Untuk tutorial ini, Anda dapat mempertahankan nilai default untuk parameter penjadwalan. Di panel kanan halaman konfigurasi task sinkronisasi batch, klik Scheduling. Untuk informasi selengkapnya tentang parameter tersebut, lihat Konfigurasi penjadwalan node.

    • Scheduling Parameters: Parameter ini telah dikonfigurasi untuk workflow. Node internal tidak memerlukan konfigurasi terpisah dan dapat langsung menggunakan parameter tersebut dalam task atau kode.

    • Scheduling Policies: Anda dapat menggunakan parameter Time for Delayed Execution untuk menentukan durasi tunggu node anak sebelum dijalankan setelah workflow dieksekusi. Parameter ini tidak diatur dalam tutorial ini.

  6. Di bilah alat node, klik Save.

Langkah 4: Sinkronisasi data

  1. Sinkronkan data.

    Di bilah alat workflow, klik Run. Atur nilai untuk variabel parameter yang didefinisikan di setiap node untuk eksekusi ini. Tutorial ini menggunakan 20250223, tetapi Anda dapat mengubah nilainya sesuai kebutuhan. Lalu, klik OK dan tunggu hingga eksekusi selesai.

  2. Kueri hasil sinkronisasi data.

    1. Di panel navigasi kiri DataStudio, klik image untuk membuka halaman Pengembangan Data. Kemudian, di area folder pribadi, klik image untuk membuat file dengan ekstensi .sql. Anda dapat menentukan nama file sendiri.

    2. Di bagian bawah halaman, pastikan mode bahasa adalah MaxCompute SQL.image

    3. Di jendela pengeditan node, masukkan pernyataan SQL berikut untuk melihat jumlah catatan yang diimpor ke ods_raw_log_d dan ods_user_info_d. Hal ini memastikan apakah data yang disinkronkan telah ditulis ke tabel tujuan.

      -- Anda perlu mengubah kondisi filter partisi ke waktu data aktual untuk operasi Anda saat ini. Dalam tutorial ini, parameter debug bizdate (waktu data) diatur ke 20250223.
      SELECT count(*) FROM ods_user_info_d WHERE dt='your_data_timestamp'; 
      SELECT count(*) FROM ods_raw_log_d WHERE dt='your_data_timestamp';
      • Jika kueri mengembalikan data, sinkronisasi data telah selesai.

      • Jika tidak ada data yang dikembalikan, pastikan Value Used in This Run yang dikonfigurasi untuk eksekusi workflow cocok dengan waktu data yang ditentukan oleh dt dalam kueri. Anda dapat mengklik workflow, klik Running History di panel kanan, lalu klik View di kolom Actions untuk catatan eksekusi guna mengonfirmasi nilai waktu data (partition=[pt=xxx]) dalam log eksekusi workflow.

Langkah selanjutnya

Setelah Anda mengonfigurasi sinkronisasi data, Anda dapat melanjutkan ke tutorial berikutnya untuk mempelajari cara memproses dan menganalisis data yang telah disinkronkan. Untuk informasi selengkapnya, lihat Proses data.