全部产品
Search
文档中心

DataWorks:Sinkronisasi data

更新时间:Jul 27, 2025

Topik ini menjelaskan cara menambahkan sumber data HttpFile dan MySQL untuk mengakses informasi pengguna dasar dan log akses situs web yang disediakan dalam tutorial ini. Topik ini juga mencakup konfigurasi tugas sinkronisasi data untuk menyinkronkan data ke sumber data Object Storage Service (OSS) pribadi, serta menggunakan node Hive E-MapReduce (EMR) untuk membuat tabel dan menanyakan data yang telah disinkronkan.

Prasyarat

  • Lingkungan telah dipersiapkan. Untuk informasi lebih lanjut, lihat Persiapkan lingkungan.

  • Aturan grup keamanan telah ditambahkan di Konsol Elastic Compute Service (ECS) untuk memastikan konektivitas jaringan. Anda dapat menggunakan Port 10000 dari Instance ECS untuk terhubung ke DataWorks dan menetapkan Obyek Otorisasi ke Blok CIDR dari vSwitch yang terkait dengan kelompok sumber daya. Untuk informasi lebih lanjut, lihat Tambahkan aturan grup keamanan.

Langkah 1: Tambahkan sumber data

Anda perlu menambahkan sumber data HttpFile, MySQL, dan OSS ke ruang kerja DataWorks untuk melanjutkan operasi berikutnya.

  • Sumber data HttpFile digunakan untuk mengakses log akses situs web pengguna.

  • Sumber data MySQL digunakan untuk mengakses informasi pengguna dasar.

  • Sumber data OSS digunakan untuk menyimpan data uji yang diperoleh dari sumber data HttpFile dan MySQL.

Tambahkan sumber data HttpFile

  1. Buka halaman Sumber Data.

    1. Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi sisi kiri, pilih More > Management Center. Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Management Center.

    2. Di panel navigasi sisi kiri halaman SettingCenter, klik Data Sources.

  2. Di pojok kiri atas halaman Sumber Data, klik Add Data Source. Dalam kotak dialog Add Data Source, klik HttpFile.

  3. Di halaman Add HttpFile Data Source, konfigurasikan parameter. Dalam tutorial ini, nilai contoh digunakan dalam lingkungan pengembangan dan produksi.

    Parameter

    Deskripsi

    Data Source Name

    Nama sumber data. Dalam contoh ini, user_behavior_analysis_httpfile digunakan.

    Data Source Description

    Deskripsi sumber data. Sumber data ini secara eksklusif disediakan untuk kasus penggunaan DataWorks dan digunakan sebagai sumber tugas sinkronisasi batch untuk mengakses data uji yang disediakan. Sumber data ini hanya untuk membaca data dalam skenario sinkronisasi data.

    URL

    Masukkan https://dataworks-workshop-2024.oss-cn-shanghai.aliyuncs.com di bidang URL untuk lingkungan pengembangan dan produksi.

  4. Cari kelompok sumber daya yang diinginkan dan klik secara terpisah Test Network Connectivity di kolom Connection Status (Development Environment) dan Connection Status (Production Environment). Jika tes konektivitas jaringan berhasil, Connected akan muncul di kolom yang sesuai.

    Penting

    Pastikan setidaknya satu kelompok sumber daya adalah connectable. Jika tidak, Anda tidak dapat menggunakan antarmuka tanpa kode (UI) untuk mengonfigurasi tugas sinkronisasi data untuk sumber data tersebut.

  5. Klik Complete Creation.

Tambahkan sumber data MySQL

  1. Di panel navigasi sisi kiri halaman SettingCenter, klik Data Sources. Di pojok kiri atas halaman Sumber Data, klik Add Data Source.

  2. Dalam kotak dialog Tambahkan Sumber Data, pilih MySQL.

  3. Di halaman Add MySQL Data Source, konfigurasikan parameter. Tabel berikut menjelaskan parameter. Dalam contoh ini, nilai contoh digunakan dalam lingkungan pengembangan dan produksi.

    Parameter

    Deskripsi

    Data Source Name

    Nama sumber data. Dalam contoh ini, user_behavior_analysis_mysql digunakan.

    Data Source Description

    Deskripsi sumber data. Sumber data ini secara eksklusif disediakan untuk kasus penggunaan DataWorks dan digunakan sebagai sumber tugas sinkronisasi batch untuk mengakses data uji yang disediakan. Sumber data ini hanya untuk membaca data dalam skenario sinkronisasi data.

    Configuration Mode

    Pilih Connection String Mode.

    Connection Address

    • Alamat IP Host: Masukkan rm-bp1z69dodhh85z9qa.mysql.rds.aliyuncs.com.

    • Nomor Port: Masukkan 3306.

    Database Name

    Nama database. Dalam contoh ini, workshop digunakan.

    Username

    Nama pengguna. Dalam contoh ini, workshop digunakan.

    Password

    Kata sandi. Dalam contoh ini, workshop#2017 digunakan.

    Authentication Method

    Pilih Tanpa Otentikasi.

  4. Cari kelompok sumber daya yang diinginkan dan klik secara terpisah Test Network Connectivity di kolom Connection Status (Development Environment) dan Connection Status (Production Environment). Jika tes konektivitas jaringan berhasil, Connected akan muncul di kolom yang sesuai.

  5. Klik Complete Creation.

Tambahkan sumber data OSS

Dalam contoh ini, informasi pengguna dasar dari sumber data MySQL dan log akses situs web dari sumber data HttpFile disinkronkan ke sumber data OSS pribadi.

  1. Di panel navigasi sisi kiri halaman SettingCenter, klik Data Sources. Di pojok kiri atas halaman Sumber Data, klik Add Data Source.

  2. Dalam kotak dialog Add Data Source, pilih OSS.

  3. Di halaman Add OSS Data Source, konfigurasikan parameter. Dalam contoh ini, nilai contoh digunakan dalam lingkungan pengembangan dan produksi.

    Parameter

    Deskripsi

    Data Source Name

    Nama sumber data. Dalam contoh ini, test_g digunakan.

    Data Source Description

    Deskripsi sumber data.

    Access Mode

    Pilih AccessKey Mode.

    AccessKey ID

    ID AccessKey dari akun yang digunakan untuk masuk ke DataWorks. Anda dapat pergi ke halaman AccessKey untuk menyalin ID AccessKey.

    AccessKey Secret

    Rahasia AccessKey dari akun yang digunakan untuk masuk ke DataWorks.

    Penting

    Rahasia AccessKey hanya ditampilkan saat pembuatan. Anda tidak dapat melihat Rahasia AccessKey setelah Anda membuatnya. Simpan kerahasiaannya. Jika pasangan AccessKey bocor atau hilang, hapus pasangan AccessKey dan buat pasangan AccessKey baru.

    Endpoint

    Endpoint OSS. Dalam contoh ini, http://oss-cn-shanghai-internal.aliyuncs.com digunakan.

    Bucket

    Nama bucket OSS yang Anda buat saat Anda menyiapkan lingkungan. Dalam contoh ini, nama bucket adalah dw-emr-demo.

  4. Cari kelompok sumber daya yang diinginkan dan klik secara terpisah Test Network Connectivity di kolom Connection Status (Development Environment) dan Connection Status (Production Environment). Jika tes konektivitas jaringan berhasil, Connected akan muncul di kolom yang sesuai.

    Catatan

    Pastikan setidaknya satu kelompok sumber daya adalah connectable. Jika tidak, Anda tidak dapat menggunakan UI tanpa kode untuk mengonfigurasi tugas sinkronisasi data untuk sumber data tersebut.

  5. Klik Complete Creation.

Langkah 2: Konfigurasikan tugas sinkronisasi data

  1. Di halaman Sumber Data, klik ikon 图标 di pojok kiri atas dan pilih All Products > Data Development And Task Operation > DataStudio.

  2. Di panel Scheduled Workflow, klik kanan Business Flow dan pilih Create Workflow.

  3. Di kotak dialog Create Workflow, atur parameter Workflow Name menjadi workshop_emr dan klik Create.

  4. Klik dua kali alur kerja baru untuk membuka tab konfigurasi alur kerja dan membuat node beban nol serta dua tugas sinkronisasi batch.

    1. Klik Create Node dan seret Zero-Load Node di bagian Umum ke kanvas di sebelah kanan. Di kotak dialog Create Node, atur parameter Name menjadi workshop_start_emr dan klik Confirm.

    2. Klik Create Node dan seret Offline synchronization di bagian Integrasi Data ke kanvas di sebelah kanan. Buat dua batch synchronization nodes bernama ods_raw_log_d_2oss_emr dan ods_user_info_d_2oss_emr dengan cara yang sama. Dua node ini digunakan untuk menyinkronkan informasi pengguna dasar MySQL dan log akses situs web OSS. Lalu, klik Confirm.

  5. Di tab konfigurasi alur kerja, seret garis terarah untuk mengonfigurasi node workshop_start_emr sebagai node leluhur dari dua node sinkronisasi batch.

    image

Langkah 3: Konfigurasikan node sinkronisasi data

Konfigurasikan node awal alur kerja

  1. Di panel Scheduled Workflow, klik dua kali node beban nol di alur kerja. Di panel navigasi sisi kanan tab konfigurasi node, klik Properties.

  2. Konfigurasikan properti penjadwalan.

    Bidang

    Tangkapan Layar

    Deskripsi

    Jadwal

    image

    • Waktu penjadwalan node beban nol diatur ke 00:30. Node beban nol memicu alur kerja saat ini untuk berjalan pada 00:30 setiap hari.

    • Atur parameter Rerun ke Allow Regardless of Running Status.

    Dependensi Penjadwalan

    image

    Node beban nol workshop_start_emr tidak memiliki node leluhur. Dalam kasus ini, Anda dapat mengonfigurasi node beban nol sebagai node turunan dari root node of the workspace. Node akar dapat digunakan untuk memicu node beban nol workshop_start_emr untuk berjalan.

    Node akar ruang kerja dinamai dalam format Nama ruang kerja_root.

  3. Setelah konfigurasi selesai, klik ikon 保存 di pojok kiri atas.

Konfigurasikan node sinkronisasi batch

  1. Sinkronkan informasi pengguna dasar dari sumber data MySQL ke bucket OSS yang dibuat.

    1. Di halaman DataStudio, klik dua kali node ods_user_info_d_2oss_emr untuk membuka halaman konfigurasi node.

    2. Buat koneksi jaringan antara kelompok sumber daya yang ingin Anda gunakan dan sumber data.

      Setelah Anda menyelesaikan konfigurasi koneksi jaringan dan sumber daya, klik Next dan selesaikan tes konektivitas sesuai petunjuk.

      Parameter

      Deskripsi

      Source

      • Sumber: Atur nilai ke MySQL.

      • Nama Sumber Data: Atur nilai ke user_behavior_analysis_mysql.

      Resource Group

      Pilih kelompok sumber daya serverless yang Anda beli.

      Destination

      • Tujuan: Atur nilai ke OSS.

      • Nama Sumber Data: Atur ke test_g, yang menentukan nama sumber data OSS pribadi yang Anda tambahkan.

    3. Konfigurasikan node sinkronisasi data.

      Parameter

      Deskripsi

      Source

      • Table: Pilih tabel ods_user_info_d di sumber data.

      • Split key: Kunci pemisah untuk data yang akan dibaca. Kami merekomendasikan Anda menggunakan kunci utama atau kolom terindeks sebagai kunci pemisah. Hanya bidang tipe INTEGER yang didukung. Dalam contoh ini, uid digunakan.

      Destination

      • Text type: Atur nilai ke text.

      • Object Name (Path Included): Jalur objek OSS. Konfigurasikan parameter ini berdasarkan folder yang Anda buat di bucket OSS. Dalam contoh ini, masukkan ods_user_info_d/user_${bizdate}/user_${bizdate}.txt. ods_user_info_d adalah nama folder yang Anda buat di bucket OSS. $bizdate menunjukkan tanggal hari sebelumnya.

      • Column Delimiter: Masukkan |.

    4. Konfigurasikan properti penjadwalan.

      Di panel navigasi sisi kanan tab konfigurasi node, klik Properti. Di tab Properties, Anda dapat mengonfigurasi properti penjadwalan dan informasi dasar tentang node. Tabel berikut menjelaskan parameter penjadwalan.

      Bidang

      Deskripsi

      Tangkapan Layar

      Scheduling Parameter

      Klik Tambah Parameter di bagian Scheduling Parameter. Di baris yang muncul di tabel, Anda dapat menentukan parameter penjadwalan dan nilai parameter penjadwalan tersebut.

      • Atur Nama Parameter ke bizdate.

      • Atur Nilai Parameter ke $[yyyymmdd-1].

      image

      Schedule

      Atur parameter Rerun ke Allow Regardless of Running Status.

      image

      Dependencies

      Pastikan bahwa tabel yang dihasilkan digunakan sebagai tabel output dari node saat ini.

      Tabel output dinamai dalam format Nama ruang kerja.Nama node.

      image

    5. Setelah konfigurasi selesai, klik ikon 保存 di bilah alat.

  1. Sinkronkan log akses situs web dari sumber data HttpFile ke bucket OSS yang dibuat.

    1. Di halaman DataStudio, klik dua kali node ods_raw_log_d_2oss_emr untuk membuka halaman konfigurasi node.

    2. Buat koneksi jaringan antara kelompok sumber daya yang ingin Anda gunakan dan sumber data.

      Setelah Anda menyelesaikan konfigurasi koneksi jaringan dan sumber daya, klik Next dan selesaikan tes konektivitas sesuai petunjuk.

      Parameter

      Deskripsi

      Source

      • Sumber: Atur nilai ke HttpFile.

      • Nama Sumber Data: Atur nilai ke user_behavior_analysis_httpfile.

      Resource Group

      Pilih kelompok sumber daya serverless yang Anda beli.

      Destination

      • Tujuan: Atur nilai ke OSS.

      • Nama Sumber Data: Atur nilai ke test_g, yang menentukan nama sumber data OSS pribadi yang Anda tambahkan.

    3. Konfigurasikan node sinkronisasi data.

      Parameter

      Deskripsi

      Source

      • File Path: Atur nilai ke /user_log.txt.

      • Text type: Atur nilai ke text.

      • Column Delimiter: Masukkan |.

      • Compression format: Format kompresi objek OSS. Nilai valid: None, Gzip, Bzip2, dan Zip. Pilih None.

      • Skip Header: Atur nilai ke Tidak.

      Destination

      • Text type: Atur nilai ke text.

      • Object Name (Path Included): Jalur objek OSS. Konfigurasikan parameter ini berdasarkan folder yang Anda buat di bucket OSS. Dalam contoh ini, masukkan ods_raw_log_d/log_${bizdate}/log_${bizdate}.txt. ods_raw_log_d adalah nama folder yang Anda buat di bucket OSS. $bizdate menunjukkan tanggal hari sebelumnya.

      • Column Delimiter: Masukkan |.

    4. Konfigurasikan properti penjadwalan.

      Di panel navigasi sisi kanan tab konfigurasi node, klik Properties. Di tab Properties, Anda dapat mengonfigurasi properti penjadwalan dan informasi dasar tentang node. Tabel berikut menjelaskan parameter penjadwalan.

      Bidang

      Deskripsi

      Tangkapan Layar

      Scheduling Parameter

      Klik Tambah Parameter di bagian Scheduling Parameter. Di baris yang muncul di tabel, Anda dapat menentukan parameter penjadwalan dan nilai parameter penjadwalan tersebut.

      • Atur Nama Parameter ke bizdate.

      • Atur Nilai Parameter ke $[yyyymmdd-1].

      image

      Schedule

      Atur parameter Rerun ke Allow Regardless of Running Status.

      image

      Dependencies

      Pastikan bahwa tabel yang dihasilkan digunakan sebagai tabel output dari node saat ini.

      Tabel output dinamai dalam format Nama ruang kerja.Nama node.

      image

    5. Setelah konfigurasi selesai, klik ikon 保存 di bilah alat.

Buat tabel EMR untuk menyinkronkan data

Anda perlu membuat dua tabel EMR: ods_user_info_d_emr dan ods_raw_log_d_emr. Lalu, Anda dapat menggunakan tabel-tabel tersebut untuk menanyakan informasi pengguna dasar ApsaraDB RDS for MySQL dan log akses situs web OSS yang telah disinkronkan.

  1. Di panel Scheduled Workflow, klik alur kerja baru, klik kanan EMR, lalu pilih Create Node > EMR Hive.

  2. Di kotak dialog Create Node, konfigurasikan parameter Name dan klik Confirm.

    Anda perlu membuat dua node EMR Hive: ods_user_info_d_emr dan ods_raw_log_d_emr, yang digunakan untuk membuat tabel terkait. Lalu, Anda perlu mengonfigurasi dependensi antar node dengan menggambar garis pada tab konfigurasi alur kerja. Gambar berikut memberikan contoh.

    image

  3. Di tab konfigurasi setiap node EMR Hive, masukkan pernyataan CREATE TABLE dan pilih kelompok sumber daya tanpa server untuk parameter Kelompok Sumber Daya di bagian Resource Group dari tab Properties. Lalu, klik Save dan execute pernyataan CREATE TABLE untuk setiap node.

    • Buat tabel ods_user_info_d_emr.

      Klik dua kali node ods_user_info_d_emr. Di tab konfigurasi node yang muncul, konfigurasikan node ods_user_info_d_emr.

      1. Edit kode SQL.

        CREATE EXTERNAL TABLE IF NOT EXISTS ods_user_info_d_emr
        (
            `uid` STRING COMMENT 'ID Pengguna',
            `gender` STRING COMMENT 'Jenis Kelamin',
            `age_range` STRING COMMENT 'Rentang Usia',
            `zodiac` STRING COMMENT 'Zodiak'
        ) PARTITIONED BY (
          dt STRING
        )
        ROW FORMAT  delimited fields terminated by '|'
        LOCATION 'oss://dw-emr-demo/ods_user_info_d/';
        
        ALTER TABLE ods_user_info_d_emr ADD IF NOT EXISTS PARTITION (dt='${bizdate}')
        LOCATION 'oss://dw-emr-demo/ods_user_info_d/user_${bizdate}/';
        Catatan

        Dalam kode sebelumnya, jalur contoh digunakan untuk LOCATION. Jalur tersebut didasarkan pada nilai parameter Nama Objek (Termasuk Jalur) saat Anda mengonfigurasi node sinkronisasi batch terkait. Anda harus menyetel parameter LOCATION ke jalur folder yang dibuat. dw-emr-demo adalah nama domain bucket OSS yang Anda buat saat menyiapkan lingkungan.

      2. Konfigurasikan properti penjadwalan untuk node.

        Bidang

        Deskripsi

        Tangkapan Layar

        Scheduling Parameter

        Klik Tambah Parameter di bagian Scheduling Parameter. Di baris yang muncul di tabel, Anda dapat menentukan parameter penjadwalan dan nilai parameter penjadwalan tersebut.

        • Atur Nama Parameter ke bizdate.

        • Atur Nilai Parameter ke $[yyyymmdd-1].

        image

        Schedule

        Atur parameter Rerun ke Allow Regardless of Running Status.

        image

        Dependencies

        Pastikan bahwa tabel yang dihasilkan digunakan sebagai tabel output dari node saat ini.

        Tabel output dinamai dalam format Nama ruang kerja.Nama node.

        image

      3. Setelah konfigurasi selesai, klik ikon image.

    • Buat tabel ods_raw_log_d_emr.

      Klik dua kali node ods_raw_log_d_emr. Di tab konfigurasi node yang muncul, konfigurasikan node ods_raw_log_d_emr.

      1. Edit kode SQL.

        -- Buat tabel yang digunakan untuk menyimpan log akses situs web.
        CREATE EXTERNAL TABLE IF NOT EXISTS ods_raw_log_d_emr
        (
          `col` STRING
        ) PARTITIONED BY (
          dt STRING
        );
        ALTER TABLE ods_raw_log_d_emr ADD IF NOT EXISTS PARTITION (dt='${bizdate}')
        LOCATION 'oss://dw-emr-demo/ods_raw_log_d/log_${bizdate}/';
        Catatan

        Dalam kode sebelumnya, jalur contoh digunakan untuk LOCATION. Jalur tersebut didasarkan pada nilai parameter Nama Objek (Termasuk Jalur) saat Anda mengonfigurasi node sinkronisasi batch terkait. Anda harus menyetel parameter LOCATION ke jalur folder yang dibuat. dw-emr-demo adalah nama bucket OSS yang Anda buat saat menyiapkan lingkungan.

      2. Konfigurasikan properti penjadwalan untuk node.

        Bidang

        Deskripsi

        Tangkapan Layar

        Scheduling Parameter

        Klik Tambah Parameter di bagian Scheduling Parameter. Di baris yang muncul di tabel, Anda dapat mengonfigurasi parameter penjadwalan dan menentukan nilai parameter penjadwalan tersebut.

        • Atur Nama Parameter ke bizdate.

        • Atur Nilai Parameter ke $[yyyymmdd-1].

        image

        Schedule

        Atur parameter Rerun ke Allow Regardless of Running Status.

        image

        Dependencies

        Pastikan bahwa tabel yang dihasilkan digunakan sebagai tabel output dari node saat ini.

        Tabel output dinamai dalam format Nama ruang kerja.Nama node.

        image

      3. Setelah konfigurasi selesai, klik ikon image.

Langkah 4: Jalankan node dalam alur kerja dan lihat hasilnya

Jalankan alur kerja

  1. Di halaman DataStudio, klik dua kali alur kerja workshop_emr di bawah Business Flow. Di tab konfigurasi alur kerja, klik ikon image.png di bilah alat atas untuk menjalankan node dalam alur kerja berdasarkan dependensi penjadwalan antar node.

  2. Konfirmasi status.

    • Lihat status node.

      • Jika node berada dalam keadaan image.png, proses sinkronisasi normal.

      • Jika node berada dalam keadaan image dan pesan kesalahan "java.net.ConnectException: Connection timed out (Connection timed out)" muncul, Anda harus menambahkan aturan grup keamanan di Konsol ECS, gunakan Port 10000 dari Instance ECS untuk terhubung ke DataWorks dan atur Obyek Otorisasi ke Blok CIDR dari vSwitch yang terkait dengan kelompok sumber daya. Anda dapat melakukan langkah-langkah berikut untuk mendapatkan blok CIDR vSwitch: Pergi ke halaman Kelompok Sumber Daya, temukan kelompok sumber daya yang diinginkan, dan klik Network Settings di kolom Tindakan. Di tab Pengikatan VPC pada halaman yang muncul, dapatkan blok CIDR vSwitch. Untuk informasi lebih lanjut tentang cara menambahkan aturan grup keamanan, lihat Tambahkan aturan grup keamanan.

    • Lihat log node yang sedang berjalan: Klik kanan node ods_user_info_d_emr atau ods_raw_log_d_emr dan pilih Lihat Log. Jika informasi yang ditunjukkan dalam gambar berikut muncul di log, node telah dijalankan dan data telah disinkronkan.

      image.png

Kueri hasil sinkronisasi

  1. Buat kueri ad hoc.

    Di panel navigasi sisi kiri halaman DataStudio, klik ikon image.png. Di panel Kueri Ad Hoc, klik kanan Kueri Ad Hoc dan pilih Create Node > EMR Hive.

  2. Kueri tabel hasil sinkronisasi.

    Jalankan pernyataan SQL berikut untuk mengonfirmasi hasil penulisan data. Lihat jumlah catatan yang diimpor ke tabel ods_raw_log_d_emr dan ods_user_info_d_emr.

    -- Dalam pernyataan kueri, ubah nilai kunci partisi menjadi cap waktu data dari node. Misalnya, jika node dijalankan pada 7 November 2019, cap waktu data adalah 20191106, yaitu satu hari sebelum node dijalankan.
    SELECT * from ods_user_info_d_emr where dt=Cap waktu data;
    SELECT * from ods_raw_log_d_emr where dt=Cap waktu data;

Apa yang harus dilakukan selanjutnya

Setelah Anda memahami cara menyinkronkan data berdasarkan tutorial ini, Anda dapat melanjutkan ke tutorial berikutnya. Di tutorial berikutnya, Anda akan belajar cara menghitung dan menganalisis data yang telah disinkronkan. Untuk informasi lebih lanjut, lihat Proses data.