All Products
Search
Document Center

DataWorks:Sumber data yang didukung dan solusi sinkronisasi

Last Updated:Apr 30, 2026

DataWorks Data Integration mendukung sinkronisasi data antara berbagai sumber data, seperti MySQL, MaxCompute, Hologres, dan Kafka. Data Integration menyediakan solusi pemrosesan batch, sinkronisasi data real-time, dan migrasi seluruh database. Anda dapat menggunakan solusi ini untuk skenario seperti ekstrak, transformasi, dan muat (ETL) batch T+1, replikasi data real-time dengan latensi tingkat detik, serta migrasi seluruh database.

Solusi sinkronisasi

Jenis

Granularitas sumber

Target Granularity

Ketepatan waktu

Skema sinkronisasi

Batch tabel tunggal

Tabel tunggal

Tabel tunggal atau partisi

T+1 atau periodik

Penuh periodik, inkremental periodik

Batch database dan tabel terpartisi

Beberapa tabel dengan struktur identik

Tabel tunggal atau partisi

T+1 atau periodik

Penuh periodik, inkremental periodik

Real-time tabel tunggal

Tabel tunggal

Tabel tunggal atau partisi

Detik hingga menit

Inkremental real-time (CDC)

Batch seluruh database

Seluruh database atau beberapa tabel

Beberapa tabel yang sesuai beserta partisinya

Satu kali atau periodik

Penuh satu kali/periodik, inkremental satu kali/periodik, penuh satu kali + inkremental periodik

Real-time seluruh database

Seluruh database atau beberapa tabel

Beberapa tabel yang sesuai beserta partisinya

Detik hingga menit

Penuh + inkremental real-time (CDC)

Penuh-plus-inkremental seluruh database

Seluruh database atau beberapa tabel

Beberapa tabel yang sesuai beserta partisinya

Muat penuh awal: Pemrosesan batch

Inkremental berikutnya: T+1

Penuh + inkremental real-time (CDC)

Solusi sinkronisasi yang direkomendasikan

Saat memilih solusi sinkronisasi data, pertimbangkan dua pertanyaan utama:

  1. Kebutuhan ketepatan waktu: Seberapa sering bisnis Anda memerlukan sinkronisasi data—sekali sehari (batch) atau pembaruan real-time tingkat detik/menit (real-time)?

  2. Skala dan kompleksitas sinkronisasi: Berapa banyak tabel yang perlu disinkronkan, dan apakah logika pemrosesan seragam di seluruh tabel (tabel tunggal vs. seluruh database)?

Berdasarkan pertimbangan tersebut, kami merekomendasikan solusi sinkronisasi dalam dua kategori: solusi sinkronisasi batch dan solusi sinkronisasi real-time.

1. Memilih solusi sinkronisasi batch (T+1/periodik)

Solusi batch cocok untuk skenario di mana kebutuhan ketepatan waktu data tidak tinggi (misalnya, T+1) dan diperlukan pemrosesan batch periodik.

Penting

Prasyarat utama: Untuk menerapkan sinkronisasi inkremental batch, tabel sumber harus memiliki kolom yang dapat digunakan untuk mengidentifikasi data inkremental, seperti timestamp gmt_modified atau ID auto-increment. Jika kolom tersebut tidak tersedia, Anda hanya dapat menggunakan sinkronisasi penuh periodik.

1. Pilih batch tabel tunggal

Gunakan opsi ini saat Anda memerlukan pemrosesan detail halus pada sejumlah kecil sumber data inti yang heterogen.

  • Keunggulan utama: Logika pemrosesan fleksibel.

    • Transformasi detail halus: Mendukung pemetaan kolom kompleks, penyaringan data, penugasan konstanta, transformasi berbasis fungsi, bahkan pemrosesan berbantuan AI.

    • Integrasi sumber heterogen: Pilihan terbaik untuk sumber data non-standar seperti API dan file log.

  • Keterbatasan utama: Biaya tinggi pada skala besar.

    • Overhead konfigurasi tinggi: Saat menyinkronkan banyak tabel, mengonfigurasi dan memelihara tugas satu per satu memerlukan upaya signifikan.

    • Konsumsi resource tinggi: Setiap tugas dijadwalkan secara independen. Konsumsi resource dari 100 tugas tabel tunggal jauh melebihi satu tugas seluruh database.

Solusi batch tabel tunggal: Konfigurasikan tugas sinkronisasi batch tabel tunggal
2. Pilih batch seluruh database

Gunakan opsi ini saat Anda perlu melakukan migrasi efisien sejumlah besar tabel homogen dari satu lokasi ke lokasi lain.

  • Keunggulan utama: Efisiensi O&M tinggi dan biaya rendah.

    • Efisiensi tinggi: Konfigurasikan ratusan tabel sekaligus dengan pencocokan objek otomatis, meningkatkan efisiensi pengembangan secara signifikan.

    • Hemat biaya: Resource dijadwalkan dan dioptimalkan secara holistik dengan biaya sangat rendah. Misalnya, satu tugas seluruh database vs. 100 tugas tabel tunggal mungkin mengonsumsi 2 CU vs. 100 CU.

    • Skema tipikal: Membangun lapisan ODS gudang data, backup database periodik, dan migrasi data ke cloud.

  • Keterbatasan utama: Logika pemrosesan terbatas.

    • Terutama dirancang untuk replikasi data dan tidak mendukung logika transformasi kompleks untuk tabel individual.

Solusi batch seluruh database: Konfigurasikan tugas sinkronisasi batch seluruh database.

2. Memilih solusi sinkronisasi real-time (detik hingga menit)

Solusi real-time cocok untuk skenario yang memerlukan penangkapan perubahan data real-time (insert, update, dan delete) di sumber guna mendukung analitik real-time dan respons bisnis.

Penting

Prasyarat utama: Sumber harus mendukung change data capture (CDC) atau merupakan message queue. Misalnya, MySQL memerlukan Binlog diaktifkan, atau sumber harus berupa instans Kafka.

Pilih real-time tabel tunggal atau real-time seluruh database

Logika pemilihan mirip dengan solusi batch:

  • Real-time tabel tunggal: Cocok untuk skenario yang memerlukan pemrosesan kompleks aliran perubahan real-time dari satu tabel inti.

  • Real-time seluruh database: Pilihan utama untuk membangun gudang data real-time, menerapkan disaster recovery database real-time, dan menghubungkan ke data lake real-time. Opsi ini juga memberikan keunggulan signifikan dalam efisiensi dan hemat biaya.

Solusi real-time: Konfigurasikan tugas sinkronisasi real-time tabel tunggal, Konfigurasikan tugas sinkronisasi real-time seluruh database

3. Skema khusus: Menulis data CDC real-time ke tabel target append-only

Penting

Latar belakang: Data CDC yang ditangkap oleh sinkronisasi real-time mencakup tiga jenis operasi: Insert, Update, dan Delete. Untuk sistem penyimpanan append-only yang tidak mendukung operasi Update/Delete secara native di level fisik, seperti tipe tabel non-Delta di MaxCompute, menulis langsung aliran CDC menyebabkan inkonsistensi status data (misalnya, operasi delete tidak dapat tercermin).

  • Solusi DataWorks: Mode Base + Log

    • Solusi ini menggunakan tugas penuh-plus-inkremental seluruh database dan mengatasi masalah tersebut dengan membuat Base table (snapshot lengkap) dan Log table (log inkremental) di target.

    • Cara kerja: Aliran data CDC ditulis secara real-time ke Log table. Kemudian, secara basis T+1, sistem secara otomatis menjadwalkan tugas untuk merge perubahan dari Log table ke Base table guna menghasilkan snapshot lengkap terbaru. Ketepatan waktu solusi ini adalah "data inkremental ditulis ke log table dalam hitungan menit, dengan status akhir digabung dan terlihat pada T+1." Solusi ini menyeimbangkan penangkapan data real-time dengan konsistensi akhir untuk gudang data offline.

Solusi yang direkomendasikan: Konfigurasikan tugas sinkronisasi penuh-plus-inkremental seluruh database.

Kemampuan baca/tulis sumber data

Sumber data

Single-Table Batch

Real-time Single Table

Batch seluruh database

Real-time seluruh database

Penuh-plus-inkremental seluruh database

Sumber data dataset publik

Baca

-

-

-

-

Sumber data Amazon S3

Baca/Tulis

-

-

-

-

Sumber data Amazon Redshift

Baca/Tulis

-

-

-

-

AnalyticDB for MySQL 2.0

Baca/Tulis

-

-

-

-

Sumber data AnalyticDB for MySQL 3.0

Baca/Tulis

Tulis

Baca

Tulis

-

Sumber data AnalyticDB for PostgreSQL

Baca/Tulis

-

Baca

-

-

Sumber data ApsaraDB for OceanBase

Baca/Tulis

Tulis

Baca

Baca/Tulis

Baca

Sumber data Azure Blob Storage

Baca

-

-

-

-

BigQuery

Baca

-

-

-

-

Sumber data ClickHouse

Baca/Tulis

-

Baca

-

-

Sumber data COS

Baca

-

-

-

-

Sumber data Databricks

Baca

-

-

-

-

Sumber data DataHub

Baca/Tulis

Baca/Tulis

-

Tulis

-

Sumber data Data Lake Formation

Baca/Tulis

Tulis

Tulis

Tulis

-

DB2

Baca/Tulis

-

Baca

-

-

Doris

Baca/Tulis

Tulis

Baca

-

-

DM (Dameng)

Baca/Tulis

-

Baca

-

-

DRDS (PolarDB-X 1.0)

Baca/Tulis

-

Baca

-

-

Elasticsearch

Baca/Tulis

Tulis

Tulis

Tulis

-

Sumber data FTP

Baca/Tulis

-

-

-

-

GBase8a

Baca/Tulis

-

-

-

-

HBase

hbase Baca/Tulis

HBase 20xsql Read

HBase 11xsql Write

-

-

-

-

HDFS

Baca/Tulis

-

-

-

-

Hive

Baca/Tulis

-

Baca/Tulis

-

-

Sumber data Hologres

Baca/Tulis

Baca/Tulis

Baca/Tulis

Tulis

-

HttpFile

Baca

-

-

-

-

Sumber data Kafka

Baca/Tulis

Baca/Tulis

-

Tulis

-

KingbaseES

Baca/Tulis

-

-

-

-

Sumber data Lindorm

Baca/Tulis

Tulis

-

Tulis

-

LogHub (SLS)

Baca/Tulis

Baca

-

-

-

Sumber data MaxCompute

Baca/Tulis

Tulis

Tulis

Tulis

Tulis

MariaDB

Baca/Tulis

-

-

-

-

Maxgraph

Tulis

-

-

-

-

Memcache (OCS)

Tulis

-

-

-

-

Sumber data MetaQ

Baca

-

-

-

-

Milvus

Baca/Tulis

-

-

-

-

MongoDB

Baca/Tulis

-

-

Baca

-

Sumber data MySQL

Baca/Tulis

-

Baca

Baca

Baca

OpenSearch

Tulis

-

-

-

-

Sumber data Oracle

Baca/Tulis

Baca

Baca

Baca

Baca

OSS

Baca/Tulis

-

Tulis

Tulis

-

OSS-HDFS

Baca/Tulis

-

Tulis

Tulis

-

Sumber data PolarDB

Baca/Tulis

-

Baca

Baca

Baca

PolarDB-X 2.0

Baca/Tulis

-

Baca

Baca

-

PostgreSQL

Baca/Tulis

-

Baca

Baca

-

Redis

Tulis

-

-

-

-

RestAPI (HTTP)

Baca/Tulis

-

-

-

-

Sumber data Salesforce

Baca/Tulis

-

-

-

-

SAP HANA

Baca/Tulis

-

-

-

-

Sumber data Sensors Data

Tulis

-

-

-

-

Snowflake

Baca/Tulis

-

-

-

-

Sumber data StarRocks

Baca/Tulis

Tulis

Tulis

Tulis

-

Sumber data SQL Server

Baca/Tulis

-

Baca

-

-

Sumber data Tablestore

Baca/Tulis

Tulis

-

-

-

Sumber data TiDB

Baca/Tulis

-

-

-

-

TSDB

Tulis

-

-

-

-

Vertica

Baca/Tulis

-

-

-

-

Sumber data TOS

Baca

-

-

-

-

Referensi

Berikut adalah daftar dokumen inti Data Integration yang telah dikurasi untuk membantu Anda memulai dengan cepat.