All Products
Search
Document Center

DataHub:Mulai cepat (contoh sinkronisasi)

Last Updated:Jun 09, 2026

Langkah 1: Aktifkan layanan DataHub

  1. Masuk ke DataHub console.

  2. Ikuti petunjuk di layar untuk mengaktifkan layanan.

Langkah 2: Buat Proyek dan Topik

  1. Masuk ke DataHub console.

  2. Klik Create Project. Di kotak dialog, atur Name (harus dimulai dengan huruf, terdiri dari 3–32 karakter, hanya huruf, angka, dan garis bawah) dan Description (maksimal 1.024 karakter), lalu klik Create.

Parameter

Description

Project

Project adalah unit organisasi dasar di DataHub, yang berisi satu atau beberapa Topic. Project DataHub bersifat independen dari project MaxCompute — Anda harus membuat Project terpisah di DataHub.

Description

Deskripsi Project.

3. Di halaman Detail Project, klik Create Topic. Di kotak dialog New Topic, untuk Creation Method, pilih Create Directly atau Import MaxCompute table schema.

Parameter

Description

Creation Method

Buat Topic dari awal atau impor skema dari tabel MaxCompute yang sudah ada.

Name

Nama Topic.

Type

Tipe Topic. TUPLE merepresentasikan structured data, dan BLOB merepresentasikan unstructured data.

Schema Details

Muncul saat Anda memilih TUPLE. Definisikan bidang sesuai kebutuhan. Jika suatu bidang mengizinkan NULL, nilai yang tidak tersedia di hulu akan secara default dianggap NULL. Jika NULL tidak diizinkan, DataHub melakukan validasi ketat dan melaporkan error jika terjadi ketidaksesuaian tipe.

Number of Shards

Saluran konkuren untuk transmisi data dalam suatu Topic. Setiap Shard memiliki ID dan status seperti Opening atau Active. Setiap Shard aktif mengonsumsi sumber daya server, jadi alokasikan hanya sesuai kebutuhan.

Lifecycle

Periode retensi data untuk Topic, dalam satuan hari (1–7). Untuk mengubah nilai ini, gunakan Java SDK.

Description

Deskripsi Topic.

Langkah 3: Tulis data

DataHub mendukung beberapa metode ingestion data: Flume untuk log, DTS atau Canal untuk database, atau SDK. Contoh ini menggunakan tool konsol untuk mengunggah file.

  1. Unduh dan ekstrak paket tool konsol, lalu konfigurasikan Pasangan Kunci Akses dan Titik akhir. console command-line tool.

  2. Gunakan perintah uf untuk mengunggah file.

    uf -f /temp/test.csv -p test_topic -t test_topic -m "," -n 1000
  3. Verifikasi bahwa data telah ditulis. Periksa waktu penulisan terbaru dan total volume data di tab Shard List pada halaman Detail Topic.

  4. Sample data untuk memeriksa kualitas data.

    1. Pilih Shard dan Waktu mulai untuk pengambilan sampel.

    2. Klik Sample untuk melihat data.

Di kotak dialog pengambilan sampel, atur Sample Count (default: 20) dan gunakan Select Filter Fields untuk memfilter berdasarkan bidang tertentu.

Langkah 4: Sinkronkan data

Contoh ini menunjukkan cara menyinkronkan data ke MaxCompute.

  1. Buka halaman Project List/Project Details/Topic Details.

  2. Di pojok kanan atas, klik + Sync untuk membuat tugas sinkronisasi.

  3. Pilih tipe pekerjaan MaxCompute:

    1) Untuk sinkronisasi tipe TUPLE, konfigurasikan parameter berikut di kotak dialog New Connector: Project Name, Table Name, AccessKey ID, AccessKey Secret, Fields to Import, Partitioning Mode, Partition Configuration, Partition Interval, Time Zone, Start Time, dan TimestampUnit. Setelah selesai, klik Create.

Catatan konfigurasi terpilih:

Parameter konfigurasi utama untuk tugas sinkronisasi berbasis konsol dijelaskan di bawah ini. Untuk opsi lanjutan, gunakan SDK.

  1. Fields to Import

    Sinkronkan hanya kolom tertentu ke tabel MaxCompute.

  2. Partitioning Mode

    Menentukan partisi MaxCompute mana yang menerima data. Mode yang didukung:

Partitioning mode

Partition basis

Supported types

Description

USER_DEFINE

Nilai kolom partisi dalam record. Nama kolom harus sesuai dengan bidang partisi MaxCompute.

TUPLE

(1) Skema DataHub harus mencakup bidang partisi MaxCompute. (2) Nilai kolom ini harus berupa string UTF-8 non-kosong.

SYSTEM_TIME

Waktu record ditulis ke DataHub.

TUPLE / BLOB

(1) Di Partition Configuration, atur format untuk mengonversi timestamp menjadi partisi MaxCompute. (2) Atur zona waktu.

EVENT_TIME

Nilai kolom event_time (TIMESTAMP) dalam record.

TUPLE

(1) Di Partition Configuration, atur format untuk mengonversi timestamp menjadi partisi MaxCompute. (2) Atur zona waktu.

META_TIME

Nilai bidang atribut __dh_meta_time__ dalam record.

TUPLE / BLOB

(1) Di Partition Configuration, atur format untuk mengonversi timestamp menjadi partisi MaxCompute. (2) Atur zona waktu.

Mode SYSTEM_TIME, EVENT_TIME, dan META_TIME menggunakan timestamp dan zona waktu untuk menentukan partisi MaxCompute. Satuan timestamp default adalah mikrodetik.

  1. Konfigurasi partisi mengonversi timestamp menjadi partisi MaxCompute. Konsol menggunakan format partisi tetap secara default:

Partition

Time format

Description

ds

%Y%m%d

Hari

hh

%H

Jam

mm

%M

Menit

  1. Interval waktu untuk mengonversi timestamp menjadi partisi MaxCompute. Rentang: 15 menit hingga 1.440 menit (1 hari), dengan penambahan 15 menit.

  2. Zona waktu yang digunakan untuk mengonversi timestamp menjadi partisi MaxCompute.

  3. Untuk data BLOB, tentukan delimiter heksadesimal untuk memisahkan record sebelum disinkronkan ke MaxCompute. Misalnya, 0A merepresentasikan karakter baris baru (\n).

  4. DataHub menyimpan data BLOB sebagai biner, tetapi kolom MaxCompute menggunakan tipe STRING. Secara default, konsol melakukan encoding Base64 pada data BLOB sebelum disinkronkan. Untuk opsi lanjutan, gunakan SDK.

Langkah 5: Lihat tugas sinkronisasi

Halaman detail Connector menampilkan status tugas, informasi checkpoint, dan metrik Pemantauan seperti Sync Latency, DoneTime, dan Dirty Data Count. Anda dapat me-restart atau menghentikan tugas serta mengelola Sync Task Fields. Pembaruan berlaku langsung.

Buat tugas untuk menyinkronkan data ke MaxCompute.