全部产品
Search
文档中心

DataHub:Mulai sinkronisasi DataHub

更新时间:Mar 13, 2026

Langkah 1: Aktifkan DataHub

  1. Masuk ke Konsol DataHub.

  2. Aktifkan layanan sesuai petunjuk pada halaman tersebut.

Langkah 2: Buat proyek dan topik

  1. Masuk ke Konsol DataHub.

  2. Klik tombol Create Project dan masukkan informasi yang diperlukan untuk membuat proyek.

Parameter

Deskripsi

Project

Proyek adalah unit organisasi dasar untuk data DataHub dan berisi beberapa topik. Proyek DataHub dan proyek MaxCompute saling independen. Proyek yang dibuat di MaxCompute tidak dapat digunakan kembali di DataHub. Anda harus membuatnya secara terpisah.

Description

Deskripsi proyek.

3. Pada halaman detail proyek, klik tombol Create Topic untuk membuat topik.

Parameter

Deskripsi

Creation

Proyek adalah unit organisasi dasar untuk data di DataHub. Sebuah proyek berisi beberapa topik. Proyek DataHub independen dari proyek MaxCompute. Proyek yang dibuat di MaxCompute tidak dapat digunakan di DataHub dan harus dibuat secara terpisah.

Name

Deskripsi topik.

Type

Kategori topik. `TUPLE` merepresentasikan data terstruktur, dan `BLOB` merepresentasikan data tidak terstruktur.

Schema details

Memilih tipe TUPLE akan menampilkan detail skema. Buat bidang sesuai kebutuhan. Jika Anda mengizinkan nilai NULL, bidang tersebut secara otomatis diatur ke NULL ketika data hulu tidak memiliki nilai tersebut. Jika tidak, sistem melakukan pemeriksaan ketat, dan terjadi error penulisan jika tipe bidang tidak sesuai.

Number of shards

Shard adalah saluran konkuren untuk transmisi data dalam sebuah topik. Setiap shard memiliki ID unik. Shard dapat memiliki beberapa status, seperti `Opening` (sedang memulai) dan `Active` (telah dimulai dan siap melayani). Setiap shard yang diaktifkan mengonsumsi sumber daya server. Ajukan jumlah shard sesuai kebutuhan.

Lifecycle

Jumlah maksimum waktu, dalam hari, data yang ditulis ke topik dapat disimpan. Nilai minimum adalah 1 dan nilai maksimum adalah 7. Untuk mengubah lifecycle, gunakan Java SDK.

Description

Deskripsi topik.

Langkah 3: Tulis data

DataHub mendukung berbagai metode penulisan data. Anda dapat menggunakan plugin seperti Flume untuk log, atau DTS dan Canal untuk database. Anda juga dapat menulis data menggunakan SDK. Contoh ini menunjukkan cara menggunakan tool konsol untuk menulis data dengan mengunggah file.

  1. Unduh dan ekstrak paket tool konsol. Konfigurasikan informasi AccessKey dan endpoint. Untuk informasi selengkapnya, lihat Console command tool.

  2. Jalankan perintah uf untuk mengunggah file.

    uf -f /temp/test.csv -p test_topic -t test_topic -m "," -n 1000
  3. Di Konsol Web, periksa apakah data berhasil ditulis. Anda dapat melihat status penulisan data, waktu penulisan data terbaru, dan volume total data.

  4. Sample data untuk memeriksa kualitas data.

    1. Pilih shard dan Waktu mulai untuk Pengambilan sampel.

    2. Klik Sample untuk melihat data.

Langkah 4: Sinkronkan data

Contoh berikut menunjukkan cara menyinkronkan ke MaxCompute.

  1. Buka halaman Project List > Project Details > Topic Details.

  2. Di pojok kanan atas, klik tombol + Sync untuk membuat tugas sinkronisasi.

  3. Pilih tipe pekerjaan MaxCompute.

Deskripsi parameter

Bagian ini menjelaskan beberapa parameter untuk membuat tugas sinkronisasi di konsol. Untuk operasi yang lebih fleksibel, Anda dapat menggunakan SDK.

  1. Import Fields

    Anda dapat menyinkronkan data dari kolom tertentu di DataHub ke tabel MaxCompute berdasarkan konfigurasi Anda.

  2. Partition Mode

    Mode partisi menentukan partisi MaxCompute tempat data ditulis. DataHub mendukung mode partisi berikut:

Partition pattern

Partition basis

Supported Topic Types

Deskripsi

USER_DEFINE

Nilai kolom kunci partisi dalam catatan. Nama kolom sama dengan bidang partisi MaxCompute.

TUPLE

(1). Skema DataHub harus mencakup bidang partisi MaxCompute. (2). Nilai kolom ini harus berupa string UTF-8 non-kosong.

SYSTEM_TIME

Waktu saat catatan ditulis ke DataHub.

TUPLE / BLOB

(1). Dalam konfigurasi partisi, atur format transformasi waktu untuk partisi MaxCompute. (2). Atur informasi zona waktu.

EVENT_TIME

Nilai kolom event_time(TIMESTAMP) dalam catatan.

TUPLE

(1). Dalam konfigurasi partisi, atur format transformasi waktu untuk partisi MaxCompute. (2). Atur informasi zona waktu.

META_TIME

Nilai bidang properti __dh_meta_time__ dari catatan.

TUPLE / BLOB

(1). Dalam konfigurasi partisi, atur format transformasi waktu untuk partisi MaxCompute. (2). Atur informasi zona waktu.

Mode SYSTEM_TIME, EVENT_TIME, dan META_TIME menggunakan konfigurasi timestamp dan zona waktu untuk menentukan partisi MaxCompute. Satuan default untuk timestamp adalah mikrodetik.

  1. Konfigurasi partisi menentukan cara timestamp dikonversi untuk partisi MaxCompute. Secara default, konsol menggunakan format partisi MaxCompute tetap. Konfigurasi partisi adalah sebagai berikut:

Partisi

Format waktu

Deskripsi

ds

%Y%m%d

hari

hh

%H

jam

mm

%M

menit

  1. Interval partisi menentukan interval waktu untuk mengonversi timestamp ke partisi MaxCompute. Rentang waktu berkisar dari 15 menit hingga 1440 menit (1 hari), dengan interval langkah sebesar 15 menit.

  2. Zona waktu menentukan zona waktu yang digunakan untuk konversi saat Anda membuat partisi MaxCompute berdasarkan timestamp.

  3. Saat menyinkronkan data BLOB, Anda dapat menentukan pemisah heksadesimal untuk memisahkan data sebelum disinkronkan ke MaxCompute. Misalnya, 0A merepresentasikan line feed (\n).

  4. Secara default, topik BLOB DataHub menyimpan data biner. Kolom yang sesuai dalam tugas sinkronisasi MaxCompute bertipe STRING. Oleh karena itu, saat membuat tugas sinkronisasi di konsol, data secara default dikodekan Base64 sebelum disinkronkan. Untuk kustomisasi lebih lanjut, Anda dapat menggunakan SDK.

Langkah 6: Lihat tugas sinkronisasi

Pada halaman detail konektor yang sesuai, Anda dapat melihat status Berjalan dan informasi checkpoint dari tugas sinkronisasi. Informasi ini mencakup checkpoint sinkronisasi, status sinkronisasi, serta operasi seperti restart dan stop.

Untuk informasi selengkapnya, lihat Buat Tugas Sinkronisasi MaxCompute.