Mulai cepat DataHub – sinkronkan data ke MaxCompute - DataHub

Langkah 1: Aktifkan layanan DataHub

Masuk ke DataHub console.
Ikuti petunjuk di layar untuk mengaktifkan layanan.

Langkah 2: Buat Proyek dan Topik

Masuk ke DataHub console.
Klik Create Project. Di kotak dialog, atur Name (harus dimulai dengan huruf, terdiri dari 3–32 karakter, hanya huruf, angka, dan garis bawah) dan Description (maksimal 1.024 karakter), lalu klik Create.

Parameter	Description
Project	Project adalah unit organisasi dasar di DataHub, yang berisi satu atau beberapa Topic. Project DataHub bersifat independen dari project MaxCompute — Anda harus membuat Project terpisah di DataHub.
Description	Deskripsi Project.

3. Di halaman Detail Project, klik Create Topic. Di kotak dialog New Topic, untuk Creation Method, pilih Create Directly atau Import MaxCompute table schema.

Parameter	Description
Creation Method	Buat Topic dari awal atau impor skema dari tabel MaxCompute yang sudah ada.
Name	Nama Topic.
Type	Tipe Topic. `TUPLE` merepresentasikan structured data, dan `BLOB` merepresentasikan unstructured data.
Schema Details	Muncul saat Anda memilih `TUPLE`. Definisikan bidang sesuai kebutuhan. Jika suatu bidang mengizinkan `NULL`, nilai yang tidak tersedia di hulu akan secara default dianggap `NULL`. Jika `NULL` tidak diizinkan, DataHub melakukan validasi ketat dan melaporkan error jika terjadi ketidaksesuaian tipe.
Number of Shards	Saluran konkuren untuk transmisi data dalam suatu Topic. Setiap Shard memiliki ID dan status seperti `Opening` atau `Active`. Setiap Shard aktif mengonsumsi sumber daya server, jadi alokasikan hanya sesuai kebutuhan.
Lifecycle	Periode retensi data untuk Topic, dalam satuan hari (1–7). Untuk mengubah nilai ini, gunakan Java SDK.
Description	Deskripsi Topic.

Langkah 3: Tulis data

DataHub mendukung beberapa metode ingestion data: Flume untuk log, DTS atau Canal untuk database, atau SDK. Contoh ini menggunakan tool konsol untuk mengunggah file.

Unduh dan ekstrak paket tool konsol, lalu konfigurasikan Pasangan Kunci Akses dan Titik akhir. console command-line tool.

Gunakan perintah uf untuk mengunggah file.

uf -f /temp/test.csv -p test_topic -t test_topic -m "," -n 1000

Verifikasi bahwa data telah ditulis. Periksa waktu penulisan terbaru dan total volume data di tab Shard List pada halaman Detail Topic.
Sample data untuk memeriksa kualitas data.
1. Pilih Shard dan Waktu mulai untuk pengambilan sampel.
2. Klik Sample untuk melihat data.

Di kotak dialog pengambilan sampel, atur Sample Count (default: 20) dan gunakan Select Filter Fields untuk memfilter berdasarkan bidang tertentu.

Langkah 4: Sinkronkan data

Contoh ini menunjukkan cara menyinkronkan data ke MaxCompute.

Buka halaman Project List/Project Details/Topic Details.
Di pojok kanan atas, klik + Sync untuk membuat tugas sinkronisasi.
Pilih tipe pekerjaan MaxCompute:

1) Untuk sinkronisasi tipe TUPLE, konfigurasikan parameter berikut di kotak dialog New Connector: Project Name, Table Name, AccessKey ID, AccessKey Secret, Fields to Import, Partitioning Mode, Partition Configuration, Partition Interval, Time Zone, Start Time, dan TimestampUnit. Setelah selesai, klik Create.

Catatan konfigurasi terpilih:

Parameter konfigurasi utama untuk tugas sinkronisasi berbasis konsol dijelaskan di bawah ini. Untuk opsi lanjutan, gunakan SDK.

Fields to Import

Sinkronkan hanya kolom tertentu ke tabel MaxCompute.
Partitioning Mode

Menentukan partisi MaxCompute mana yang menerima data. Mode yang didukung:

Partitioning mode	Partition basis	Supported types	Description
USER_DEFINE	Nilai kolom partisi dalam record. Nama kolom harus sesuai dengan bidang partisi MaxCompute.	TUPLE	(1) Skema DataHub harus mencakup bidang partisi MaxCompute. (2) Nilai kolom ini harus berupa `string UTF-8 non-kosong`.
SYSTEM_TIME	Waktu record ditulis ke DataHub.	TUPLE / BLOB	(1) Di Partition Configuration, atur format untuk mengonversi timestamp menjadi partisi MaxCompute. (2) Atur zona waktu.
EVENT_TIME	Nilai kolom `event_time` (TIMESTAMP) dalam record.	TUPLE	(1) Di Partition Configuration, atur format untuk mengonversi timestamp menjadi partisi MaxCompute. (2) Atur zona waktu.
META_TIME	Nilai bidang atribut `__dh_meta_time__` dalam record.	TUPLE / BLOB	(1) Di Partition Configuration, atur format untuk mengonversi timestamp menjadi partisi MaxCompute. (2) Atur zona waktu.

Mode SYSTEM_TIME, EVENT_TIME, dan META_TIME menggunakan timestamp dan zona waktu untuk menentukan partisi MaxCompute. Satuan timestamp default adalah mikrodetik.

Konfigurasi partisi mengonversi timestamp menjadi partisi MaxCompute. Konsol menggunakan format partisi tetap secara default:

Partition	Time format	Description
ds	%Y%m%d	Hari
hh	%H	Jam
mm	%M	Menit

Interval waktu untuk mengonversi timestamp menjadi partisi MaxCompute. Rentang: 15 menit hingga 1.440 menit (1 hari), dengan penambahan 15 menit.
Zona waktu yang digunakan untuk mengonversi timestamp menjadi partisi MaxCompute.
Untuk data BLOB, tentukan delimiter heksadesimal untuk memisahkan record sebelum disinkronkan ke MaxCompute. Misalnya, 0A merepresentasikan karakter baris baru (\n).
DataHub menyimpan data BLOB sebagai biner, tetapi kolom MaxCompute menggunakan tipe STRING. Secara default, konsol melakukan encoding Base64 pada data BLOB sebelum disinkronkan. Untuk opsi lanjutan, gunakan SDK.

Langkah 5: Lihat tugas sinkronisasi

Halaman detail Connector menampilkan status tugas, informasi checkpoint, dan metrik Pemantauan seperti Sync Latency, DoneTime, dan Dirty Data Count. Anda dapat me-restart atau menghentikan tugas serta mengelola Sync Task Fields. Pembaruan berlaku langsung.

Buat tugas untuk menyinkronkan data ke MaxCompute.