Langkah 1: Aktifkan layanan DataHub
-
Masuk ke DataHub console.
-
Ikuti petunjuk di layar untuk mengaktifkan layanan.
Langkah 2: Buat Proyek dan Topik
-
Masuk ke DataHub console.
-
Klik Create Project. Di kotak dialog, atur Name (harus dimulai dengan huruf, terdiri dari 3–32 karakter, hanya huruf, angka, dan garis bawah) dan Description (maksimal 1.024 karakter), lalu klik Create.
|
Parameter |
Description |
|
Project |
Project adalah unit organisasi dasar di DataHub, yang berisi satu atau beberapa Topic. Project DataHub bersifat independen dari project MaxCompute — Anda harus membuat Project terpisah di DataHub. |
|
Description |
Deskripsi Project. |
3. Di halaman Detail Project, klik Create Topic. Di kotak dialog New Topic, untuk Creation Method, pilih Create Directly atau Import MaxCompute table schema.
|
Parameter |
Description |
|
Creation Method |
Buat Topic dari awal atau impor skema dari tabel MaxCompute yang sudah ada. |
|
Name |
Nama Topic. |
|
Type |
Tipe Topic. |
|
Schema Details |
Muncul saat Anda memilih |
|
Number of Shards |
Saluran konkuren untuk transmisi data dalam suatu Topic. Setiap Shard memiliki ID dan status seperti |
|
Lifecycle |
Periode retensi data untuk Topic, dalam satuan hari (1–7). Untuk mengubah nilai ini, gunakan Java SDK. |
|
Description |
Deskripsi Topic. |
Langkah 3: Tulis data
DataHub mendukung beberapa metode ingestion data: Flume untuk log, DTS atau Canal untuk database, atau SDK. Contoh ini menggunakan tool konsol untuk mengunggah file.
-
Unduh dan ekstrak paket tool konsol, lalu konfigurasikan Pasangan Kunci Akses dan Titik akhir. console command-line tool.
-
Gunakan perintah
ufuntuk mengunggah file.uf -f /temp/test.csv -p test_topic -t test_topic -m "," -n 1000 -
Verifikasi bahwa data telah ditulis. Periksa waktu penulisan terbaru dan total volume data di tab Shard List pada halaman Detail Topic.
-
Sample data untuk memeriksa kualitas data.
-
Pilih Shard dan Waktu mulai untuk pengambilan sampel.
-
Klik Sample untuk melihat data.
-
Di kotak dialog pengambilan sampel, atur Sample Count (default: 20) dan gunakan Select Filter Fields untuk memfilter berdasarkan bidang tertentu.
Langkah 4: Sinkronkan data
Contoh ini menunjukkan cara menyinkronkan data ke MaxCompute.
-
Buka halaman
Project List/Project Details/Topic Details. -
Di pojok kanan atas, klik
+ Syncuntuk membuat tugas sinkronisasi. -
Pilih tipe pekerjaan MaxCompute:
1) Untuk sinkronisasi tipe
TUPLE, konfigurasikan parameter berikut di kotak dialog New Connector: Project Name, Table Name, AccessKey ID, AccessKey Secret, Fields to Import, Partitioning Mode, Partition Configuration, Partition Interval, Time Zone, Start Time, dan TimestampUnit. Setelah selesai, klik Create.
Catatan konfigurasi terpilih:
Parameter konfigurasi utama untuk tugas sinkronisasi berbasis konsol dijelaskan di bawah ini. Untuk opsi lanjutan, gunakan SDK.
-
Fields to Import
Sinkronkan hanya kolom tertentu ke tabel MaxCompute.
-
Partitioning Mode
Menentukan partisi MaxCompute mana yang menerima data. Mode yang didukung:
|
Partitioning mode |
Partition basis |
Supported types |
Description |
|
USER_DEFINE |
Nilai kolom partisi dalam record. Nama kolom harus sesuai dengan bidang partisi MaxCompute. |
TUPLE |
(1) Skema DataHub harus mencakup bidang partisi MaxCompute. (2) Nilai kolom ini harus berupa |
|
SYSTEM_TIME |
Waktu record ditulis ke DataHub. |
TUPLE / BLOB |
(1) Di Partition Configuration, atur format untuk mengonversi timestamp menjadi partisi MaxCompute. (2) Atur zona waktu. |
|
EVENT_TIME |
Nilai kolom |
TUPLE |
(1) Di Partition Configuration, atur format untuk mengonversi timestamp menjadi partisi MaxCompute. (2) Atur zona waktu. |
|
META_TIME |
Nilai bidang atribut |
TUPLE / BLOB |
(1) Di Partition Configuration, atur format untuk mengonversi timestamp menjadi partisi MaxCompute. (2) Atur zona waktu. |
Mode SYSTEM_TIME, EVENT_TIME, dan META_TIME menggunakan timestamp dan zona waktu untuk menentukan partisi MaxCompute. Satuan timestamp default adalah mikrodetik.
-
Konfigurasi partisi mengonversi timestamp menjadi partisi MaxCompute. Konsol menggunakan format partisi tetap secara default:
|
Partition |
Time format |
Description |
|
ds |
%Y%m%d |
Hari |
|
hh |
%H |
Jam |
|
mm |
%M |
Menit |
-
Interval waktu untuk mengonversi timestamp menjadi partisi MaxCompute. Rentang:
15 menit hingga 1.440 menit (1 hari), dengan penambahan15 menit. -
Zona waktu yang digunakan untuk mengonversi timestamp menjadi partisi MaxCompute.
-
Untuk data BLOB, tentukan delimiter heksadesimal untuk memisahkan record sebelum disinkronkan ke MaxCompute. Misalnya,
0Amerepresentasikan karakter baris baru (\n). -
DataHub menyimpan data BLOB sebagai biner, tetapi kolom MaxCompute menggunakan tipe STRING. Secara default, konsol melakukan encoding Base64 pada data BLOB sebelum disinkronkan. Untuk opsi lanjutan, gunakan SDK.
Langkah 5: Lihat tugas sinkronisasi
Halaman detail Connector menampilkan status tugas, informasi checkpoint, dan metrik Pemantauan seperti Sync Latency, DoneTime, dan Dirty Data Count. Anda dapat me-restart atau menghentikan tugas serta mengelola Sync Task Fields. Pembaruan berlaku langsung.