Langkah 1: Aktifkan DataHub
Masuk ke Konsol DataHub.
Aktifkan layanan sesuai petunjuk pada halaman tersebut.
Langkah 2: Buat proyek dan topik
Masuk ke Konsol DataHub.
Klik tombol Create Project dan masukkan informasi yang diperlukan untuk membuat proyek.
Parameter | Deskripsi |
Project | Proyek adalah unit organisasi dasar untuk data DataHub dan berisi beberapa topik. Proyek DataHub dan proyek MaxCompute saling independen. Proyek yang dibuat di MaxCompute tidak dapat digunakan kembali di DataHub. Anda harus membuatnya secara terpisah. |
Description | Deskripsi proyek. |
3. Pada halaman detail proyek, klik tombol Create Topic untuk membuat topik.
Parameter | Deskripsi |
Creation | Proyek adalah unit organisasi dasar untuk data di DataHub. Sebuah proyek berisi beberapa topik. Proyek DataHub independen dari proyek MaxCompute. Proyek yang dibuat di MaxCompute tidak dapat digunakan di DataHub dan harus dibuat secara terpisah. |
Name | Deskripsi topik. |
Type | Kategori topik. `TUPLE` merepresentasikan data terstruktur, dan `BLOB` merepresentasikan data tidak terstruktur. |
Schema details | Memilih tipe TUPLE akan menampilkan detail skema. Buat bidang sesuai kebutuhan. Jika Anda mengizinkan nilai NULL, bidang tersebut secara otomatis diatur ke NULL ketika data hulu tidak memiliki nilai tersebut. Jika tidak, sistem melakukan pemeriksaan ketat, dan terjadi error penulisan jika tipe bidang tidak sesuai. |
Number of shards | Shard adalah saluran konkuren untuk transmisi data dalam sebuah topik. Setiap shard memiliki ID unik. Shard dapat memiliki beberapa status, seperti `Opening` (sedang memulai) dan `Active` (telah dimulai dan siap melayani). Setiap shard yang diaktifkan mengonsumsi sumber daya server. Ajukan jumlah shard sesuai kebutuhan. |
Lifecycle | Jumlah maksimum waktu, dalam hari, data yang ditulis ke topik dapat disimpan. Nilai minimum adalah 1 dan nilai maksimum adalah 7. Untuk mengubah lifecycle, gunakan Java SDK. |
Description | Deskripsi topik. |
Langkah 3: Tulis data
DataHub mendukung berbagai metode penulisan data. Anda dapat menggunakan plugin seperti Flume untuk log, atau DTS dan Canal untuk database. Anda juga dapat menulis data menggunakan SDK. Contoh ini menunjukkan cara menggunakan tool konsol untuk menulis data dengan mengunggah file.
Unduh dan ekstrak paket tool konsol. Konfigurasikan informasi AccessKey dan endpoint. Untuk informasi selengkapnya, lihat Console command tool.
Jalankan perintah uf untuk mengunggah file.
uf -f /temp/test.csv -p test_topic -t test_topic -m "," -n 1000Di Konsol Web, periksa apakah data berhasil ditulis. Anda dapat melihat status penulisan data, waktu penulisan data terbaru, dan volume total data.
Sample data untuk memeriksa kualitas data.
Pilih shard dan Waktu mulai untuk Pengambilan sampel.
Klik Sample untuk melihat data.
Langkah 4: Sinkronkan data
Contoh berikut menunjukkan cara menyinkronkan ke MaxCompute.
Buka halaman
Project List > Project Details > Topic Details.Di pojok kanan atas, klik tombol
+ Syncuntuk membuat tugas sinkronisasi.Pilih tipe pekerjaan MaxCompute.
Deskripsi parameter
Bagian ini menjelaskan beberapa parameter untuk membuat tugas sinkronisasi di konsol. Untuk operasi yang lebih fleksibel, Anda dapat menggunakan SDK.
Import Fields
Anda dapat menyinkronkan data dari kolom tertentu di DataHub ke tabel MaxCompute berdasarkan konfigurasi Anda.
Partition Mode
Mode partisi menentukan partisi MaxCompute tempat data ditulis. DataHub mendukung mode partisi berikut:
Partition pattern | Partition basis | Supported Topic Types | Deskripsi |
USER_DEFINE | Nilai kolom kunci partisi dalam catatan. Nama kolom sama dengan bidang partisi MaxCompute. | TUPLE | (1). Skema DataHub harus mencakup bidang partisi MaxCompute. (2). Nilai kolom ini harus berupa |
SYSTEM_TIME | Waktu saat catatan ditulis ke DataHub. | TUPLE / BLOB | (1). Dalam konfigurasi partisi, atur format transformasi waktu untuk partisi MaxCompute. (2). Atur informasi zona waktu. |
EVENT_TIME | Nilai kolom | TUPLE | (1). Dalam konfigurasi partisi, atur format transformasi waktu untuk partisi MaxCompute. (2). Atur informasi zona waktu. |
META_TIME | Nilai bidang properti | TUPLE / BLOB | (1). Dalam konfigurasi partisi, atur format transformasi waktu untuk partisi MaxCompute. (2). Atur informasi zona waktu. |
Mode SYSTEM_TIME, EVENT_TIME, dan META_TIME menggunakan konfigurasi timestamp dan zona waktu untuk menentukan partisi MaxCompute. Satuan default untuk timestamp adalah mikrodetik.
Konfigurasi partisi menentukan cara timestamp dikonversi untuk partisi MaxCompute. Secara default, konsol menggunakan format partisi MaxCompute tetap. Konfigurasi partisi adalah sebagai berikut:
Partisi | Format waktu | Deskripsi |
ds | %Y%m%d | hari |
hh | %H | jam |
mm | %M | menit |
Interval partisi menentukan interval waktu untuk mengonversi timestamp ke partisi MaxCompute. Rentang waktu berkisar dari
15 menit hingga 1440 menit (1 hari), dengan interval langkah sebesar15 menit.Zona waktu menentukan zona waktu yang digunakan untuk konversi saat Anda membuat partisi MaxCompute berdasarkan timestamp.
Saat menyinkronkan data BLOB, Anda dapat menentukan pemisah heksadesimal untuk memisahkan data sebelum disinkronkan ke MaxCompute. Misalnya,
0Amerepresentasikanline feed (\n).Secara default, topik BLOB DataHub menyimpan data biner. Kolom yang sesuai dalam tugas sinkronisasi MaxCompute bertipe STRING. Oleh karena itu, saat membuat tugas sinkronisasi di konsol, data secara default dikodekan Base64 sebelum disinkronkan. Untuk kustomisasi lebih lanjut, Anda dapat menggunakan SDK.
Langkah 6: Lihat tugas sinkronisasi
Pada halaman detail konektor yang sesuai, Anda dapat melihat status Berjalan dan informasi checkpoint dari tugas sinkronisasi. Informasi ini mencakup checkpoint sinkronisasi, status sinkronisasi, serta operasi seperti restart dan stop.
Untuk informasi selengkapnya, lihat Buat Tugas Sinkronisasi MaxCompute.