全部产品
Search
文档中心

DataHub:Mulai dengan DataHub

更新时间:Jun 30, 2025

Langkah 1: Aktifkan DataHub

  1. Masuk ke Konsol DataHub.

  2. Aktifkan DataHub sesuai petunjuk.

Langkah 2: Buat Proyek dan Topik

  1. Masuk ke Konsol DataHub.

  2. Di halaman Daftar Proyek, klik Buat Proyek di pojok kanan atas dan atur parameter yang diperlukan untuk membuat proyek.

Parameter

Deskripsi

Nama

Nama proyek. Proyek adalah unit organisasi di DataHub dan berisi satu atau lebih topik. Proyek DataHub independen dari proyek MaxCompute. Proyek yang dibuat di MaxCompute tidak dapat digunakan di DataHub.

Deskripsi

Deskripsi proyek.

Di halaman detail proyek, klik Buat Topik di pojok kanan atas dan atur parameter yang diperlukan untuk membuat topik.

topic

Parameter

Deskripsi

Tipe Pembuatan

Metode yang digunakan untuk membuat topik. Proyek adalah unit organisasi di DataHub dan berisi satu atau lebih topik. Proyek DataHub independen dari proyek MaxCompute. Proyek yang dibuat di MaxCompute tidak dapat digunakan di DataHub.

Nama

Nama topik.

Tipe

Tipe data dalam topik. TUPLE menunjukkan data terstruktur. BLOB menunjukkan data tidak terstruktur.

Detail Skema

Detail skema. Parameter Detail Skema ditampilkan jika Anda mengatur parameter Tipe ke TUPLE. Anda dapat membuat bidang berdasarkan kebutuhan bisnis Anda. Jika Anda memilih Mengizinkan Null untuk suatu bidang, bidang tersebut akan disetel ke NULL jika bidang tersebut tidak ada di hulu. Jika Anda menghapus pilihan Mengizinkan Null untuk suatu bidang, konfigurasi bidang diverifikasi secara ketat. Kesalahan akan dikembalikan jika tipe yang ditentukan untuk bidang tersebut tidak valid.

Jumlah Shard

Jumlah shard dalam topik. Shard memastikan transmisi data konkuren dari suatu topik. Setiap shard memiliki ID unik. Sebuah shard mungkin berada dalam salah satu dari status berikut: Opening: Shard sedang dimulai. Active: Shard telah dimulai dan tersedia. Setiap shard yang tersedia mengonsumsi sumber daya di server. Kami merekomendasikan agar Anda membuat shard sesuai kebutuhan.

Siklus Hidup

Periode maksimum selama data yang ditulis ke topik dapat disimpan di DataHub, dalam hari. Nilai minimum: 1. Nilai maksimum: 7. Untuk memodifikasi periode time-to-live (TTL) dari suatu topik, panggil metode updateTopic menggunakan DataHub SDK for Java. Untuk informasi lebih lanjut, lihat DataHub SDK for Java.

Deskripsi

Deskripsi topik.

Langkah 3: Tulis Data ke Topik yang Dibuat

DataHub menyediakan beberapa metode untuk menulis data. Anda dapat menggunakan plugin seperti Apache Flume untuk menulis log. Jika ingin menulis data dari database, gunakan Data Transformation Services (DTS), Canal, atau SDK. Dalam contoh ini, alat baris perintah konsol digunakan untuk menulis data dengan mengunggah file.

  1. Unduh dan ekstrak paket instalasi alat baris perintah konsol, lalu tentukan pasangan AccessKey dan titik akhir sesuai kebutuhan. Untuk informasi lebih lanjut, lihat Alat Baris Perintah Konsol.

  2. Jalankan perintah berikut untuk mengunggah file:

  3. Contoh data digunakan untuk mengevaluasi kualitas data.

    Data sampel digunakan untuk mengevaluasi kualitas data.

    1. Pilih shard, seperti Shard 0. Di panel Sampel: 0, atur jumlah entri data yang akan diambil sampelnya dan waktu mulai untuk pengambilan sampel.

    2. Klik Sampel. Data sampel ditampilkan.chou

Langkah 4: Sinkronkan Data

Langkah 4: Sinkronkan Data

Sinkronkan data ke MaxCompute.

  1. Di panel navigasi sisi kiri Konsol DataHub, klik Pengelola Proyek. Di halaman Daftar Proyek, temukan proyek dan klik Lihat di kolom Aksi. Di halaman detail proyek, temukan topik dan klik Lihat di kolom Aksi.

  2. Di halaman detail topik, klik Connector di pojok kanan atas. Di panel Buat Connector, buat DataConnector sesuai kebutuhan.

    3

  3. Klik MaxCompute untuk menampilkan parameter berikut.

4Deskripsi Sebagian Parameter:

Berikut ini menjelaskan sebagian parameter yang digunakan untuk membuat DataConnector di konsol. Untuk membuat DataConnector secara lebih fleksibel, gunakan SDK.

  1. Impor Bidang

    Anda dapat menentukan kolom yang akan disinkronkan ke tabel MaxCompute tujuan.

  2. Mode Partisi

    Mode partisi menentukan ke partisi mana di MaxCompute data ditulis. Tabel berikut menjelaskan mode partisi yang didukung oleh DataHub.

Mode partisi

Dasar partisi

Tipe data yang didukung dari suatu topik

Deskripsi

USER_DEFINE

Berdasarkan nilai di kolom kunci partisi dalam catatan. Nama kolom kunci partisi harus sama dengan nama bidang partisi di MaxCompute.

TUPLE

1. Skema topik harus berisi bidang partisi di MaxCompute. 2. Nilai kolom harus string yang dikodekan dalam UTF-8 dan tidak boleh NULL.

SYSTEM_TIME

Berdasarkan cap waktu saat catatan ditulis ke DataHub.

TUPLE dan BLOB

1. Anda harus mengatur parameter Partition Config untuk menentukan satu atau lebih format ke mana cap waktu dikonversi untuk partisi berbasis waktu di MaxCompute. 2. Anda harus mengatur parameter Timezone untuk menentukan zona waktu.

EVENT_TIME

Berdasarkan nilai di kolom event_time(TIMESTAMP) dalam catatan.

TUPLE

1. Anda harus mengatur parameter Partition Config untuk menentukan satu atau lebih format ke mana cap waktu dikonversi untuk partisi berbasis waktu di MaxCompute. 2. Anda harus mengatur parameter Timezone untuk menentukan zona waktu.

META_TIME

Berdasarkan nilai di kolom properti __dh_meta_time__ dalam catatan.

TUPLE dan BLOB

1. Anda harus mengatur parameter Partition Config untuk menentukan satu atau lebih format ke mana cap waktu dikonversi untuk partisi berbasis waktu di MaxCompute. 2. Anda harus mengatur parameter Timezone untuk menentukan zona waktu.

Dalam mode SYSTEM_TIME, EVENT_TIME, atau META_TIME, data disinkronkan ke partisi berbeda di tabel MaxCompute tujuan berdasarkan cap waktu dan zona waktu yang ditentukan. Secara default, cap waktu dalam mikrodetik.

  1. Parameter Partition Config menentukan konfigurasi yang digunakan untuk mengonversi cap waktu untuk mengimplementasikan partisi berbasis waktu di tabel MaxCompute tujuan. Tabel berikut menjelaskan format waktu MaxCompute default yang didukung di Konsol DataHub.

Tipe partisi

Format waktu

Deskripsi

ds

%Y%m%d

Hari

hh

%H

Jam

mm

%M

Menit

  1. Parameter Rentang Waktu menentukan interval di mana partisi dihasilkan di tabel MaxCompute tujuan. Nilai valid: 15 hingga 1440, dalam menit. Ukuran langkah adalah 15.

  2. Parameter Timezone menentukan zona waktu yang digunakan untuk mengimplementasikan partisi berbasis waktu.

  3. Jika Anda menyinkronkan data tipe BLOB ke MaxCompute, Anda dapat menggunakan pembatas heksadesimal untuk membagi data sebelum sinkronisasi. Misalnya, Anda dapat mengatur parameter Split Key ke 0A, yang menunjukkan line feeds (\n).

  4. Secara default, topik yang tipe datanya adalah BLOB menyimpan data biner. Namun, data tersebut dipetakan ke kolom tipe STRING di MaxCompute. Oleh karena itu, pengkodean Base64 diaktifkan secara otomatis saat Anda membuat DataConnector di Konsol DataHub. Jika Anda ingin menyesuaikan DataConnector Anda, gunakan SDK.

Langkah 5: Lihat DataConnector

5

Untuk informasi lebih lanjut, lihat Sinkronkan Data ke MaxCompute.