全部产品
Search
文档中心

ApsaraDB for HBase:Mengarsipkan data inkremental ke MaxCompute

更新时间:Jun 29, 2025

Topik ini menjelaskan cara mengarsipkan data inkremental kluster HBase ke MaxCompute.

Catatan penggunaan

Fitur ini tidak lagi tersedia untuk instance Lindorm Tunnel Service (LTS) yang dibeli setelah 16 Juni 2023. Jika instance LTS Anda dibeli sebelum 16 Juni 2023, Anda masih dapat menggunakan fitur ini.

Prasyarat

  • LTS telah diaktifkan.

  • Sumber data HBase telah ditambahkan.

  • Sumber data MaxCompute telah ditambahkan.

Versi yang didukung

  • HBase V1.x dan HBase V2.x yang dikelola sendiri.

  • Elastic MapReduce (EMR) HBase.

  • ApsaraDB for HBase Standard Edition, ApsaraDB for HBase Performance-enhanced Edition yang berjalan dalam mode kluster, dan Lindorm.

Batasan

  • Data real-time diarsipkan berdasarkan log HBase. Oleh karena itu, data yang diimpor dengan menggunakan bulk loading tidak dapat diekspor.

Siklus hidup data log

  • Jika data log tidak dikonsumsi setelah Anda mengaktifkan fitur pengarsipan, data log akan disimpan selama 48 jam secara default. Setelah periode tersebut berakhir, langganan secara otomatis dibatalkan dan data yang tersimpan secara otomatis dihapus.

  • Jika Anda melepaskan instance LTS tanpa menghentikan tugas sinkronisasi yang dibuat pada instance LTS, tugas sinkronisasi akan ditangguhkan dan data tidak dikonsumsi.

Kirim tugas pengarsipan

  1. Masuk ke antarmuka web LTS. Di panel navigasi di sebelah kiri, pilih Data Export > Incremental Archive to MaxCompute.1

  2. Klik create new job. Pada halaman yang muncul, pilih kluster HBase sumber dan kluster MaxCompute tujuan, serta tentukan tabel HBase yang ingin Anda ekspor.Great Job Gambar di atas memberikan contoh tentang cara mengarsipkan data real-time dari tabel HBase wal-test ke MaxCompute.

    • Kolom yang akan diarsipkan adalah cf1:a, cf1:b, cf1:c, dan cf1:d.

    • Parameter mergeInterval menentukan interval pengarsipan dalam milidetik. Nilai defaultnya adalah 86400000.

    • Tentukan parameter mergeStartAt dalam format yyyyMMddHHmmss. Nilai dalam contoh ini menentukan 00:00, 30 September 2019 sebagai waktu mulai. Anda dapat menentukan waktu di masa lalu.

  3. Lihat kemajuan pengarsipan tabel. Bagian Real-time Synchronization Channel menunjukkan latensi dan offset awal dari tugas sinkronisasi log. Bagian Table Merge menunjukkan tugas penggabungan tabel. Setelah tabel digabungkan, Anda dapat memeriksa tabel partisi baru di MaxCompute.

  4. Masuk ke konsol MaxCompute untuk memeriksa data.View Table data

Parameter

Kode berikut memberikan contoh format untuk tabel yang diekspor:

hbaseTable/odpsTable {"cols": ["cf1:a|string", "cf1:b|int", "cf1:c|long", "cf1:d|short","cf1:e|decimal", "cf1:f|double","cf1:g|float","cf1:h|boolean","cf1:i"], "mergeInterval": 86400000, "mergeStartAt": "20191008100547"}
hbaseTable/odpsTable {"cols": ["cf1:a", "cf1:b", "cf1:c"],  "mergeStartAt": "20191008000000"}
hbaseTable {"mergeEnabled": false} // Tidak ada operasi penggabungan yang dilakukan pada tabel.

Tabel yang diekspor terdiri dari tiga bagian: hbaseTable, odpsTable, dan tbConf.

  • hbaseTable: tabel HBase sumber.

  • odpsTable: nama tabel MaxCompute tujuan. Parameter ini opsional. Secara default, nama tabel MaxCompute sama dengan nama tabel HBase sumber. Nama tabel MaxCompute tidak boleh mengandung titik (.) atau tanda hubung (-). Jika Anda menggunakan titik (.) atau tanda hubung (-), mereka akan diubah menjadi garis bawah (_).

  • tbConf: tindakan pengarsipan tabel. Tabel berikut mencantumkan parameter yang didukung.

Parameter

Deskripsi

Contoh

cols

Menentukan kolom yang ingin Anda ekspor dan tipe data kolom tersebut. Secara default, data dikonversi ke format HexString.

"cols": ["cf1:a", "cf1:b", "cf1:c"]

mergeEnabled

Menentukan apakah akan mengonversi tabel key-value (KV) menjadi tabel lebar. Nilai default: true.

"mergeEnabled": false

mergeStartAt

Waktu mulai untuk penggabungan tabel. Anda dapat menentukan waktu di masa lalu dalam format yyyyMMddHHmmss.

"mergeStartAt": "20191008000000"

mergeInterval

Interval di mana tugas penggabungan tabel dilakukan. Satuan: milidetik. Nilai defaultnya adalah 86400000. Jika nilai default digunakan, data diarsipkan setiap hari.

"mergeInterval": 86400000