全部产品
Search
文档中心

Lindorm:Arsipkan data inkremental ke MaxCompute

更新时间:Jun 24, 2025

Topik ini menjelaskan cara mengarsipkan data inkremental di kluster HBase ke MaxCompute.

Catatan penggunaan

Fitur ini tidak lagi tersedia untuk instance LTS yang dibeli setelah 16 Juni 2023. Jika instance LTS Anda dibeli sebelum 16 Juni 2023, Anda masih dapat menggunakan fitur ini.

Prasyarat

  1. Layanan Lindorm Tunnel Service (LTS) telah diaktifkan.

  2. Sumber data HBase telah ditambahkan.

  3. Sumber data MaxCompute telah ditambahkan.

Versi yang didukung

  • HBase yang dikelola sendiri V1.x dan HBase V2.x

  • E-MapReduce HBase

  • ApsaraDB for HBase Standard Edition, ApsaraDB for HBase Performance-enhanced Edition yang berjalan dalam mode kluster, dan Lindorm

Batasan

  • Data real-time diarsipkan berdasarkan log HBase. Oleh karena itu, data yang diimpor dengan menggunakan bulk loading tidak dapat diekspor.

Siklus hidup data log

  • Jika data log tidak dikonsumsi setelah Anda mengaktifkan fitur pengarsipan, data log akan disimpan selama 48 jam secara default. Setelah periode tersebut berakhir, langganan akan dibatalkan secara otomatis dan data yang tersimpan akan dihapus secara otomatis.

  • Data log mungkin gagal dikonsumsi jika kluster LTS Anda dilepaskan sementara tugas masih berjalan atau tugas sinkronisasi ditangguhkan.

Kirim tugas pengarsipan

  1. Masuk ke antarmuka web LTS. Di panel navigasi di sebelah kiri, pilih Data Export > Incremental Archive to MaxCompute.1

  2. Klik create new job. Pada halaman yang muncul, pilih kluster HBase sumber dan paket sumber daya MaxCompute tujuan, serta tentukan tabel HBase yang ingin Anda ekspor.Great JobGambar di atas memberikan contoh tentang cara mengarsipkan data dari tabel HBase wal-test ke MaxCompute secara real-time.

    • Kolom yang akan diarsipkan adalah cf1:a, cf1:b, cf1:c, dan cf1:d.

    • Parameter mergeInterval menentukan interval pengarsipan dalam milidetik. Nilai defaultnya adalah 86.400.000.

    • Tentukan parameter mergeStartAt dalam format yyyyMMddHHmmss. Nilai dalam contoh ini menentukan 00:00, 30 September 2019 sebagai waktu mulai. Anda dapat menentukan titik waktu di masa lalu.

  3. Lihat kemajuan pengarsipan tabel. Bagian Real-time Synchronization Channel menunjukkan latensi dan offset awal tugas sinkronisasi log. Bagian Table Merge menunjukkan tugas penggabungan tabel. Setelah tabel digabungkan, Anda dapat menanyakan tabel partisi baru di MaxCompute.

  4. Tanyakan data di MaxCompute.View Table data

Parameter

Kode berikut memberikan contoh format tabel yang diekspor:

hbaseTable/odpsTable {"cols": ["cf1:a|string", "cf1:b|int", "cf1:c|long", "cf1:d|short","cf1:e|decimal", "cf1:f|double","cf1:g|float","cf1:h|boolean","cf1:i"], "mergeInterval": 86400000, "mergeStartAt": "20191008100547"}
hbaseTable/odpsTable {"cols": ["cf1:a", "cf1:b", "cf1:c"],  "mergeStartAt": "20191008000000"}
hbaseTable {"mergeEnabled": false} // Tidak ada operasi penggabungan yang dilakukan pada tabel.

Ekspresi untuk tabel yang diekspor terdiri dari tiga bagian: {{hbaseTable}}, {{odpsTable}}, dan {{tbConf}}. {{hbaseTable}}: tabel HBase sumber. {{odpsTable}}: nama tabel MaxCompute tujuan. Bagian ini opsional. Secara default, tabel MaxCompute memiliki nama yang sama dengan tabel HBase. Nama tabel MaxCompute tidak mendukung karakter seperti tanda hubung (-), dan karakter ini diubah menjadi garis bawah (_). {{tbConf}}: konfigurasi pengarsipan tabel. Tabel berikut menjelaskan parameter yang didukung di bagian {{tbConf}}.

Parameter

Fitur

Contoh

cols

Menentukan kolom yang ingin Anda ekspor dan tipe data kolom tersebut. Secara default, data dikonversi ke format HexString.

"cols": ["cf1:a", "cf1:b", "cf1:c"]

mergeEnabled

Menentukan apakah akan mengonversi tabel key-value (KV) menjadi tabel lebar. Nilai default: true.

"mergeEnabled": false

mergeStartAt

Waktu mulai untuk penggabungan tabel. Tentukan nilai parameter ini dalam format yyyyMMddHHmmss. Anda dapat menentukan titik waktu di masa lalu.

"mergeStartAt": "20191008000000"

mergeInterval

Interval di mana tugas penggabungan tabel dilakukan. Satuan: milidetik. Nilai defaultnya adalah satu hari. Jika nilai default digunakan, data diarsipkan setiap hari.

"mergeInterval": 86400000