全部产品
Search
文档中心

Elasticsearch:Gunakan DataWorks untuk menyinkronkan data dari HBase ke Alibaba Cloud ES

更新时间:Nov 10, 2025

Anda dapat menggunakan Alibaba Cloud Elasticsearch untuk mencari dan menganalisis data di HBase. Topik ini menjelaskan cara menggunakan Integrasi Data di DataWorks untuk melakukan sinkronisasi offline data ke instans Alibaba Cloud ES.

Informasi latar belakang

DataWorks adalah platform komprehensif untuk pengembangan dan tata kelola data besar yang mengintegrasikan fitur-fitur seperti pengembangan data, penjadwalan tugas, dan manajemen data. Anda dapat menggunakan tugas sinkronisasi di DataWorks untuk memindahkan data dengan cepat dari berbagai sumber data ke Alibaba Cloud ES.

Prasyarat

Catatan
  • Anda hanya dapat menyinkronkan data ke Alibaba Cloud ES. Instans Elasticsearch yang dikelola sendiri tidak didukung.

  • Instans HBase, instans ES, dan ruang kerja DataWorks harus berada di wilayah yang sama.

  • Instans HBase, instans ES, dan ruang kerja DataWorks harus berada di zona waktu yang sama. Jika tidak, perbedaan zona waktu dapat terjadi antara data sumber dan data yang disinkronkan saat Anda menyinkronkan data terkait waktu.

Penagihan

Prosedur

Langkah 1: Siapkan data sumber

Contoh ini menggunakan pernyataan pembuatan tabel dan data uji berikut. Untuk informasi selengkapnya tentang cara mengimpor data ke kluster HBase, lihat Gunakan HBase Shell untuk mengakses.

  • Pernyataan pembuatan tabel

    create 'student', {NAME => 'name'}, {NAME => 'ID'}, {NAME => 'gender'}
  • Data uji

    Gunakan perintah put untuk memasukkan data ke dalam tabel. Contoh: put 'student', 'row1', 'name:a', 'xiaoming'.

    Gunakan perintah scan untuk melihat data dalam tabel. Contoh: scan 'student'.HBase测试数据

Langkah 2: Beli dan konfigurasi grup sumber daya eksklusif

Beli grup sumber daya eksklusif untuk Integrasi Data dan sambungkan virtual private cloud (VPC) serta ruang kerja ke grup sumber daya tersebut. Grup sumber daya eksklusif memastikan transmisi data yang cepat dan stabil.

  1. Masuk ke Konsol DataWorks.

  2. Di bilah navigasi atas, pilih wilayah. Di panel navigasi kiri, klik Resource Group.

  3. Di tab Exclusive Resource Groups, klik Create Legacy Resource Group > Data Integration Resource Group.

  4. Di halaman pembelian DataWorks Exclusive Resources (Subscription), atur Resource Type menjadi Exclusive Resource Group For Data Integration, masukkan nama untuk grup sumber daya, lalu klik Buy Now.

    Untuk informasi selengkapnya, lihat Langkah 1: Buat grup sumber daya eksklusif untuk Integrasi Data.

  5. Di kolom Operation untuk grup sumber daya eksklusif yang Anda buat, klik Network Settings untuk menyambungkan virtual private cloud (VPC).

    Catatan

    Dalam contoh ini, grup sumber daya eksklusif untuk Integrasi Data digunakan untuk menyinkronkan data melalui VPC. Untuk informasi selengkapnya, lihat Konfigurasi daftar putih alamat IP.

    Untuk menyinkronkan data, sumber daya eksklusif harus terhubung ke Virtual Private Clouds (VPC) dari instans HBase dan Elasticsearch. Oleh karena itu, Anda harus menyambungkan sumber daya eksklusif ke VPC, Zone, dan vSwitch dari kedua instans HBase dan Elasticsearch. Untuk informasi selengkapnya tentang VPC instans ES, lihat Lihat informasi dasar instans Elasticsearch.

    Penting

    Setelah Anda menyambungkan virtual private cloud (VPC), Anda harus menambahkan vSwitch CIDR Block dari VPC ke daftar putih alamat IP privat untuk kluster HBase dan Elasticsearch. Untuk informasi selengkapnya, lihat Konfigurasi daftar putih alamat IP publik atau privat untuk kluster Elasticsearch.

  6. Di pojok kiri atas, klik ikon kembali untuk kembali ke halaman Resource Group List.

  7. Di kolom Operation untuk grup sumber daya eksklusif, klik Attach Workspace untuk menyambungkan ruang kerja tujuan.

    Untuk informasi selengkapnya, lihat Langkah 2: Asosiasikan grup sumber daya eksklusif untuk Integrasi Data dengan ruang kerja.

Langkah 3: Tambahkan sumber data

Tambahkan sumber data HBase dan Elasticsearch ke Integrasi Data di DataWorks.

  1. Buka halaman Integrasi Data DataWorks.

    1. Masuk ke Konsol DataWorks.

    2. Di panel navigasi kiri, klik Workspace.

    3. Di kolom Operation ruang kerja tujuan, pilih Go To > Data Integration.

  2. Di panel navigasi kiri pada halaman Integrasi Data, klik Data Source.

  3. Tambahkan sumber data HBase.

    1. Di halaman Data Source List, klik Add Data Source.

    2. Di kotak dialog Add Data Source, cari dan pilih HBase.

    3. Di kotak dialog Add HBase Data Source, Anda dapat mengonfigurasi parameter sumber data di bagian Basic Information.

      Untuk informasi selengkapnya, lihat Konfigurasi sumber data HBase.

    4. Di bagian Connection Configuration, klik Test Connectivity. Status Connected menunjukkan koneksi berhasil.

    5. Klik Complete.

  4. Tambahkan sumber data Elasticsearch dengan cara yang sama. Untuk informasi selengkapnya, lihat Tambahkan sumber data Elasticsearch.

Langkah 4: Konfigurasi dan jalankan tugas sinkronisasi offline

Tugas sinkronisasi offline dijalankan menggunakan grup sumber daya eksklusif. Grup sumber daya eksklusif mengambil data dari sumber data di Integrasi Data dan menulis data ke instans ES.

Catatan
  1. Buka halaman Pengembangan Data DataWorks.

    1. Masuk ke Konsol DataWorks.

    2. Di panel navigasi kiri, klik Workspace.

    3. Di kolom Operation ruang kerja tujuan, pilih Go To Data Development.

  2. Buat tugas sinkronisasi offline.

    1. Di tab Pengembangan Data (image icon) di panel navigasi kiri, pilih Create > Create Workflow dan ikuti petunjuk di layar untuk membuat alur kerja.

    2. Klik kanan alur kerja yang Anda buat dan pilih Create Node > Data Integration > Offline Synchronization.

    3. Di kotak dialog Create Node, masukkan nama node dan klik Confirm.

  3. Konfigurasi jaringan dan sumber daya.

    1. Di bagian Source, atur Source menjadi HBase dan Data Source Name menjadi nama sumber data.

    2. Untuk Resource Group, pilih grup sumber daya eksklusif.

    3. Di bagian Destination, atur Destination menjadi Elasticsearch dan Data Source Name menjadi sumber data tujuan.

  4. Klik Next.

  5. Konfigurasi tugas.

    1. Di bagian Source, pilih tabel yang akan disinkronkan.

    2. Anda dapat mengonfigurasi parameter di bagian Destination.

    3. Di bagian Field Mapping, konfigurasikan pemetaan antara Source Fields dan Destination Fields. Untuk informasi selengkapnya, lihat Konfigurasi tugas sinkronisasi offline menggunakan Antarmuka tanpa kode.

    4. Di bagian Channel Control, Anda dapat mengonfigurasi parameter saluran.

    Untuk informasi selengkapnya, lihat Konfigurasi tugas sinkronisasi batch menggunakan Antarmuka tanpa kode.

  6. Jalankan tugas.

    1. (Opsional) Di sisi kanan halaman, klik Scheduling Configuration untuk mengonfigurasi parameter penjadwalan sesuai kebutuhan. Untuk informasi selengkapnya, lihat Scheduling Configuration.

    2. Di atas editor node, klik ikon Simpan untuk menyimpan tugas.

    3. Di atas editor node, klik ikon Kirim untuk mengirimkan tugas.

      Jika Anda mengonfigurasi properti penjadwalan untuk tugas, tugas akan berjalan secara berkala. Anda juga dapat mengklik ikon Jalankan di pojok kanan atas editor node untuk segera menjalankan tugas.

      Jika Shell run successfully! muncul di log operasional, tugas berhasil dijalankan.

Langkah 5: Verifikasi hasil sinkronisasi data

  1. Masuk ke konsol Kibana kluster Elasticsearch Anda dan buka halaman utama konsol Kibana seperti yang diminta.

    Untuk informasi selengkapnya tentang cara masuk ke konsol Kibana, lihat Masuk ke konsol Kibana.

    Catatan

    Dalam contoh ini, kluster Elasticsearch V7.10.0 digunakan. Operasi pada kluster versi lain mungkin berbeda. Ikuti petunjuk pada konsol yang sesuai.

  2. Di pojok kanan atas halaman yang muncul, klik Dev tools.

  3. Di tab Console, jalankan perintah berikut untuk melihat data yang disinkronkan.

    POST /student_info/_search?pretty
    {
       "query": { "match_all": {}}
    }
    Catatan

    student_info adalah nama indeks yang Anda tetapkan untuk tujuan dalam tugas sinkronisasi offline.