Anda dapat menggunakan Alibaba Cloud Elasticsearch untuk mencari dan menganalisis data di HBase. Topik ini menjelaskan cara menggunakan Integrasi Data di DataWorks untuk melakukan sinkronisasi offline data ke instans Alibaba Cloud ES.
Informasi latar belakang
DataWorks adalah platform komprehensif untuk pengembangan dan tata kelola data besar yang mengintegrasikan fitur-fitur seperti pengembangan data, penjadwalan tugas, dan manajemen data. Anda dapat menggunakan tugas sinkronisasi di DataWorks untuk memindahkan data dengan cepat dari berbagai sumber data ke Alibaba Cloud ES.
Sumber data berikut didukung:
Database Alibaba Cloud: ApsaraDB for RDS (MySQL, PostgreSQL, SQL Server), ApsaraDB for MongoDB, dan ApsaraDB for HBase
Alibaba Cloud PolarDB-X (ditingkatkan dari DRDS)
Alibaba Cloud MaxCompute
Alibaba Cloud Object Storage Service (OSS)
Alibaba Cloud Tablestore
Sumber data mandiri, seperti HDFS, Oracle, FTP, dan DB2.
Skenario:
Menyinkronkan data besar dari database atau tabel ke Alibaba Cloud Elasticsearch secara offline. Untuk informasi selengkapnya, lihat Buat tugas sinkronisasi batch untuk menyinkronkan semua data dalam database ke Elasticsearch.
Menyinkronkan data besar lengkap dan inkremental ke Alibaba Cloud Elasticsearch secara real time. Untuk informasi selengkapnya, lihat Sinkronkan seluruh database MySQL ke Elasticsearch secara real time.
Prasyarat
Kluster ApsaraDB for HBase telah dibuat. Untuk informasi selengkapnya, lihat Beli kluster.
Kluster Alibaba Cloud Elasticsearch telah dibuat, dan fitur Pengindeksan Otomatis diaktifkan untuk kluster tersebut. Untuk informasi selengkapnya, lihat Buat kluster Alibaba Cloud Elasticsearch dan Konfigurasi file YML.
Ruang kerja DataWorks telah dibuat. Untuk informasi selengkapnya, lihat Buat ruang kerja.
Anda hanya dapat menyinkronkan data ke Alibaba Cloud ES. Instans Elasticsearch yang dikelola sendiri tidak didukung.
Instans HBase, instans ES, dan ruang kerja DataWorks harus berada di wilayah yang sama.
Instans HBase, instans ES, dan ruang kerja DataWorks harus berada di zona waktu yang sama. Jika tidak, perbedaan zona waktu dapat terjadi antara data sumber dan data yang disinkronkan saat Anda menyinkronkan data terkait waktu.
Penagihan
Untuk informasi selengkapnya tentang biaya instans ES, lihat Item yang dapat ditagih ES.
Untuk informasi selengkapnya tentang penagihan grup sumber daya eksklusif untuk Integrasi Data, lihat Penagihan grup sumber daya eksklusif untuk Integrasi Data (langganan).
Prosedur
Langkah 1: Siapkan data sumber
Contoh ini menggunakan pernyataan pembuatan tabel dan data uji berikut. Untuk informasi selengkapnya tentang cara mengimpor data ke kluster HBase, lihat Gunakan HBase Shell untuk mengakses.
Pernyataan pembuatan tabel
create 'student', {NAME => 'name'}, {NAME => 'ID'}, {NAME => 'gender'}Data uji
Gunakan perintah put untuk memasukkan data ke dalam tabel. Contoh:
put 'student', 'row1', 'name:a', 'xiaoming'.Gunakan perintah scan untuk melihat data dalam tabel. Contoh:
scan 'student'.
Langkah 2: Beli dan konfigurasi grup sumber daya eksklusif
Beli grup sumber daya eksklusif untuk Integrasi Data dan sambungkan virtual private cloud (VPC) serta ruang kerja ke grup sumber daya tersebut. Grup sumber daya eksklusif memastikan transmisi data yang cepat dan stabil.
Masuk ke Konsol DataWorks.
Di bilah navigasi atas, pilih wilayah. Di panel navigasi kiri, klik Resource Group.
Di tab Exclusive Resource Groups, klik .
Di halaman pembelian DataWorks Exclusive Resources (Subscription), atur Resource Type menjadi Exclusive Resource Group For Data Integration, masukkan nama untuk grup sumber daya, lalu klik Buy Now.
Untuk informasi selengkapnya, lihat Langkah 1: Buat grup sumber daya eksklusif untuk Integrasi Data.
Di kolom Operation untuk grup sumber daya eksklusif yang Anda buat, klik Network Settings untuk menyambungkan virtual private cloud (VPC).
CatatanDalam contoh ini, grup sumber daya eksklusif untuk Integrasi Data digunakan untuk menyinkronkan data melalui VPC. Untuk informasi selengkapnya, lihat Konfigurasi daftar putih alamat IP.
Untuk menyinkronkan data, sumber daya eksklusif harus terhubung ke Virtual Private Clouds (VPC) dari instans HBase dan Elasticsearch. Oleh karena itu, Anda harus menyambungkan sumber daya eksklusif ke VPC, Zone, dan vSwitch dari kedua instans HBase dan Elasticsearch. Untuk informasi selengkapnya tentang VPC instans ES, lihat Lihat informasi dasar instans Elasticsearch.
PentingSetelah Anda menyambungkan virtual private cloud (VPC), Anda harus menambahkan vSwitch CIDR Block dari VPC ke daftar putih alamat IP privat untuk kluster HBase dan Elasticsearch. Untuk informasi selengkapnya, lihat Konfigurasi daftar putih alamat IP publik atau privat untuk kluster Elasticsearch.
Di pojok kiri atas, klik ikon kembali untuk kembali ke halaman Resource Group List.
Di kolom Operation untuk grup sumber daya eksklusif, klik Attach Workspace untuk menyambungkan ruang kerja tujuan.
Untuk informasi selengkapnya, lihat Langkah 2: Asosiasikan grup sumber daya eksklusif untuk Integrasi Data dengan ruang kerja.
Langkah 3: Tambahkan sumber data
Tambahkan sumber data HBase dan Elasticsearch ke Integrasi Data di DataWorks.
Buka halaman Integrasi Data DataWorks.
Masuk ke Konsol DataWorks.
Di panel navigasi kiri, klik Workspace.
Di kolom Operation ruang kerja tujuan, pilih .
Di panel navigasi kiri pada halaman Integrasi Data, klik Data Source.
Tambahkan sumber data HBase.
Di halaman Data Source List, klik Add Data Source.
Di kotak dialog Add Data Source, cari dan pilih HBase.
Di kotak dialog Add HBase Data Source, Anda dapat mengonfigurasi parameter sumber data di bagian Basic Information.
Untuk informasi selengkapnya, lihat Konfigurasi sumber data HBase.
Di bagian Connection Configuration, klik Test Connectivity. Status Connected menunjukkan koneksi berhasil.
Klik Complete.
Tambahkan sumber data Elasticsearch dengan cara yang sama. Untuk informasi selengkapnya, lihat Tambahkan sumber data Elasticsearch.
Langkah 4: Konfigurasi dan jalankan tugas sinkronisasi offline
Tugas sinkronisasi offline dijalankan menggunakan grup sumber daya eksklusif. Grup sumber daya eksklusif mengambil data dari sumber data di Integrasi Data dan menulis data ke instans ES.
Anda dapat mengonfigurasi tugas sinkronisasi batch menggunakan Antarmuka tanpa kode atau editor kode. Topik ini menjelaskan cara mengonfigurasi tugas sinkronisasi batch menggunakan Antarmuka tanpa kode. Untuk informasi tentang cara menggunakan editor kode, lihat Konfigurasi tugas sinkronisasi batch menggunakan editor kode dan Elasticsearch Writer.
Topik ini menggunakan halaman Data Development (DataStudio) lama sebagai contoh untuk menunjukkan cara membuat tugas sinkronisasi offline.
Buka halaman Pengembangan Data DataWorks.
Masuk ke Konsol DataWorks.
Di panel navigasi kiri, klik Workspace.
Di kolom Operation ruang kerja tujuan, pilih .
Buat tugas sinkronisasi offline.
Di tab Pengembangan Data (
icon) di panel navigasi kiri, pilih dan ikuti petunjuk di layar untuk membuat alur kerja.Klik kanan alur kerja yang Anda buat dan pilih .
Di kotak dialog Create Node, masukkan nama node dan klik Confirm.
Konfigurasi jaringan dan sumber daya.
Di bagian Source, atur Source menjadi HBase dan Data Source Name menjadi nama sumber data.
Untuk Resource Group, pilih grup sumber daya eksklusif.
Di bagian Destination, atur Destination menjadi Elasticsearch dan Data Source Name menjadi sumber data tujuan.
Klik Next.
Konfigurasi tugas.
Di bagian Source, pilih tabel yang akan disinkronkan.
Anda dapat mengonfigurasi parameter di bagian Destination.
Di bagian Field Mapping, konfigurasikan pemetaan antara Source Fields dan Destination Fields. Untuk informasi selengkapnya, lihat Konfigurasi tugas sinkronisasi offline menggunakan Antarmuka tanpa kode.
Di bagian Channel Control, Anda dapat mengonfigurasi parameter saluran.
Untuk informasi selengkapnya, lihat Konfigurasi tugas sinkronisasi batch menggunakan Antarmuka tanpa kode.
Jalankan tugas.
(Opsional) Di sisi kanan halaman, klik Scheduling Configuration untuk mengonfigurasi parameter penjadwalan sesuai kebutuhan. Untuk informasi selengkapnya, lihat Scheduling Configuration.
Di atas editor node, klik ikon Simpan untuk menyimpan tugas.
Di atas editor node, klik ikon Kirim untuk mengirimkan tugas.
Jika Anda mengonfigurasi properti penjadwalan untuk tugas, tugas akan berjalan secara berkala. Anda juga dapat mengklik ikon Jalankan di pojok kanan atas editor node untuk segera menjalankan tugas.
Jika
Shell run successfully!muncul di log operasional, tugas berhasil dijalankan.
Langkah 5: Verifikasi hasil sinkronisasi data
Masuk ke konsol Kibana kluster Elasticsearch Anda dan buka halaman utama konsol Kibana seperti yang diminta.
Untuk informasi selengkapnya tentang cara masuk ke konsol Kibana, lihat Masuk ke konsol Kibana.
CatatanDalam contoh ini, kluster Elasticsearch V7.10.0 digunakan. Operasi pada kluster versi lain mungkin berbeda. Ikuti petunjuk pada konsol yang sesuai.
Di pojok kanan atas halaman yang muncul, klik Dev tools.
Di tab Console, jalankan perintah berikut untuk melihat data yang disinkronkan.
POST /student_info/_search?pretty { "query": { "match_all": {}} }Catatanstudent_infoadalah nama indeks yang Anda tetapkan untuk tujuan dalam tugas sinkronisasi offline.