Latensi kueri Hadoop - Elasticsearch

Jika Anda mengalami latensi tinggi saat melakukan analitik dan kueri data besar secara interaktif pada Hadoop, Anda dapat menyinkronkan data tersebut ke Alibaba Cloud Elasticsearch untuk kueri dan analisis yang lebih cepat. Elasticsearch dapat merespons berbagai jenis kueri, terutama kueri ad hoc, dalam hitungan detik. Topik ini menjelaskan cara menggunakan layanan Data Integration dari DataWorks untuk menyinkronkan sejumlah besar data dari Hadoop ke Alibaba Cloud ES.

Informasi latar belakang

DataWorks adalah platform komprehensif untuk pengembangan dan tata kelola data besar yang mengintegrasikan fitur-fitur seperti pengembangan data, penjadwalan tugas, dan manajemen data. Anda dapat menggunakan tugas sinkronisasi di DataWorks untuk memindahkan data dengan cepat dari berbagai sumber data ke Alibaba Cloud ES.

Sumber data berikut didukung:
- Database Alibaba Cloud: ApsaraDB for RDS (MySQL, PostgreSQL, SQL Server), ApsaraDB for MongoDB, dan ApsaraDB for HBase
- Alibaba Cloud PolarDB-X (peningkatan dari DRDS)
- Alibaba Cloud MaxCompute
- Alibaba Cloud Object Storage Service (OSS)
- Alibaba Cloud Tablestore
- Sumber data mandiri, seperti HDFS, Oracle, FTP, dan DB2.
Skenario:
- Menyinkronkan data besar dari database atau tabel ke Alibaba Cloud Elasticsearch secara offline. Untuk informasi selengkapnya, lihat Buat tugas sinkronisasi batch untuk menyinkronkan semua data dalam database ke Elasticsearch.
- Menyinkronkan data besar lengkap dan inkremental ke Alibaba Cloud Elasticsearch secara real time. Untuk informasi selengkapnya, lihat Sinkronkan seluruh database MySQL ke Elasticsearch secara real time.

Prasyarat

Kluster Alibaba Cloud Elasticsearch telah dibuat dan fitur Auto Indexing diaktifkan untuk kluster tersebut. Untuk informasi selengkapnya, lihat Buat kluster Alibaba Cloud Elasticsearch dan Konfigurasi file YML.
Catatan
Anda hanya dapat menyinkronkan data ke instans Alibaba Cloud ES. Kluster Elasticsearch yang dikelola sendiri tidak didukung.
Ruang kerja DataWorks telah dibuat. Untuk informasi selengkapnya, lihat Buat ruang kerja.

Catatan

Kluster Hadoop sudah ada dan berisi data.
Kluster Hadoop, instans ES, dan ruang kerja DataWorks harus berada di wilayah yang sama.
Kluster Hadoop, instans ES, dan ruang kerja DataWorks harus berada di zona waktu yang sama. Jika tidak, saat Anda menyinkronkan data terkait waktu, data di sumber dan tujuan mungkin memiliki perbedaan zona waktu.

Penagihan

Untuk informasi selengkapnya tentang biaya instans ES, lihat Item yang dapat ditagih ES.
Untuk informasi selengkapnya tentang penagihan grup sumber daya eksklusif untuk Data Integration, lihat Penagihan grup sumber daya eksklusif untuk Data Integration (langganan).

Prosedur

Langkah 1: Beli dan buat grup sumber daya eksklusif

Beli grup sumber daya eksklusif untuk Data Integration dan hubungkan grup sumber daya tersebut dengan VPC dan ruang kerja. Grup sumber daya eksklusif memastikan transmisi data yang cepat dan stabil.

Masuk ke Konsol DataWorks.
Di bilah navigasi atas, pilih wilayah. Di panel navigasi sebelah kiri, klik Resource Group.
Di tab Exclusive Resource Groups, klik Create Old Version Resource Group > Data Integration Resource Group.
Di halaman pembelian DataWorks Exclusive Resources (Subscription), atur Exclusive Resource Type menjadi Exclusive Data Integration Resources, masukkan nama grup sumber daya, lalu klik Buy Now.
Untuk informasi selengkapnya, lihat Langkah 1: Buat grup sumber daya eksklusif untuk Data Integration.
Di kolom Actions grup sumber daya eksklusif yang telah Anda buat, klik Network Settings untuk menyambungkan virtual private cloud (VPC) ke grup sumber daya tersebut. Untuk informasi selengkapnya, lihat Attach a VPC.
Catatan
Dalam contoh ini, grup sumber daya eksklusif untuk Data Integration digunakan untuk menyinkronkan data melalui VPC. Untuk informasi tentang cara menggunakan grup sumber daya eksklusif untuk Data Integration guna menyinkronkan data melalui Internet, lihat Configure an IP address whitelist.
Grup sumber daya eksklusif harus terhubung ke VPC tempat kluster Hadoop berada dan VPC tempat kluster Elasticsearch berada. Hal ini memungkinkan data disinkronkan menggunakan grup sumber daya eksklusif. Oleh karena itu, Anda harus menghubungkan grup sumber daya eksklusif dengan VPC, Zone, dan vSwitch kluster Hadoop dan kluster Elasticsearch. Untuk informasi tentang cara melihat VPC, zona, dan vSwitch kluster Elasticsearch, lihat View the basic information of a cluster.
Penting
Setelah Anda menyambungkan VPC, Anda harus menambahkan vSwitch CIDR Block VPC tersebut ke daftar putih akses internal kluster Hadoop dan instans ES. Untuk informasi selengkapnya, lihat Configure a public or private access whitelist for an ES instance.
Klik ikon kembali di pojok kiri atas halaman untuk kembali ke halaman Resource Groups.
Di kolom Actions grup sumber daya eksklusif yang telah Anda buat, klik Attach Workspace untuk menghubungkan grup sumber daya tersebut ke ruang kerja target.
Untuk informasi selengkapnya, lihat Langkah 2: Hubungkan grup sumber daya eksklusif untuk Data Integration dengan ruang kerja.

Langkah 2: Tambahkan sumber data

Buka halaman Data Integration di DataWorks.
1. Masuk ke Konsol DataWorks.
2. Di panel navigasi sebelah kiri, klik Workspaces.
3. Di kolom Operation ruang kerja target, pilih Quick Access > Data Integration.
Di panel navigasi sebelah kiri, klik Data Source.
Tambahkan sumber data Hadoop Distributed File System (HDFS).
1. Di halaman Data Sources, klik Add Data Source.
2. Di kotak dialog Add Data Source, cari dan pilih HDFS.
3. Di halaman Add HDFS Data Source, konfigurasikan parameter sumber data.
  Untuk informasi selengkapnya, lihat Add an HDFS data source.
4. Klik Test Connectivity. Status Connected menunjukkan bahwa koneksi berhasil.
5. Klik Complete.
Tambahkan sumber data Elasticsearch dengan cara yang sama. Untuk informasi selengkapnya, lihat Add an Elasticsearch data source.

Langkah 3: Konfigurasi dan jalankan tugas sinkronisasi data batch

Tugas sinkronisasi batch dijalankan menggunakan grup sumber daya eksklusif. Grup sumber daya tersebut mengambil data dari sumber dan menulis data ke instans ES.

Catatan

Anda dapat menggunakan antarmuka tanpa kode atau editor kode untuk mengonfigurasi tugas sinkronisasi batch. Dalam contoh ini, digunakan antarmuka tanpa kode. Untuk informasi tentang cara menggunakan editor kode untuk mengonfigurasi tugas sinkronisasi batch, lihat Configure a batch synchronization task using the code editor dan Elasticsearch Writer.
Topik ini menggunakan halaman legacy Data Development (DataStudio) sebagai contoh untuk menunjukkan cara membuat tugas sinkronisasi offline.

Buka halaman Pengembangan Data DataWorks.
1. Masuk ke Konsol DataWorks.
2. Di panel navigasi kiri, klik Workspace.
3. Di kolom Operation untuk ruang kerja tujuan, pilih Go To Data Development.
Buat tugas sinkronisasi offline.
1. Di tab Pengembangan Data ( icon) di panel navigasi sebelah kiri, pilih Create > Create Workflow dan ikuti petunjuk di layar untuk membuat alur kerja.
2. Klik kanan alur kerja yang telah Anda buat dan pilih Create Node > Data Integration > Offline Synchronization.
3. Di kotak dialog Create Node, masukkan nama node dan klik Confirm.
Konfigurasi jaringan dan sumber daya.
1. Di bagian Data Source, atur Data Source menjadi HDFS dan Data Source Name menjadi nama sumber data yang ingin Anda sinkronkan.
2. Di bagian My Resource Group, pilih grup sumber daya eksklusif.
3. Di bagian Data Destination, atur Data Destination menjadi ES dan Data Source Name menjadi nama sumber data yang ingin Anda sinkronkan.
Klik Next.
Konfigurasi tugas.
1. Di bagian Source, pilih tabel yang datanya ingin Anda sinkronkan.
2. Di bagian Data Destination, konfigurasikan parameter.
3. Di bagian Field Mapping, petakan Source Fields ke Destination Fields.
4. Di bagian Channel Control, konfigurasikan parameter saluran.
Untuk informasi selengkapnya, lihat Configure an offline sync task using the codeless UI.
Jalankan tugas.
1. (Opsional) Konfigurasi properti penjadwalan untuk tugas tersebut. Di sisi kanan halaman, klik Scheduling Configuration dan konfigurasikan parameter penjadwalan sesuai kebutuhan. Untuk informasi selengkapnya tentang parameter tersebut, lihat Scheduling Configuration.
2. Di pojok kiri atas tab konfigurasi node, klik ikon Simpan untuk menyimpan tugas.
3. Di pojok kiri atas tab konfigurasi node, klik ikon Kirim untuk mengirimkan tugas.
  Jika Anda mengonfigurasi properti penjadwalan untuk tugas tersebut, tugas akan berjalan secara otomatis sesuai interval yang dijadwalkan. Anda juga dapat mengklik ikon Jalankan di pojok kiri atas tab konfigurasi node untuk menjalankan tugas segera.
  Jika pesan Shell run successfully! muncul di log eksekusi, berarti tugas berhasil dijalankan.

Langkah 4: Verifikasi hasil sinkronisasi data

Masuk ke konsol Kibana dari instans Alibaba Cloud ES tujuan.
Untuk informasi selengkapnya, lihat Log on to the Kibana console.
Di panel navigasi sebelah kiri, klik Dev Tools.
Di Console, jalankan perintah berikut untuk melihat data yang telah disinkronkan:
```
POST /hive_esdoc_good_sale/_search?pretty
{
"query": { "match_all": {}}
}
```
Catatan
hive_esdoc_good_sale adalah nilai yang Anda tetapkan untuk bidang index dalam skrip sinkronisasi data.
Jika data berhasil disinkronkan, hasil berikut akan dikembalikan.