Anda dapat menggunakan Alibaba Cloud Elasticsearch untuk mencari dan menganalisis data di RDS SQL Server. Topik ini menjelaskan cara menggunakan layanan Data Integration dari DataWorks untuk menyinkronkan data secara offline ke instans Alibaba Cloud ES.
Informasi latar belakang
DataWorks adalah platform komprehensif untuk pengembangan dan tata kelola data besar yang mengintegrasikan fitur-fitur seperti pengembangan data, penjadwalan tugas, dan manajemen data. Anda dapat menggunakan tugas sinkronisasi di DataWorks untuk memindahkan data dengan cepat dari berbagai sumber data ke Alibaba Cloud ES.
Sumber data berikut didukung:
Database Alibaba Cloud: ApsaraDB for RDS (MySQL, PostgreSQL, SQL Server), ApsaraDB for MongoDB, dan ApsaraDB for HBase
Alibaba Cloud PolarDB-X (peningkatan dari DRDS)
Alibaba Cloud MaxCompute
Alibaba Cloud Object Storage Service (OSS)
Alibaba Cloud Tablestore
Sumber data mandiri, seperti HDFS, Oracle, FTP, dan DB2.
Skenario:
Menyinkronkan data besar dari database atau tabel ke Alibaba Cloud Elasticsearch dalam mode offline. Untuk informasi selengkapnya, lihat Buat tugas sinkronisasi batch untuk menyinkronkan semua data dalam database ke Elasticsearch.
Menyinkronkan data besar lengkap dan inkremental ke Alibaba Cloud Elasticsearch secara real time. Untuk informasi selengkapnya, lihat Sinkronkan seluruh database MySQL ke Elasticsearch secara real time.
Prasyarat
Instans ApsaraDB RDS for SQL Server telah dibuat. Topik ini menggunakan contoh instans ApsaraDB RDS for SQL Server 2019 Edisi Standar. Untuk informasi selengkapnya, lihat Buat dan gunakan instans ApsaraDB RDS for SQL Server dengan cepat.
Instans Alibaba Cloud ES telah dibuat, dan fitur pembuatan indeks otomatis diaktifkan untuk instans tersebut. Untuk informasi selengkapnya, lihat Buat instans Alibaba Cloud Elasticsearch dan Konfigurasi parameter YML.
Ruang kerja DataWorks telah dibuat. Untuk informasi selengkapnya, lihat Buat ruang kerja.
Data hanya dapat disinkronkan ke Alibaba Cloud ES. Instans Elasticsearch mandiri tidak didukung.
Instans ApsaraDB RDS for SQL Server, instans ES, dan ruang kerja DataWorks harus berada di Wilayah yang sama.
Instans ApsaraDB RDS for SQL Server, instans ES, dan ruang kerja DataWorks harus berada di zona waktu yang sama. Jika tidak, perbedaan zona waktu dapat terjadi saat Anda menyinkronkan data terkait waktu.
Penagihan
Untuk informasi selengkapnya tentang biaya instans ES, lihat Item yang dapat ditagih ES.
Untuk informasi selengkapnya tentang penagihan grup sumber daya eksklusif untuk Data Integration, lihat Penagihan grup sumber daya eksklusif untuk Data Integration (langganan).
Prosedur
Langkah 1: Siapkan data sumber
Data uji berikut digunakan dalam instans ApsaraDB RDS for SQL Server.
Data dalam topik ini hanya untuk pengujian. Jangan menggunakannya di lingkungan produksi.

Pernyataan CREATE TABLE
CREATE TABLE students( id INT, name VARCHAR(20), age INT )Pernyataan INSERT
INSERT INTO [students]( [id] , [name] , [age] )values('1', 'Xiaoming','21');
Langkah 2: Beli dan konfigurasi grup sumber daya eksklusif
Beli grup sumber daya eksklusif untuk Data Integration dan sambungkan VPC serta ruang kerja ke grup sumber daya tersebut. Grup sumber daya eksklusif memastikan transmisi data yang cepat dan stabil.
Masuk ke Konsol DataWorks.
Di bilah menu atas, pilih Wilayah. Di panel navigasi kiri, klik Resource Group.
Di tab Exclusive Resource Groups, klik .
Di halaman pembelian DataWorks Exclusive Resource (Subscription), atur Exclusive Resource Type menjadi Exclusive Resource for Data Integration, masukkan nama untuk grup sumber daya, lalu klik Buy Now.
Untuk informasi konfigurasi lebih lanjut, lihat Langkah 1: Beli grup sumber daya.
Untuk menyambungkan VPC ke grup sumber daya eksklusif, klik Network Settings di kolom Operation. Untuk informasi selengkapnya, lihat Attach a VPC.
CatatanTopik ini menggunakan contoh di mana data disinkronkan melalui jaringan internal VPC menggunakan grup sumber daya eksklusif untuk Data Integration. Untuk informasi selengkapnya, lihat Add a whitelist.
Grup sumber daya eksklusif harus terhubung ke VPC dari instans RDS SQL Server dan Elasticsearch untuk menyinkronkan data. Untuk membuat koneksi ini, sambungkan VPC, Zone, dan VSwitch tempat instans RDS SQL Server dan Elasticsearch berada. Untuk melihat informasi VPC instans, lihat Switch the vSwitch for an ApsaraDB RDS for SQL Server instance dan View the basic information of an Elasticsearch instance.
PentingSetelah Anda menyambungkan VPC, Anda harus menambahkan VSwitch CIDR Block ke daftar putih akses internal untuk instans RDS SQL Server dan Elasticsearch. Untuk informasi selengkapnya, lihat Configure a whitelist for an ApsaraDB RDS for SQL Server instance dan Configure a public or internal-facing whitelist for an Elasticsearch instance.
Di pojok kiri atas halaman, klik ikon kembali untuk kembali ke halaman Resource Group List.
Di kolom Operation untuk grup sumber daya eksklusif, klik Attach Workspace untuk menyambungkan ruang kerja target.
Untuk informasi selengkapnya, lihat Langkah 2: Attach a workspace.
Langkah 3: Tambahkan sumber data
Tambahkan sumber data ApsaraDB RDS for SQL Server dan Elasticsearch ke layanan Data Integration dari DataWorks.
Di DataWorks, buka halaman Data Integration.
Masuk ke Konsol DataWorks.
Di panel navigasi kiri, klik Workspaces.
Di kolom Operation ruang kerja target, pilih .
Di panel navigasi, klik Data Source.
Tambahkan sumber data ApsaraDB RDS for SQL Server.
Di halaman Data Source List, klik Add Data Source.
Di halaman Add Data Source, cari dan pilih sumber data SQL Server.
Di kotak dialog Add SQL Server Data Source, konfigurasikan parameter di area Basic Information.
Untuk informasi selengkapnya, lihat Configure a SQL Server data source.
Di area Connection Configuration, klik Test Connectivity. Status Connected menunjukkan koneksi berhasil.
Klik Finish.
Tambahkan sumber data Elasticsearch dengan cara yang sama. Untuk informasi selengkapnya, lihat Configure an Elasticsearch data source.
Langkah 4: Konfigurasi dan jalankan tugas sinkronisasi data offline
Tugas sinkronisasi offline menggunakan grup sumber daya eksklusif untuk dijalankan. Grup sumber daya eksklusif mengambil data dari sumber data di Data Integration dan menulis data ke Elasticsearch.
Anda dapat mengonfigurasi tugas sinkronisasi offline dengan dua cara. Topik ini menggunakan Antarmuka tanpa kode sebagai contoh. Anda juga dapat menggunakan editor kode. Untuk informasi selengkapnya, lihat Configure an offline sync task using the code editor dan Elasticsearch Writer.
Buka halaman Data Development di DataWorks.
Masuk ke Konsol DataWorks.
Di panel navigasi kiri, klik Workspaces.
Di kolom Operation ruang kerja target, pilih .
Buat tugas sinkronisasi offline.
Di panel navigasi kiri, klik ikon
dan pilih .Klik kanan alur bisnis baru dan pilih .
Di kotak dialog New Node, masukkan nama node dan klik Confirm.
Konfigurasi jaringan dan sumber daya.
Di area Data Source, atur Data Source ke SQL Server dan pilih sumber data untuk Data Source Name.
Di area My Resource Groups, pilih grup sumber daya eksklusif.
Di area Data Destination, atur Data Destination ke Elasticsearch dan pilih sumber data untuk Data Source Name.
Klik Next.
Konfigurasi tugas.
Di area Data Source, pilih tabel yang akan disinkronkan.
Konfigurasikan parameter di area Data Destination.
Di area Field Mapping, konfigurasikan pemetaan antara Source Field dan Destination Field. Untuk informasi selengkapnya, lihat Configure an offline sync task using the codeless UI.
Di area Channel Control, Anda dapat mengonfigurasi parameter saluran.
Untuk informasi konfigurasi lebih lanjut, lihat Configure an offline sync task using the codeless UI.
Jalankan tugas.
(Opsional) Di panel kanan, klik Scheduling Configuration untuk mengonfigurasi parameter penjadwalan tugas. Untuk informasi selengkapnya tentang setiap parameter, lihat Scheduling configuration.
Di pojok kanan atas tab konfigurasi node, klik ikon simpan untuk menyimpan tugas.
Di pojok kanan atas tab konfigurasi node, klik ikon kirim untuk mengirimkan tugas.
Jika Anda mengonfigurasi properti penjadwalan, tugas akan berjalan secara otomatis pada interval yang ditentukan. Anda juga dapat mengklik ikon jalankan di pojok kanan atas tab konfigurasi node untuk menjalankan tugas segera.
Jika log berisi pesan
Shell run successfully!, tugas berhasil dijalankan.
Langkah 5: Verifikasi hasil sinkronisasi data
Masuk ke konsol Kibana dari instans Alibaba Cloud ES tujuan. Untuk informasi selengkapnya, lihat Log on to the Kibana console.
Di pojok kiri atas halaman Kibana, klik ikon dan pilih Dev Tools.
Di Console, Anda dapat menjalankan perintah berikut untuk melihat data yang telah disinkronkan.
POST /dbo.students/_search?pretty { "query": { "match_all": {}} }CatatanGanti dbo.students dengan nilai yang Anda tentukan untuk parameter index saat mengonfigurasi sinkronisasi data di DataWorks.
Hasil yang diharapkan ditunjukkan pada gambar berikut.
