全部产品
Search
文档中心

Elasticsearch:Gunakan DataWorks untuk mensinkronkan data dari PolarDB-X (DRDS) ke Alibaba Cloud ES

更新时间:Aug 18, 2025

Anda dapat menggunakan Alibaba Cloud Elasticsearch untuk melakukan pencarian teks lengkap dan analisis semantik pada data di PolarDB-X, yang merupakan versi terbaru dari Distributed Relational Database Service (DRDS). Layanan Integrasi Data dari DataWorks memungkinkan Anda mensinkronkan sejumlah besar data dari PolarDB-X ke Alibaba Cloud ES dalam hitungan menit.

Informasi Latar Belakang

DataWorks adalah platform komprehensif untuk pengembangan dan tata kelola big data yang mengintegrasikan fitur seperti pengembangan data, penjadwalan tugas, dan manajemen data. Anda dapat menggunakan tugas sinkronisasi di DataWorks untuk dengan cepat memindahkan data dari berbagai sumber data ke Alibaba Cloud ES.

Prasyarat

Catatan
  • Anda hanya dapat menyinkronkan data ke Alibaba Cloud ES. Kluster Elasticsearch yang dikelola sendiri tidak didukung.

  • Instans PolarDB-X, instans ES, dan ruang kerja DataWorks harus berada di wilayah yang sama.

  • Instans PolarDB-X, instans ES, dan ruang kerja DataWorks harus berada di zona waktu yang sama. Jika tidak, perbedaan zona waktu mungkin terjadi antara data sumber dan tujuan setelah sinkronisasi.

Penagihan

Prosedur

Langkah 1: Persiapkan data sumber

  1. Masukkan data ke dalam instans PolarDB-X 1.0.

    Untuk informasi lebih lanjut, lihat dan Operasi SQL Dasar. Gambar berikut menunjukkan data uji yang digunakan dalam topik ini.Test data

Langkah 2: Beli dan buat grup sumber daya eksklusif

Beli grup sumber daya eksklusif untuk Integrasi Data dan sambungkan VPC dan ruang kerja ke grup sumber daya tersebut. Grup sumber daya eksklusif memastikan transmisi data yang cepat dan stabil.

  1. Masuk ke Konsol DataWorks.

  2. Di bilah menu atas, pilih wilayah. Di panel navigasi di sebelah kiri, klik Resource Group.

  3. Di tab Resource Groups, klik Create Resource Group > Data Integration Resource Group.

  4. Di halaman DataWorks Exclusive Resources (Subscription), atur Resource Type menjadi Exclusive Resource Group For Data Integration, masukkan nama untuk grup sumber daya, lalu klik Buy Now untuk membeli grup sumber daya eksklusif.

    Untuk informasi lebih lanjut, lihat Langkah 1: Buat Grup Sumber Daya Eksklusif untuk Integrasi Data.

  5. Di kolom Actions dari grup sumber daya eksklusif yang Anda buat, klik Network Settings untuk menyambungkan virtual private cloud (VPC). Untuk informasi lebih lanjut, lihat Sambungkan VPC.

    Catatan

    Dalam contoh ini, grup sumber daya eksklusif untuk Integrasi Data digunakan untuk menyinkronkan data melalui VPC. Untuk informasi lebih lanjut tentang cara menggunakan grup sumber daya eksklusif untuk Integrasi Data untuk menyinkronkan data melalui Internet, lihat Konfigurasikan Daftar Putih Alamat IP.

    Untuk menyinkronkan data, grup sumber daya eksklusif harus terhubung ke VPC tempat instans PolarDB-X dan Elasticsearch berada. Oleh karena itu, Anda harus menyambungkan grup sumber daya eksklusif ke VPC, Zone, dan VSwitch dari instans PolarDB-X dan instans Elasticsearch. Untuk melihat informasi VPC untuk sebuah instans, lihat Lihat Informasi Dasar Instans Elasticsearch.

    Penting

    Setelah Anda menyambungkan VPC, Anda harus menambahkan blok CIDR dari VSwitch ke daftar putih akses privat dari instans PolarDB-X dan Elasticsearch. Untuk informasi lebih lanjut, lihat Konfigurasikan Daftar Putih Akses Publik atau Privat untuk Instans Elasticsearch.

  6. Di pojok kiri atas halaman, klik ikon kembali untuk kembali ke halaman Resource Groups.

  7. Temukan grup sumber daya eksklusif yang Anda buat dan klik Attach Workspace di kolom Actions untuk menyambungkan ruang kerja target ke grup sumber daya.

    Untuk informasi lebih lanjut, lihat Langkah 2: Asosiasikan Grup Sumber Daya Eksklusif untuk Integrasi Data dengan Ruang Kerja.

Langkah 3: Tambahkan sumber data

Tambahkan sumber data PolarDB-X dan Elasticsearch di layanan Integrasi Data dari DataWorks.

  1. Pergi ke halaman Data Integration di DataWorks.

    1. Masuk ke Konsol DataWorks.

    2. Di panel navigasi di sebelah kiri, klik Workspaces.

    3. Di kolom Operation dari ruang kerja target, pilih Quick Access > Data Integration.

  2. Di panel navigasi di sebelah kiri, klik Data Source.

  3. Tambahkan sumber data PolarDB-X.

  4. Di halaman Data Source, klik Add Data Source.

  5. Di halaman Add Data Source, cari dan pilih DRDS.

  6. Di halaman Add DRDS Data Source, konfigurasikan parameter untuk sumber data dan uji konektivitasnya. Setelah uji konektivitas berhasil, klik Complete.

    Untuk informasi lebih lanjut, lihat Tambahkan Sumber Data PolarDB-X.

  7. Tambahkan sumber data Elasticsearch dengan cara yang sama. Untuk informasi lebih lanjut, lihat Tambahkan Sumber Data Elasticsearch.

Langkah 4: Konfigurasikan dan jalankan tugas sinkronisasi data

Tugas sinkronisasi batch berjalan pada grup sumber daya eksklusif. Grup sumber daya mengambil data dari sumber data di Integrasi Data dan menulis data tersebut ke Elasticsearch.

Catatan
  1. Pergi ke halaman Data Development di DataWorks.

    1. Masuk ke Konsol DataWorks.

    2. Di panel navigasi di sebelah kiri, klik Workspaces.

    3. Di kolom Actions dari ruang kerja target, pilih Quick Access > Data Development.

  2. Buat tugas sinkronisasi batch.

    1. Di panel navigasi di sebelah kiri, pergi ke tab Pengembangan Data. Klik ikon image dan pilih New > Business Flow. Buat alur bisnis sesuai petunjuk.

    2. Klik kanan alur bisnis yang Anda buat dan pilih Create Node > Batch Synchronization.

    3. Di kotak dialog Create Node, masukkan nama untuk node dan klik Confirm.

  3. Konfigurasikan jaringan dan sumber daya.

    1. Di bagian Source, atur Source menjadi DRDS dan Data Source menjadi nama sumber data dari mana Anda ingin menyinkronkan data.

    2. Di bagian Resource Group, pilih grup sumber daya eksklusif.

    3. Di bagian Destination, atur Destination menjadi Elasticsearch dan Data Source menjadi nama sumber data ke mana Anda ingin menyinkronkan data.

  4. Klik Berikutnya.

  5. Konfigurasikan tugas.

    1. Di bagian Source, pilih tabel dari mana Anda ingin menyinkronkan data.

    2. Di bagian Destination, konfigurasikan parameter untuk tujuan.

    3. Di bagian Field Mapping, konfigurasikan pemetaan antara Source Fields dan Target Fields. Untuk informasi lebih lanjut, lihat Konfigurasikan Tugas Sinkronisasi Offline di Antarmuka tanpa Kode.

      Dalam contoh ini, Source Field default digunakan dan hanya Destination Field yang dimodifikasi. Di sebelah kanan Destination Field, klik ikon 修改字段图标. Di kotak dialog yang muncul, masukkan konfigurasi bidang.

      {"name":"Name","type":"text"}
      {"name":"Platform","type":"text"}
      {"name":"Year_of_Release","type":"date"}
      {"name":"Genre","type":"text"}
      {"name":"Publisher","type":"text"}
      {"name":"na_Sales","type":"float"}
      {"name":"EU_Sales","type":"float"}
      {"name":"JP_Sales","type":"float"}
      {"name":"Other_Sales","type":"float"}
      {"name":"Global_Sales","type":"float"}
      {"name":"Critic_Score","type":"long"}
      {"name":"Critic_Count","type":"long"}
      {"name":"User_Score","type":"float"}
      {"name":"User_Count","type":"long"}
      {"name":"Developer","type":"text"}
      {"name":"Rating","type":"text"}
    4. Di bagian Channel Control, konfigurasikan parameter saluran.

    Untuk informasi lebih lanjut, lihat Konfigurasikan Tugas Sinkronisasi Batch Menggunakan Antarmuka tanpa Kode.

  6. Jalankan tugas.

    1. (Opsional) Konfigurasikan properti penjadwalan untuk tugas. Di sisi kanan halaman, klik Scheduling Configuration dan konfigurasikan parameter penjadwalan sesuai kebutuhan. Untuk informasi lebih lanjut, lihat Konfigurasi Penjadwalan.

    2. Di bilah alat, klik ikon Simpan untuk menyimpan tugas.

    3. Di bilah alat, klik ikon Kirim untuk mengirimkan tugas.

      Jika Anda mengonfigurasi properti penjadwalan untuk tugas, tugas akan berjalan secara berkala. Anda juga dapat mengklik ikon Jalankan di bilah alat untuk menjalankan tugas segera.

      Jika log berisi pesan Shell run successfully!, tugas berhasil.

Langkah 5: Lihat hasil sinkronisasi data

  1. Masuk ke konsol Kibana dari instans Alibaba Cloud ES tujuan.

    Untuk informasi lebih lanjut, lihat Masuk ke Konsol Kibana.

  2. Di panel navigasi di sebelah kiri, klik Dev Tools.

  3. Di Console, jalankan perintah berikut untuk menanyakan jumlah entri data di tujuan.

    Catatan

    Anda dapat membandingkan jumlah entri data di tujuan dengan jumlah entri data di sumber untuk memverifikasi bahwa semua data disinkronkan.

    GET drdstest/_search
    {
      "query": {
        "match_all": {}
      }
    }

    Jika perintah berhasil, hasil berikut akan dikembalikan.查看目标端数据量

  4. Anda dapat menjalankan perintah berikut untuk mengambil data dari bidang tertentu.

    GET drdstest/_search
    {
      "query": {
        "term": {
          "Publisher.keyword": {
            "value": "Nintendo"
          }
        }
      }
    }

    Jika perintah berhasil dijalankan, keluaran berikut akan dikembalikan.对字段进行数据检索