全部产品
Search
文档中心

DataWorks:Konfigurasi Elasticsearch Writer

更新时间:Jul 06, 2025

Anda dapat membangun gudang data real-time menggunakan kemampuan penulisan real-time dari Elasticsearch.

Prasyarat

Node pembaca atau konversi telah dikonfigurasi. Untuk informasi lebih lanjut tentang sumber data yang mendukung sinkronisasi real-time, lihat Jenis sumber data yang mendukung sinkronisasi real-time.

Batasan

DataWorks memungkinkan Anda menambahkan kluster Alibaba Cloud Elasticsearch V5.X, V6.X, dan V7.X sebagai sumber data. Kluster Elasticsearch yang dikelola sendiri tidak didukung.

Prosedur

  1. Buka halaman DataStudio.

    Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi sebelah kiri, pilih Data Development and O&M > Data Development. Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Data Development.

  2. Di panel Alur Kerja Terjadwal pada halaman DataStudio, gerakkan pointer di atas ikon 新建 dan pilih Create Node > Real-time Synchronization > Data Integration.

    Sebagai alternatif, temukan alur kerja yang diinginkan di panel Alur Kerja Terjadwal, klik kanan nama alur kerja, lalu pilih Create Node > Data Integration > Real-time Synchronization.

  3. Di kotak dialog Create Node, atur parameter Sync Method menjadi End-to-end ETL dan konfigurasikan parameter Name dan Path.

  4. Klik Confirm.

  5. Pada tab konfigurasi node sinkronisasi real-time, seret Elasticsearch di bagian Output ke kanvas di sebelah kanan, dan hubungkan node Elasticsearch ke node pembaca atau konversi yang telah dikonfigurasi di kanvas.

  6. Klik node Elasticsearch. Di panel yang muncul, konfigurasikan parameter.

    es

    Parameter

    Deskripsi

    Data source

    Nama sumber data Elasticsearch yang Anda tambahkan ke DataWorks. Anda hanya dapat memilih sumber data Elasticsearch.

    Jika tidak ada sumber data Elasticsearch yang tersedia, klik New data source di sebelah kanan untuk pergi ke halaman Data Sources di Management Center untuk menambahkan sumber data Elasticsearch. Untuk informasi lebih lanjut, lihat Tambahkan sumber data Elasticsearch.

    Index

    Nama indeks tempat Anda ingin menulis data.

    Anda dapat mengklik Buat Indeks di sebelah kanan untuk membuat indeks. Anda dapat langsung menggunakan informasi indeks default untuk membuat indeks. Sebagai alternatif, Anda dapat memodifikasi nama indeks, tipe indeks, status pemetaan dinamis, jumlah shard utama, jumlah shard replika, dan pernyataan pembuatan indeks dan membuat indeks.

    • Index Type: Parameter ini hanya tersedia untuk Elasticsearch V6.X, V5.X, atau versi sebelumnya.

    • Dynamic Mapping Status: Parameter ini digunakan untuk menentukan nilai parameter dinamis. Parameter dinamis menentukan apakah Elasticsearch Writer secara dinamis menulis bidang baru ke pemetaan indeks.

      • Jika Anda menggunakan kluster Elasticsearch dengan versi lebih awal dari V7.10, parameter ini memiliki nilai valid berikut: true, false, dan strict.

      • Jika Anda menggunakan kluster Elasticsearch dengan versi V7.10 atau lebih baru, parameter ini memiliki nilai valid berikut: true, false, strict, dan runtime.

      di mana:

      • true: menunjukkan bahwa Elasticsearch Writer menulis bidang baru ke pemetaan indeks dan bidang tersebut dapat dicari.

      • false: menunjukkan bahwa Elasticsearch Writer menulis bidang baru ke pemetaan indeks tetapi bidang tersebut tidak dapat dicari.

      • strict: menunjukkan bahwa jika Elasticsearch Writer mendeteksi bidang baru, ia mengembalikan pesan kesalahan dan tidak menulis bidang tersebut ke pemetaan indeks.

      • runtime: menunjukkan bahwa Elasticsearch Writer menulis bidang baru ke pemetaan indeks sebagai bidang runtime tetapi bidang tersebut tidak dapat dicari.

      Untuk informasi lebih lanjut, lihat parameter dinamis untuk Elasticsearch open source.

    • Shards: jumlah shard utama. Indeks dapat dibagi menjadi beberapa shard utama. Shard utama dapat didistribusikan di antara node yang berbeda untuk mendukung pencarian terdistribusi. Saat Anda membuat indeks, Anda harus menentukan jumlah shard utama untuk indeks. Setelah indeks dibuat, Anda tidak dapat mengubah jumlahnya. Untuk informasi lebih lanjut, lihat Istilah.

    • Replicas: jumlah shard replika untuk setiap shard utama. Shard replika dapat digunakan untuk toleransi kesalahan dan untuk memproses beban kerja permintaan baca kluster. Jika kapasitas kluster tidak mencukupi, cukup satu cadangan untuk setiap shard utama, atau kluster mengalami hambatan dalam kinerja tulis, atur Replika menjadi 1.

    • Statement for Creating Index: Konfigurasi bidang diatur di properti. Anda dapat memodifikasi jenis bidang.

    Enable Partitioning for Elasticsearch Indexes

    Menentukan apakah akan mengaktifkan mekanisme routing. Anda dapat menyesuaikan nilai parameter routing. Nilai default dari routing adalah ID dokumen. Fungsi Hash digunakan untuk mengonversi nilai routing untuk mendapatkan angka. Angka tersebut digunakan untuk membagi jumlah shard utama untuk mendapatkan sisa. Sisa menunjukkan posisi dokumen di shard utama.

    Set Primary Key (By_Id)

    Metode yang digunakan untuk menetapkan nilai ke ID indeks Elasticsearch selama sinkronisasi data. Nilai valid:

    • Kunci Utama: menggunakan salah satu kolom di tabel sumber sebagai kunci utama.

    • Kunci Utama Komposit: menggabungkan beberapa kolom di tabel sumber untuk membentuk kunci utama.

    Catatan

    Jika Anda menetapkan parameter ini ke Kunci Utama tetapi sumber tidak memiliki kunci utama, atau jika Anda menetapkan parameter ini ke Kunci Utama Komposit tetapi sumber tidak memiliki kolom kunci utama, parameter ini tidak berlaku. Dalam hal ini, nilai acak secara otomatis dibuat dan ditetapkan ke ID indeks Elasticsearch. Ini dapat menyebabkan duplikasi data.

    Mappings

    Pemetaan bidang antara sumber dan tujuan. Node sinkronisasi menyinkronkan data berdasarkan pemetaan bidang.

  7. Di bilah alat atas tab konfigurasi node sinkronisasi real-time, klik ikon 保存 untuk menyimpan node.