Replikasi data lintas kluster dengan CCR - Elasticsearch

Cross-Cluster Replication (CCR) mereplikasi data indeks dari kluster pemimpin ke kluster pengikut dalam waktu nyaris real-time. Fitur ini mendukung pemulihan bencana jarak jauh, pemisahan beban baca/tulis, serta akses lokal. Topik ini membandingkan solusi pemulihan bencana umum untuk Elasticsearch dan menjelaskan cara kerja CCR agar Anda dapat memilih solusi yang paling sesuai.

Cara kerja CCR

Arsitektur dasar

CCR menggunakan arsitektur aktif-pasif. Kluster pemimpin menangani semua operasi tulis, sedangkan kluster pengikut yang bersifat read-only mereplikasi data dari kluster pemimpin.

leader cluster: Kluster sumber yang menerima semua operasi tulis.
follower cluster: Kluster tujuan yang bersifat read-only dan mereplikasi data dari kluster pemimpin.

Proses replikasi data

Replikasi data CCR terdiri dari dua fase:

Fase inisialisasi

Kluster pengikut mengirim permintaan inisialisasi ke kluster pemimpin. Kluster pemimpin kemudian mentransfer seluruh file segmen Lucene dari indeks ke indeks pengikut, dalam proses yang mirip dengan pemulihan snapshot.

Fase sinkronisasi inkremental

Secara default, shard dari indeks pengikut mengirim permintaan pull setiap detik ke kluster pemimpin untuk mengambil operasi terbaru sejak titik sinkronisasi terakhir. Prosesnya sebagai berikut:

Menentukan titik awal permintaan pull: Kluster pengikut menyimpan secara lokal remote_checkpoint, yang menunjukkan posisi operasi terbaru yang berhasil diterapkan pada indeks lokal. Nilai ini bersesuaian dengan global_checkpoint di Translog (transaction log) kluster pemimpin.
Membaca operasi dari Translog kluster pemimpin: Kluster pemimpin menggunakan from_seq_no yang diberikan oleh kluster pengikut untuk menentukan posisi awal di Translog. Kluster pemimpin kemudian membaca semua operasi berikutnya—seperti index, update, dan delete—dan mengembalikan daftar operasi tersebut.
Memutar ulang operasi di kluster pengikut: Kluster pengikut memutar ulang operasi-operasi tersebut secara berurutan dan memperbarui remote_checkpoint-nya. Jika pemutaran ulang gagal, misalnya karena konflik versi, sinkronisasi dihentikan sementara dan kesalahan tersebut dicatat dalam log.
Polling berkelanjutan: Kluster pengikut terus-menerus melakukan polling untuk operasi baru pada interval tetap, sehingga mencapai latensi khas kurang dari satu detik.

Peran inti Translog

Translog (transaction log) merupakan sumber data untuk sinkronisasi inkremental dalam CCR. Translog memiliki fungsi berikut di Elasticsearch:

Mencegah kehilangan data: Translog mencatat semua operasi tulis, sehingga memungkinkan pemulihan data dengan memutar ulang log jika terjadi crash node.
Menjamin konsistensi replika: Operasi tulis pertama kali ditulis ke Translog, lalu diteruskan ke shard replika. Operasi tersebut hanya dianggap berhasil setelah baik shard primary maupun shard replika mengonfirmasi penulisan tersebut.
Mendukung sinkronisasi inkremental CCR: CCR menggunakan API internal Translog Elasticsearch untuk membaca log operasi dan mengambil semua perubahan setelah nomor urut tertentu guna mencapai replikasi data nyaris real-time.

Translog disimpan secara terpisah untuk setiap shard. Setiap shard memiliki direktori Translog sendiri yang berlokasi di indices/{index_uuid}/{shard_id}/translog/. File Translog (.tlog) disimpan dalam format biner dan dikelola melalui mekanisme generasi. File generasi baru dibuat setiap kali terjadi flush atau ukuran file mencapai batasnya, yaitu 512 MB secara default.

Solusi jaringan CCR untuk Alibaba Cloud Elasticsearch

Instans Alibaba Cloud Elasticsearch ditempatkan di VPC management independen, bukan di VPC pengguna. Bahkan jika dua kluster berada di wilayah yang sama atau VPC penggunanya terhubung lintas wilayah menggunakan CEN, keduanya tidak dapat berkomunikasi langsung melalui jaringan pribadi. Anda harus menggunakan NLB dan PrivateLink untuk menghubungkan VPC management mereka.

Lihat dokumentasi yang sesuai berdasarkan apakah kluster Anda berada di wilayah yang sama:

Skenario	Deskripsi	Dokumentasi
Same region	Kluster pemimpin dan pengikut berada di wilayah yang sama. Gunakan NLB dan PrivateLink untuk menghubungkan VPC management.	Replikasi data dalam wilayah yang sama di Alibaba Cloud Elasticsearch
Cross-region	Kluster pemimpin dan pengikut berada di wilayah berbeda. Anda harus terlebih dahulu menghubungkan VPC pengguna menggunakan CEN, lalu menggunakan NLB dan PrivateLink untuk menghubungkan VPC management.	Replikasi data lintas wilayah di Alibaba Cloud Elasticsearch

Batasan

Kedua kluster harus menggunakan mode Cloud-native New Management (v3). Jika suatu kluster menggunakan arsitektur v1 atau v2, Anda harus melakukan upgrade terlebih dahulu. Untuk informasi lebih lanjut, lihat Upgrade arsitektur instans.
Untuk memeriksa versi arsitektur kluster Alibaba Cloud Elasticsearch Anda, login ke Konsol Elasticsearch. Di halaman Basic Information instans Anda, lihat Control Architecture Type. Mode tersebut adalah Cloud-native Control Architecture (v3) atau Basic Control Architecture (v2).
Kedua kluster harus menjalankan Elasticsearch versi 7.10.0 atau lebih baru. Versi kluster pengikut harus sama dengan atau lebih baru daripada versi kluster pemimpin.
Pemetaan dan jumlah shard pada indeks pemimpin harus sesuai dengan indeks pengikut. Anda tidak dapat mengubah jumlah shard untuk indeks pengikut.