Migrasi data dari Elasticsearch ke MaxCompute - MaxCompute

Topik ini menjelaskan cara menggunakan fitur sinkronisasi data DataWorks untuk memigrasikan data dari kluster Alibaba Cloud Elasticsearch ke MaxCompute.

Prasyarat

MaxCompute telah diaktifkan.
Untuk informasi lebih lanjut, lihat Aktifkan MaxCompute.
DataWorks telah diaktifkan.
Untuk informasi lebih lanjut, lihat Aktifkan DataWorks.
Sumber data MaxCompute telah ditambahkan. Untuk informasi lebih lanjut, lihat Tambahkan Sumber Data MaxCompute.
Sebuah alur kerja telah dibuat di ruang kerja Anda di konsol DataWorks.
Dalam contoh ini, digunakan ruang kerja DataWorks dalam mode dasar. Untuk informasi lebih lanjut tentang cara membuat alur kerja, lihat Buat Alur Kerja.
Kluster Elasticsearch Alibaba Cloud telah dibuat.
Sebelum memigrasikan data, pastikan kluster Elasticsearch Alibaba Cloud Anda berfungsi dengan baik. Untuk informasi lebih lanjut tentang cara membuat kluster Elasticsearch Alibaba Cloud, lihat Memulai.
Dalam contoh ini, kluster Elasticsearch Alibaba Cloud menggunakan konfigurasi berikut:
- Wilayah: Tiongkok (Shanghai)
- Zona: Zona B
- Versi: Elasticsearch 5.5.3 dengan Fitur Komersial

Informasi latar belakang

Elasticsearch adalah server pencarian berbasis Lucene yang menyediakan mesin pencarian multi-penyewa terdistribusi dengan dukungan pencarian teks lengkap. Elasticsearch adalah produk open source yang dirilis di bawah Lisensi Apache dan merupakan mesin pencari utama bagi perusahaan.

Alibaba Cloud Elasticsearch mencakup versi Elasticsearch 5.5.3, 6.3.2, dan 6.7.0 dengan Fitur Komersial serta Plugin komersial X-Pack. Anda dapat menggunakannya dalam skenario seperti analitik data dan pencarian. Berdasarkan Elasticsearch open source, Alibaba Cloud Elasticsearch menawarkan kontrol akses tingkat perusahaan, pemantauan dan peringatan keamanan, serta pelaporan otomatis.

Prosedur

Buat tabel sumber di Elasticsearch. Untuk informasi lebih lanjut, lihat Gunakan DataWorks untuk Menyinkronkan Data dari MaxCompute ke Alibaba Cloud Elasticsearch.
Buat tabel tujuan di MaxCompute.
1. Masuk ke konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi sebelah kiri, pilih Data Development and O&M > Data Development. Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Data Development.
2. Di panel Alur Kerja Terjadwal pada halaman DataStudio, temukan alur kerja yang telah Anda buat, klik kanan nama alur kerja, lalu pilih Create Table > MaxCompute > Table.
3. Di kotak dialog Create Table, konfigurasikan Name dan klik Create.
  Catatan
  Jika beberapa sumber data MaxCompute terkait dengan DataStudio, Anda harus memilih sumber data MaxCompute yang ingin digunakan.
4. Di bilah alat atas tab konfigurasi tabel, klik DDL.
5. Di kotak dialog DDL, masukkan pernyataan pembuatan tabel berikut dan klik Generate Table Schema.
```
create table elastic2mc_bankdata 
(
age             string,
job             string,
marital         string,
education       string,
default         string,
housing         string,
loan            string,
contact         string,
month           string,
day of week     string
);
```
6. Klik Submit to Production Environment.

Sinkronkan data.

Pergi ke halaman analitik data. Klik kanan alur kerja yang ditentukan dan pilih Create Node > Data Integration > Offline synchronization.
Dalam kotak dialog Create Node, masukkan nama di bidang Name, lalu klik Confirm.
Di bilah navigasi atas, pilih ikon .
Dalam mode skrip, klik ikon .
Di kotak dialog import Template SOURCE type, data source, target type dan data source, dan klik confirm.

Konfigurasikan skrip.

Kode berikut digunakan dalam contoh ini. Untuk informasi lebih lanjut tentang deskripsi kode, lihat Elasticsearch Reader.

{
 "type": "job",
 "steps": [
 {
 "stepType": "elasticsearch",
 "parameter": {
 "retryCount": 3,
 "column": [
 "age",
 "job",
 "marital",
 "education",
 "default",
 "housing",
 "loan",
 "contact",
 "month",
 "day_of_week",
 "duration",
 "campaign",
 "pdays",
 "previous",
 "poutcome",
 "emp_var_rate",
 "cons_price_idx",
 "cons_conf_idx",
 "euribor3m",
 "nr_employed",
 "y"
 ],
 "scroll": "1m",
 "index": "es_index",
 "pageSize": 1,
 "sort": {
 "age": "asc"
},
 "type": "elasticsearch",
 "connTimeOut": 1000,
 "retrySleepTime": 1000,
 "endpoint": "http://es-cn-xxxx.xxxx.xxxx.xxxx.com:9200",
 "password": "xxxx",
 "search": {
 "match_all": {}
 },
 "readTimeOut": 5000,
 "username": "xxxx"
 },
 "name": "Reader",
 "category": "reader"
 },
 {
 "stepType": "odps",
 "parameter": {
 "partition": "",
 "truncate": true,
 "compress": false,
 "datasource": "odps_source",// Nama sumber data MaxCompute.
 "column": [
 "age",
 "job",
 "marital",
 "education",
 "default",
 "housing",
 "loan",
 "contact",
 "month",
 "day_of_week",
 "duration",
 "campaign",
 "pdays",
 "previous",
 "poutcome",
 "emp_var_rate",
 "cons_price_idx",
 "cons_conf_idx",
 "euribor3m",
 "nr_employed",
 "y"
 ],
 "emptyAsNull": false,
 "table": "elastic2mc_bankdata"
 },
 "name": "Writer",
 "category": "writer"
 }
 ],
 "version": "2.0",
 "order": {
 "hops": [
 {
 "from": "Reader",
 "to": "Writer"
 }
 ]
 },
 "setting": {
 "errorLimit": {
 "record": "0"
 },
 "speed": {
 "throttle": false,
 "concurrent": 1,
 "dmu": 1
 }
 }
}

Catatan

Di halaman Basic Information kluster Alibaba Cloud Elasticsearch yang dibuat, Anda dapat melihat Titik akhir publik dan nomor port kluster tersebut.

Klik ikon di bilah alat atas tab konfigurasi node untuk menjalankan kode.
Lihat hasil eksekusi di tab Runtime Logs.

Lihat hasilnya.
1. Klik kanan alur kerja dan pilih new > MaxCompute > ODPS SQL.
2. Di kotak dialog create a node, masukkan node name, dan klik submit.
3. Di tab konfigurasi node ODPS SQL, masukkan pernyataan berikut:
```
SELECT * FROM elastic2mc_bankdata;
```
4. Klik ikon untuk menjalankan kode.
5. Anda bisa melihat hasilnya di operation Log.