Topik ini menjelaskan cara menggunakan fitur sinkronisasi data DataWorks untuk memigrasikan data dari kluster Alibaba Cloud Elasticsearch ke MaxCompute.
Prasyarat
MaxCompute telah diaktifkan.
Untuk informasi lebih lanjut, lihat Aktifkan MaxCompute.
DataWorks telah diaktifkan.
Untuk informasi lebih lanjut, lihat Aktifkan DataWorks.
Sumber data MaxCompute telah ditambahkan. Untuk informasi lebih lanjut, lihat Tambahkan Sumber Data MaxCompute.
Sebuah alur kerja telah dibuat di ruang kerja Anda di konsol DataWorks.
Dalam contoh ini, digunakan ruang kerja DataWorks dalam mode dasar. Untuk informasi lebih lanjut tentang cara membuat alur kerja, lihat Buat Alur Kerja.
Kluster Elasticsearch Alibaba Cloud telah dibuat.
Sebelum memigrasikan data, pastikan kluster Elasticsearch Alibaba Cloud Anda berfungsi dengan baik. Untuk informasi lebih lanjut tentang cara membuat kluster Elasticsearch Alibaba Cloud, lihat Memulai.
Dalam contoh ini, kluster Elasticsearch Alibaba Cloud menggunakan konfigurasi berikut:
Wilayah: Tiongkok (Shanghai)
Zona: Zona B
Versi: Elasticsearch 5.5.3 dengan Fitur Komersial
Informasi latar belakang
Elasticsearch adalah server pencarian berbasis Lucene yang menyediakan mesin pencarian multi-penyewa terdistribusi dengan dukungan pencarian teks lengkap. Elasticsearch adalah produk open source yang dirilis di bawah Lisensi Apache dan merupakan mesin pencari utama bagi perusahaan.
Alibaba Cloud Elasticsearch mencakup versi Elasticsearch 5.5.3, 6.3.2, dan 6.7.0 dengan Fitur Komersial serta Plugin komersial X-Pack. Anda dapat menggunakannya dalam skenario seperti analitik data dan pencarian. Berdasarkan Elasticsearch open source, Alibaba Cloud Elasticsearch menawarkan kontrol akses tingkat perusahaan, pemantauan dan peringatan keamanan, serta pelaporan otomatis.
Prosedur
Buat tabel sumber di Elasticsearch. Untuk informasi lebih lanjut, lihat Gunakan DataWorks untuk Menyinkronkan Data dari MaxCompute ke Alibaba Cloud Elasticsearch.
Buat tabel tujuan di MaxCompute.
Masuk ke konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi sebelah kiri, pilih . Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Data Development.
Di panel Alur Kerja Terjadwal pada halaman DataStudio, temukan alur kerja yang telah Anda buat, klik kanan nama alur kerja, lalu pilih .
Di kotak dialog Create Table, konfigurasikan Name dan klik Create.
CatatanJika beberapa sumber data MaxCompute terkait dengan DataStudio, Anda harus memilih sumber data MaxCompute yang ingin digunakan.
Di bilah alat atas tab konfigurasi tabel, klik DDL.
Di kotak dialog DDL, masukkan pernyataan pembuatan tabel berikut dan klik Generate Table Schema.
create table elastic2mc_bankdata ( age string, job string, marital string, education string, default string, housing string, loan string, contact string, month string, day of week string );Klik Submit to Production Environment.
Sinkronkan data.
Pergi ke halaman analitik data. Klik kanan alur kerja yang ditentukan dan pilih .
Dalam kotak dialog Create Node, masukkan nama di bidang Name, lalu klik Confirm.
Di bilah navigasi atas, pilih ikon
.Dalam mode skrip, klik ikon
.Di kotak dialog import Template SOURCE type, data source, target type dan data source, dan klik confirm.
Konfigurasikan skrip.
Kode berikut digunakan dalam contoh ini. Untuk informasi lebih lanjut tentang deskripsi kode, lihat Elasticsearch Reader.
{ "type": "job", "steps": [ { "stepType": "elasticsearch", "parameter": { "retryCount": 3, "column": [ "age", "job", "marital", "education", "default", "housing", "loan", "contact", "month", "day_of_week", "duration", "campaign", "pdays", "previous", "poutcome", "emp_var_rate", "cons_price_idx", "cons_conf_idx", "euribor3m", "nr_employed", "y" ], "scroll": "1m", "index": "es_index", "pageSize": 1, "sort": { "age": "asc" }, "type": "elasticsearch", "connTimeOut": 1000, "retrySleepTime": 1000, "endpoint": "http://es-cn-xxxx.xxxx.xxxx.xxxx.com:9200", "password": "xxxx", "search": { "match_all": {} }, "readTimeOut": 5000, "username": "xxxx" }, "name": "Reader", "category": "reader" }, { "stepType": "odps", "parameter": { "partition": "", "truncate": true, "compress": false, "datasource": "odps_source",// Nama sumber data MaxCompute. "column": [ "age", "job", "marital", "education", "default", "housing", "loan", "contact", "month", "day_of_week", "duration", "campaign", "pdays", "previous", "poutcome", "emp_var_rate", "cons_price_idx", "cons_conf_idx", "euribor3m", "nr_employed", "y" ], "emptyAsNull": false, "table": "elastic2mc_bankdata" }, "name": "Writer", "category": "writer" } ], "version": "2.0", "order": { "hops": [ { "from": "Reader", "to": "Writer" } ] }, "setting": { "errorLimit": { "record": "0" }, "speed": { "throttle": false, "concurrent": 1, "dmu": 1 } } }CatatanDi halaman Basic Information kluster Alibaba Cloud Elasticsearch yang dibuat, Anda dapat melihat Titik akhir publik dan nomor port kluster tersebut.
Klik ikon
di bilah alat atas tab konfigurasi node untuk menjalankan kode.Lihat hasil eksekusi di tab Runtime Logs.
Lihat hasilnya.
Klik kanan alur kerja dan pilih .
Di kotak dialog create a node, masukkan node name, dan klik submit.
Di tab konfigurasi node ODPS SQL, masukkan pernyataan berikut:
SELECT * FROM elastic2mc_bankdata;Klik ikon
untuk menjalankan kode.Anda bisa melihat hasilnya di operation Log.