Migrasikan Data Hive dari EMR/CDH ke OSS untuk Analitik Lakehouse - AnalyticDB for MySQL

AnalyticDB for MySQL memungkinkan Anda memigrasikan data dari sumber data Hive ke Bucket OSS. Topik ini menjelaskan cara menggunakan fitur migrasi data AnalyticDB for MySQL untuk memigrasikan data dari sumber data Hive ke Bucket OSS, menganalisis data, dan mengelola tugas migrasi data.

Ikhtisar

AnalyticDB for MySQL memungkinkan migrasi data dari sumber data Hive ke Bucket OSS. Anda dapat memigrasikan metadata dan data dari sumber data ke OSS atau secara bersamaan memigrasikan beberapa database dan tabel dari sumber data ke OSS.

Prasyarat

Kluster AnalyticDB for MySQL Enterprise Edition, Basic Edition, atau Data Lakehouse Edition telah dibuat.
Grup sumber daya pekerjaan telah dibuat untuk kluster AnalyticDB for MySQL.
Akun database telah dibuat untuk kluster AnalyticDB for MySQL.
- Jika Anda menggunakan akun Alibaba Cloud, cukup buat akun dengan hak istimewa.
- Jika Anda menggunakan Pengguna Resource Access Management (RAM), Anda harus membuat akun dengan hak istimewa dan akun standar, serta mengaitkan akun standar dengan pengguna RAM.
Salah satu kluster berikut telah dibuat di wilayah yang sama dengan kluster AnalyticDB for MySQL:

Kluster E-MapReduce (EMR) dengan Skenario Bisnis diatur ke Data Lake, Metadata diatur ke Self-managed RDS atau Built-in MySQL, dikonfigurasi dengan layanan Hive, dan memiliki Hive Storage Mode diatur ke HDFS (kotak centang Data Lake Storage tidak dicentang). Untuk panduan pembuatan kluster EMR, lihat Buat kluster.
Penting
- Data dari sumber data Hive dalam kluster EMR yang memiliki Metadata diatur ke DLF Unified Metadata tidak dapat dimigrasikan ke Bucket OSS.
- Data dari sumber data Hive dalam kluster EMR dengan Mode Penyimpanan Hive diatur ke Data Lake Storage disimpan di OSS. Anda dapat menggunakan penemuan metadata untuk mengimpor data ke AnalyticDB for MySQL. Untuk informasi lebih lanjut, lihat Gunakan penemuan metadata untuk mengimpor data ke Data Lakehouse Edition.
Kluster Cloudera's Distribution Including Apache Hadoop (CDH) yang diterapkan pada Instance Elastic Compute Service (ECS).

Tabel partisi telah dibuat di sumber data Hive. Untuk informasi lebih lanjut, lihat Gunakan Hive untuk Melakukan Operasi Dasar.

Aturan penagihan

Jika Anda menggunakan fitur migrasi data AnalyticDB for MySQL untuk memigrasikan data ke OSS, biaya berikut akan dikenakan:

Biaya sumber daya elastis Unit Komputasi AnalyticDB (ACU) AnalyticDB for MySQL. Untuk informasi lebih lanjut, lihat Item yang dapat ditagih dari Data Lakehouse Edition.
Biaya penyimpanan OSS mencakup biaya untuk jumlah permintaan seperti GET dan PUT. Untuk informasi lebih lanjut, lihat Penagihan.

Prosedur

Langkah 1: Buat sumber data Hive.
Langkah 2: Buat tugas migrasi data.
Langkah 3: Mulai tugas migrasi data.
Langkah 4: Analisis Data.
Langkah 5: (Opsional) Kelola tugas migrasi data.

Buat sumber data Hive

Catatan

Jika Anda ingin memigrasikan data dari sumber data Hive yang sudah ada, lewati langkah ini dan buat tugas migrasi data. Untuk informasi lebih lanjut, lihat bagian "Buat tugas migrasi data" dalam topik ini.

Masuk ke Konsol AnalyticDB for MySQL. Di pojok kiri atas konsol, pilih wilayah. Pada panel navigasi di sebelah kiri, klik Clusters. Cari kluster yang ingin dikelola, lalu klik ID kluster tersebut.
Di panel navigasi di sebelah kiri, pilih Data Ingestion > Data Sources.
Di pojok kanan atas halaman, klik Create Data Source.

Di halaman Create Data Source, konfigurasikan parameter yang dijelaskan dalam tabel berikut.

Kluster EMR

Parameter	Deskripsi
Data Source Type	Sumber data. Pilih Hive.
Data Source Name	Nama sumber data. Secara default, sistem menghasilkan nama berdasarkan tipe sumber data dan waktu saat ini. Anda dapat memodifikasi nama sesuai dengan kebutuhan bisnis Anda.
Data Source Description	Deskripsi sumber data. Misalnya, Anda dapat memasukkan kasus penggunaan dan batasan bisnis.
Deployment Mode	Mode penyebaran kluster EMR. Pilih Instance Alibaba Cloud.
Instance	Kluster EMR tempat sumber data Hive berada.
Hive Metastore URI	Uniform Resource Identifier (URI) dari Hive Metastore. Tentukan parameter ini dalam format `thrift://<Alamat IP node master>:<Nomor port>`. Secara default, nomor port adalah 9083. Untuk melihat alamat IP privat node master, masuk ke Konsol EMR dan klik EMR on ECS di panel navigasi di sebelah kiri. Klik ID kluster EMR yang ingin Anda kelola, klik tab Nodes, lalu klik ikon di sebelah kiri node emr-master.

Kluster CDH berbasis ECS

Parameter	Deskripsi
Data Source Type	Sumber data. Pilih Hive.
Data Source Name	Nama sumber data. Secara default, sistem menghasilkan nama berdasarkan tipe sumber data dan waktu saat ini. Anda dapat memodifikasi nama sesuai dengan kebutuhan bisnis Anda.
Data Source Description	Deskripsi sumber data. Misalnya, Anda dapat memasukkan kasus penggunaan dan batasan bisnis.
Deployment Mode	Mode penyebaran kluster CDH. Pilih CDH berbasis ECS.
Instance	Instance ECS tempat kluster CDH diterapkan.
Hive Metastore URI	URI Hive Metastore. Dalam hal ini, tentukan alamat IP publik instance ECS tempat kluster CDH diterapkan. Tentukan parameter ini dalam format `thrift://<Alamat IP instance ECS>:<Nomor port>`. Secara default, nomor port adalah 9083.
Host Configuration Information	Pemetaan host ke IP. Tentukan pemetaan di baris yang berbeda. Contoh: 192.168.2.153 master.cdh 192.168.2.154 node1.cdh 192.168.2.155 node2.cdh

Klik Create

Buat tugas migrasi data

Di panel navigasi sebelah kiri, klik Data Migration.
Di pojok kanan atas, klik Create Migration Job.

Di tab Sumber Data Hive pada halaman Create Migration Job, konfigurasikan parameter di bagian Source and Destination Settings, Database/Table Migration Settings, serta Migration Settings.

Parameter di bagian Pengaturan Sumber dan Tujuan

Parameter	Deskripsi
Job Name	Nama tugas migrasi data. Secara default, sistem menghasilkan nama berdasarkan tipe sumber data dan waktu saat ini. Anda dapat memodifikasi nama sesuai dengan kebutuhan bisnis Anda.
Data Source	Nama sumber data. Anda dapat memilih sumber data Hive yang sudah ada atau membuat sumber data baru.
Destination Type	Tipe penyimpanan data di AnalyticDB for MySQL. Hanya Data Lake - OSS Storage yang didukung.
OSS Path	Path penyimpanan OSS untuk data kluster AnalyticDB for MySQL. Penting Semua bucket yang berada di wilayah yang sama dengan kluster AnalyticDB for MySQL ditampilkan. Konfigurasikan parameter ini sesuai dengan kebutuhan bisnis Anda. Setelah Anda mengonfigurasi parameter ini, itu tidak dapat dimodifikasi. Kami menyarankan Anda memilih direktori kosong yang tidak memiliki hubungan bertingkat dengan direktori tugas migrasi data lainnya. Ini mencegah data historis tertimpa. Sebagai contoh, asumsikan bahwa path penyimpanan OSS dari dua tugas migrasi data adalah oss://adb_demo/test/sls1/ dan oss://adb_demo/test/. Dalam hal ini, terjadi penimpaan data selama migrasi data karena kedua path tersebut memiliki hubungan bertingkat satu sama lain.

Parameter di bagian Pengaturan Migrasi Database/Tabel

Penting

Jika nama database atau tabel ditambahkan ke daftar putih dan daftar hitam, daftar hitam yang berlaku. Dalam hal ini, sistem tidak akan memigrasikan database atau tabel tersebut.

Parameter	Deskripsi
Database/Table Migration Whitelist	Nama database dan tabel yang ingin Anda migrasikan. Tentukan nama menggunakan ekspresi reguler. Pisahkan beberapa ekspresi reguler dengan koma (,).
Database/Table Migration Blacklist	Nama database dan tabel yang tidak ingin Anda migrasikan. Tentukan nama menggunakan ekspresi reguler. Pisahkan beberapa ekspresi reguler dengan koma (,).

Parameter di bagian Pengaturan Migrasi

Parameter	Deskripsi
Handling Same Named Destination Table	Cara menangani tabel yang menggunakan nama yang sama dengan tabel lain di bucket OSS tujuan. Nilai valid: Skip Migration: melewati tabel dan melanjutkan migrasi tabel lainnya. Report Error and Abort Migration: menjeda seluruh tugas migrasi data.
Job Resource Group	Grup sumber daya tugas yang menjalankan tugas migrasi data.
Required ACUs	Jumlah ACU yang diperlukan untuk grup sumber daya tugas menjalankan tugas migrasi data. Nilainya berkisar dari 4 hingga jumlah maksimum sumber daya komputasi yang tersedia dalam grup sumber daya tugas. Untuk meningkatkan stabilitas dan kinerja migrasi data, kami menyarankan Anda menentukan jumlah ACU yang relatif besar.
Parallel Tasks	Jumlah tugas yang dimulai untuk dijalankan secara paralel. Nilai default: 1. Nilai valid: 1 hingga 8. Setiap tugas memigrasikan sebuah tabel. Setiap tugas memerlukan setidaknya 4 ACU. Jika jumlah ACU tidak cukup, tugas-tugas dijalankan secara berurutan.
Advanced Settings	Pengaturan kustom untuk tugas migrasi data. Jika Anda ingin mengonfigurasi pengaturan kustom, hubungi dukungan teknis.

Klik Submit.

Mulai tugas migrasi data

Di halaman Data Migration, temukan tugas migrasi data yang telah Anda buat, lalu klik Start pada kolom Actions.
Di pojok kanan atas, klik Search. Jika status tugas berubah menjadi Starting, tugas migrasi data telah dimulai.

Analisis data

Setelah tugas migrasi data selesai, Anda dapat menggunakan penemuan metadata untuk mengimpor data dari OSS ke Data Lakehouse Edition. Selanjutnya, gunakan Spark JAR Development untuk menganalisis data yang telah diimpor ke Data Lakehouse Edition. Untuk detail lebih lanjut tentang pengembangan Spark, lihat Editor Spark dan Ikhtisar.

Di panel navigasi di sebelah kiri, pilih Job Development > Spark JAR Development.

Masukkan pernyataan SQL di template default dan klik Run Now.

-- Berikut hanya contoh SparkSQL. Modifikasi konten dan jalankan program spark Anda.

conf spark.driver.resourceSpec=medium;
conf spark.executor.instances=2;
conf spark.executor.resourceSpec=medium;
conf spark.app.name=Spark SQL Test;
conf spark.adb.connectors=oss;

-- Berikut adalah pernyataan sql Anda
show tables from lakehouse20220413156_adbTest;

(Opsional)Di tab Applications, temukan aplikasi dan klik Log di kolom Aksi untuk melihat log pelaksanaan Spark SQL aplikasi tersebut.

Kelola tugas migrasi data

Di halaman Data Migration, Anda dapat melakukan operasi yang dijelaskan dalam tabel berikut pada kolom Actions.

Operasi	Deskripsi
Start	Memulai tugas migrasi data.
View Details	Menampilkan detail tugas migrasi data, seperti pengaturan tugas migrasi data dan jumlah tabel yang dimigrasikan.
Edit	Memodifikasi properti konfigurasi tugas migrasi data.
Pause	Menjeda tugas migrasi data.
Delete	Menghapus tugas migrasi data.