AnalyticDB for MySQL memungkinkan Anda memigrasikan data dari sumber data Hive ke Bucket OSS. Topik ini menjelaskan cara menggunakan fitur migrasi data AnalyticDB for MySQL untuk memigrasikan data dari sumber data Hive ke Bucket OSS, menganalisis data, dan mengelola tugas migrasi data.
Ikhtisar
AnalyticDB for MySQL memungkinkan migrasi data dari sumber data Hive ke Bucket OSS. Anda dapat memigrasikan metadata dan data dari sumber data ke OSS atau secara bersamaan memigrasikan beberapa database dan tabel dari sumber data ke OSS.
Prasyarat
Kluster AnalyticDB for MySQL Enterprise Edition, Basic Edition, atau Data Lakehouse Edition telah dibuat.
Grup sumber daya pekerjaan telah dibuat untuk kluster AnalyticDB for MySQL.
Akun database telah dibuat untuk kluster AnalyticDB for MySQL.
Jika Anda menggunakan akun Alibaba Cloud, cukup buat akun dengan hak istimewa.
Jika Anda menggunakan Pengguna Resource Access Management (RAM), Anda harus membuat akun dengan hak istimewa dan akun standar, serta mengaitkan akun standar dengan pengguna RAM.
Salah satu kluster berikut telah dibuat di wilayah yang sama dengan kluster AnalyticDB for MySQL:
Kluster E-MapReduce (EMR) dengan Skenario Bisnis diatur ke Data Lake, Metadata diatur ke Self-managed RDS atau Built-in MySQL, dikonfigurasi dengan layanan Hive, dan memiliki Hive Storage Mode diatur ke HDFS (kotak centang Data Lake Storage tidak dicentang). Untuk panduan pembuatan kluster EMR, lihat Buat kluster.
PentingData dari sumber data Hive dalam kluster EMR yang memiliki Metadata diatur ke DLF Unified Metadata tidak dapat dimigrasikan ke Bucket OSS.
Data dari sumber data Hive dalam kluster EMR dengan Mode Penyimpanan Hive diatur ke Data Lake Storage disimpan di OSS. Anda dapat menggunakan penemuan metadata untuk mengimpor data ke AnalyticDB for MySQL. Untuk informasi lebih lanjut, lihat Gunakan penemuan metadata untuk mengimpor data ke Data Lakehouse Edition.
Kluster Cloudera's Distribution Including Apache Hadoop (CDH) yang diterapkan pada Instance Elastic Compute Service (ECS).
Tabel partisi telah dibuat di sumber data Hive. Untuk informasi lebih lanjut, lihat Gunakan Hive untuk Melakukan Operasi Dasar.
Aturan penagihan
Jika Anda menggunakan fitur migrasi data AnalyticDB for MySQL untuk memigrasikan data ke OSS, biaya berikut akan dikenakan:
Biaya sumber daya elastis Unit Komputasi AnalyticDB (ACU) AnalyticDB for MySQL. Untuk informasi lebih lanjut, lihat Item yang dapat ditagih dari Data Lakehouse Edition.
Biaya penyimpanan OSS mencakup biaya untuk jumlah permintaan seperti GET dan PUT. Untuk informasi lebih lanjut, lihat Penagihan.
Prosedur
Langkah 1: Buat sumber data Hive.
Langkah 2: Buat tugas migrasi data.
Langkah 3: Mulai tugas migrasi data.
Langkah 4: Analisis Data.
Langkah 5: (Opsional) Kelola tugas migrasi data.
Buat sumber data Hive
Jika Anda ingin memigrasikan data dari sumber data Hive yang sudah ada, lewati langkah ini dan buat tugas migrasi data. Untuk informasi lebih lanjut, lihat bagian "Buat tugas migrasi data" dalam topik ini.
Masuk ke Konsol AnalyticDB for MySQL. Di pojok kiri atas konsol, pilih wilayah. Pada panel navigasi di sebelah kiri, klik Clusters. Cari kluster yang ingin dikelola, lalu klik ID kluster tersebut.
Di panel navigasi di sebelah kiri, pilih Data Ingestion > Data Sources.
Di pojok kanan atas halaman, klik Create Data Source.
Di halaman Create Data Source, konfigurasikan parameter yang dijelaskan dalam tabel berikut.
Kluster EMR
Parameter
Deskripsi
Data Source Type
Sumber data. Pilih Hive.
Data Source Name
Nama sumber data. Secara default, sistem menghasilkan nama berdasarkan tipe sumber data dan waktu saat ini. Anda dapat memodifikasi nama sesuai dengan kebutuhan bisnis Anda.
Data Source Description
Deskripsi sumber data. Misalnya, Anda dapat memasukkan kasus penggunaan dan batasan bisnis.
Deployment Mode
Mode penyebaran kluster EMR. Pilih Instance Alibaba Cloud.
Instance
Kluster EMR tempat sumber data Hive berada.
Hive Metastore URI
Uniform Resource Identifier (URI) dari Hive Metastore. Tentukan parameter ini dalam format
thrift://<Alamat IP node master>:<Nomor port>. Secara default, nomor port adalah 9083.Untuk melihat alamat IP privat node master, masuk ke Konsol EMR dan klik EMR on ECS di panel navigasi di sebelah kiri. Klik ID kluster EMR yang ingin Anda kelola, klik tab Nodes, lalu klik ikon
di sebelah kiri node emr-master. Kluster CDH berbasis ECS
Parameter
Deskripsi
Data Source Type
Sumber data. Pilih Hive.
Data Source Name
Nama sumber data. Secara default, sistem menghasilkan nama berdasarkan tipe sumber data dan waktu saat ini. Anda dapat memodifikasi nama sesuai dengan kebutuhan bisnis Anda.
Data Source Description
Deskripsi sumber data. Misalnya, Anda dapat memasukkan kasus penggunaan dan batasan bisnis.
Deployment Mode
Mode penyebaran kluster CDH. Pilih CDH berbasis ECS.
Instance
Instance ECS tempat kluster CDH diterapkan.
Hive Metastore URI
URI Hive Metastore. Dalam hal ini, tentukan alamat IP publik instance ECS tempat kluster CDH diterapkan. Tentukan parameter ini dalam format
thrift://<Alamat IP instance ECS>:<Nomor port>. Secara default, nomor port adalah 9083.Host Configuration Information
Pemetaan host ke IP. Tentukan pemetaan di baris yang berbeda.
Contoh:
192.168.2.153 master.cdh
192.168.2.154 node1.cdh
192.168.2.155 node2.cdh
Klik Create
Buat tugas migrasi data
Di panel navigasi sebelah kiri, klik Data Migration.
Di pojok kanan atas, klik Create Migration Job.
Di tab Sumber Data Hive pada halaman Create Migration Job, konfigurasikan parameter di bagian Source and Destination Settings, Database/Table Migration Settings, serta Migration Settings.
Parameter di bagian Pengaturan Sumber dan Tujuan
Parameter
Deskripsi
Job Name
Nama tugas migrasi data. Secara default, sistem menghasilkan nama berdasarkan tipe sumber data dan waktu saat ini. Anda dapat memodifikasi nama sesuai dengan kebutuhan bisnis Anda.
Data Source
Nama sumber data. Anda dapat memilih sumber data Hive yang sudah ada atau membuat sumber data baru.
Destination Type
Tipe penyimpanan data di AnalyticDB for MySQL. Hanya Data Lake - OSS Storage yang didukung.
OSS Path
Path penyimpanan OSS untuk data kluster AnalyticDB for MySQL.
PentingSemua bucket yang berada di wilayah yang sama dengan kluster AnalyticDB for MySQL ditampilkan. Konfigurasikan parameter ini sesuai dengan kebutuhan bisnis Anda. Setelah Anda mengonfigurasi parameter ini, itu tidak dapat dimodifikasi.
Kami menyarankan Anda memilih direktori kosong yang tidak memiliki hubungan bertingkat dengan direktori tugas migrasi data lainnya. Ini mencegah data historis tertimpa. Sebagai contoh, asumsikan bahwa path penyimpanan OSS dari dua tugas migrasi data adalah oss://adb_demo/test/sls1/ dan oss://adb_demo/test/. Dalam hal ini, terjadi penimpaan data selama migrasi data karena kedua path tersebut memiliki hubungan bertingkat satu sama lain.
Parameter di bagian Pengaturan Migrasi Database/Tabel
PentingJika nama database atau tabel ditambahkan ke daftar putih dan daftar hitam, daftar hitam yang berlaku. Dalam hal ini, sistem tidak akan memigrasikan database atau tabel tersebut.
Parameter
Deskripsi
Database/Table Migration Whitelist
Nama database dan tabel yang ingin Anda migrasikan. Tentukan nama menggunakan ekspresi reguler. Pisahkan beberapa ekspresi reguler dengan koma (,).
Database/Table Migration Blacklist
Nama database dan tabel yang tidak ingin Anda migrasikan. Tentukan nama menggunakan ekspresi reguler. Pisahkan beberapa ekspresi reguler dengan koma (,).
Parameter di bagian Pengaturan Migrasi
Parameter
Deskripsi
Handling Same Named Destination Table
Cara menangani tabel yang menggunakan nama yang sama dengan tabel lain di bucket OSS tujuan. Nilai valid:
Skip Migration: melewati tabel dan melanjutkan migrasi tabel lainnya.
Report Error and Abort Migration: menjeda seluruh tugas migrasi data.
Job Resource Group
Grup sumber daya tugas yang menjalankan tugas migrasi data.
Required ACUs
Jumlah ACU yang diperlukan untuk grup sumber daya tugas menjalankan tugas migrasi data. Nilainya berkisar dari 4 hingga jumlah maksimum sumber daya komputasi yang tersedia dalam grup sumber daya tugas. Untuk meningkatkan stabilitas dan kinerja migrasi data, kami menyarankan Anda menentukan jumlah ACU yang relatif besar.
Parallel Tasks
Jumlah tugas yang dimulai untuk dijalankan secara paralel. Nilai default: 1. Nilai valid: 1 hingga 8.
Setiap tugas memigrasikan sebuah tabel. Setiap tugas memerlukan setidaknya 4 ACU. Jika jumlah ACU tidak cukup, tugas-tugas dijalankan secara berurutan.
Advanced Settings
Pengaturan kustom untuk tugas migrasi data. Jika Anda ingin mengonfigurasi pengaturan kustom, hubungi dukungan teknis.
Klik Submit.
Mulai tugas migrasi data
Di halaman Data Migration, temukan tugas migrasi data yang telah Anda buat, lalu klik Start pada kolom Actions.
Di pojok kanan atas, klik Search. Jika status tugas berubah menjadi Starting, tugas migrasi data telah dimulai.
Analisis data
Setelah tugas migrasi data selesai, Anda dapat menggunakan penemuan metadata untuk mengimpor data dari OSS ke Data Lakehouse Edition. Selanjutnya, gunakan Spark JAR Development untuk menganalisis data yang telah diimpor ke Data Lakehouse Edition. Untuk detail lebih lanjut tentang pengembangan Spark, lihat Editor Spark dan Ikhtisar.
Di panel navigasi di sebelah kiri, pilih .
Masukkan pernyataan SQL di template default dan klik Run Now.
-- Berikut hanya contoh SparkSQL. Modifikasi konten dan jalankan program spark Anda. conf spark.driver.resourceSpec=medium; conf spark.executor.instances=2; conf spark.executor.resourceSpec=medium; conf spark.app.name=Spark SQL Test; conf spark.adb.connectors=oss; -- Berikut adalah pernyataan sql Anda show tables from lakehouse20220413156_adbTest;(Opsional)Di tab Applications, temukan aplikasi dan klik Log di kolom Aksi untuk melihat log pelaksanaan Spark SQL aplikasi tersebut.
Kelola tugas migrasi data
Di halaman Data Migration, Anda dapat melakukan operasi yang dijelaskan dalam tabel berikut pada kolom Actions.
Operasi | Deskripsi |
Start | Memulai tugas migrasi data. |
View Details | Menampilkan detail tugas migrasi data, seperti pengaturan tugas migrasi data dan jumlah tabel yang dimigrasikan. |
Edit | Memodifikasi properti konfigurasi tugas migrasi data. |
Pause | Menjeda tugas migrasi data. |
Delete | Menghapus tugas migrasi data. |