全部产品
Search
文档中心

AnalyticDB:Impor data dari sumber data Hive

更新时间:Jul 02, 2025

AnalyticDB for MySQL memungkinkan Anda memigrasikan data dari sumber data Hive ke Bucket OSS. Topik ini menjelaskan cara menggunakan fitur migrasi data AnalyticDB for MySQL untuk memigrasikan data dari sumber data Hive ke Bucket OSS, menganalisis data, dan mengelola tugas migrasi data.

Ikhtisar

AnalyticDB for MySQL memungkinkan migrasi data dari sumber data Hive ke Bucket OSS. Anda dapat memigrasikan metadata dan data dari sumber data ke OSS atau secara bersamaan memigrasikan beberapa database dan tabel dari sumber data ke OSS.

Prasyarat

  • Kluster E-MapReduce (EMR) dengan Skenario Bisnis diatur ke Data Lake, Metadata diatur ke Self-managed RDS atau Built-in MySQL, dikonfigurasi dengan layanan Hive, dan memiliki Hive Storage Mode diatur ke HDFS (kotak centang Data Lake Storage tidak dicentang). Untuk panduan pembuatan kluster EMR, lihat Buat kluster.

    Penting
    • Data dari sumber data Hive dalam kluster EMR yang memiliki Metadata diatur ke DLF Unified Metadata tidak dapat dimigrasikan ke Bucket OSS.

    • Data dari sumber data Hive dalam kluster EMR dengan Mode Penyimpanan Hive diatur ke Data Lake Storage disimpan di OSS. Anda dapat menggunakan penemuan metadata untuk mengimpor data ke AnalyticDB for MySQL. Untuk informasi lebih lanjut, lihat Gunakan penemuan metadata untuk mengimpor data ke Data Lakehouse Edition.

  • Kluster Cloudera's Distribution Including Apache Hadoop (CDH) yang diterapkan pada Instance Elastic Compute Service (ECS).

Aturan penagihan

Jika Anda menggunakan fitur migrasi data AnalyticDB for MySQL untuk memigrasikan data ke OSS, biaya berikut akan dikenakan:

Prosedur

Buat sumber data Hive

Catatan

Jika Anda ingin memigrasikan data dari sumber data Hive yang sudah ada, lewati langkah ini dan buat tugas migrasi data. Untuk informasi lebih lanjut, lihat bagian "Buat tugas migrasi data" dalam topik ini.

  1. Masuk ke Konsol AnalyticDB for MySQL. Di pojok kiri atas konsol, pilih wilayah. Pada panel navigasi di sebelah kiri, klik Clusters. Cari kluster yang ingin dikelola, lalu klik ID kluster tersebut.

  2. Di panel navigasi di sebelah kiri, pilih Data Ingestion > Data Sources.

  3. Di pojok kanan atas halaman, klik Create Data Source.

  4. Di halaman Create Data Source, konfigurasikan parameter yang dijelaskan dalam tabel berikut.

    Kluster EMR

    Parameter

    Deskripsi

    Data Source Type

    Sumber data. Pilih Hive.

    Data Source Name

    Nama sumber data. Secara default, sistem menghasilkan nama berdasarkan tipe sumber data dan waktu saat ini. Anda dapat memodifikasi nama sesuai dengan kebutuhan bisnis Anda.

    Data Source Description

    Deskripsi sumber data. Misalnya, Anda dapat memasukkan kasus penggunaan dan batasan bisnis.

    Deployment Mode

    Mode penyebaran kluster EMR. Pilih Instance Alibaba Cloud.

    Instance

    Kluster EMR tempat sumber data Hive berada.

    Hive Metastore URI

    Uniform Resource Identifier (URI) dari Hive Metastore. Tentukan parameter ini dalam format thrift://<Alamat IP node master>:<Nomor port>. Secara default, nomor port adalah 9083.

    Untuk melihat alamat IP privat node master, masuk ke Konsol EMR dan klik EMR on ECS di panel navigasi di sebelah kiri. Klik ID kluster EMR yang ingin Anda kelola, klik tab Nodes, lalu klik ikon 加号..png di sebelah kiri node emr-master.

    Kluster CDH berbasis ECS

    Parameter

    Deskripsi

    Data Source Type

    Sumber data. Pilih Hive.

    Data Source Name

    Nama sumber data. Secara default, sistem menghasilkan nama berdasarkan tipe sumber data dan waktu saat ini. Anda dapat memodifikasi nama sesuai dengan kebutuhan bisnis Anda.

    Data Source Description

    Deskripsi sumber data. Misalnya, Anda dapat memasukkan kasus penggunaan dan batasan bisnis.

    Deployment Mode

    Mode penyebaran kluster CDH. Pilih CDH berbasis ECS.

    Instance

    Instance ECS tempat kluster CDH diterapkan.

    Hive Metastore URI

    URI Hive Metastore. Dalam hal ini, tentukan alamat IP publik instance ECS tempat kluster CDH diterapkan. Tentukan parameter ini dalam format thrift://<Alamat IP instance ECS>:<Nomor port>. Secara default, nomor port adalah 9083.

    Host Configuration Information

    Pemetaan host ke IP. Tentukan pemetaan di baris yang berbeda.

    Contoh:

    192.168.2.153 master.cdh

    192.168.2.154 node1.cdh

    192.168.2.155 node2.cdh

  5. Klik Create

Buat tugas migrasi data

  1. Di panel navigasi sebelah kiri, klik Data Migration.

  2. Di pojok kanan atas, klik Create Migration Job.

  3. Di tab Sumber Data Hive pada halaman Create Migration Job, konfigurasikan parameter di bagian Source and Destination Settings, Database/Table Migration Settings, serta Migration Settings.

    Parameter di bagian Pengaturan Sumber dan Tujuan

    Parameter

    Deskripsi

    Job Name

    Nama tugas migrasi data. Secara default, sistem menghasilkan nama berdasarkan tipe sumber data dan waktu saat ini. Anda dapat memodifikasi nama sesuai dengan kebutuhan bisnis Anda.

    Data Source

    Nama sumber data. Anda dapat memilih sumber data Hive yang sudah ada atau membuat sumber data baru.

    Destination Type

    Tipe penyimpanan data di AnalyticDB for MySQL. Hanya Data Lake - OSS Storage yang didukung.

    OSS Path

    Path penyimpanan OSS untuk data kluster AnalyticDB for MySQL.

    Penting
    • Semua bucket yang berada di wilayah yang sama dengan kluster AnalyticDB for MySQL ditampilkan. Konfigurasikan parameter ini sesuai dengan kebutuhan bisnis Anda. Setelah Anda mengonfigurasi parameter ini, itu tidak dapat dimodifikasi.

    • Kami menyarankan Anda memilih direktori kosong yang tidak memiliki hubungan bertingkat dengan direktori tugas migrasi data lainnya. Ini mencegah data historis tertimpa. Sebagai contoh, asumsikan bahwa path penyimpanan OSS dari dua tugas migrasi data adalah oss://adb_demo/test/sls1/ dan oss://adb_demo/test/. Dalam hal ini, terjadi penimpaan data selama migrasi data karena kedua path tersebut memiliki hubungan bertingkat satu sama lain.

    Parameter di bagian Pengaturan Migrasi Database/Tabel

    Penting

    Jika nama database atau tabel ditambahkan ke daftar putih dan daftar hitam, daftar hitam yang berlaku. Dalam hal ini, sistem tidak akan memigrasikan database atau tabel tersebut.

    Parameter

    Deskripsi

    Database/Table Migration Whitelist

    Nama database dan tabel yang ingin Anda migrasikan. Tentukan nama menggunakan ekspresi reguler. Pisahkan beberapa ekspresi reguler dengan koma (,).

    Database/Table Migration Blacklist

    Nama database dan tabel yang tidak ingin Anda migrasikan. Tentukan nama menggunakan ekspresi reguler. Pisahkan beberapa ekspresi reguler dengan koma (,).

    Parameter di bagian Pengaturan Migrasi

    Parameter

    Deskripsi

    Handling Same Named Destination Table

    Cara menangani tabel yang menggunakan nama yang sama dengan tabel lain di bucket OSS tujuan. Nilai valid:

    • Skip Migration: melewati tabel dan melanjutkan migrasi tabel lainnya.

    • Report Error and Abort Migration: menjeda seluruh tugas migrasi data.

    Job Resource Group

    Grup sumber daya tugas yang menjalankan tugas migrasi data.

    Required ACUs

    Jumlah ACU yang diperlukan untuk grup sumber daya tugas menjalankan tugas migrasi data. Nilainya berkisar dari 4 hingga jumlah maksimum sumber daya komputasi yang tersedia dalam grup sumber daya tugas. Untuk meningkatkan stabilitas dan kinerja migrasi data, kami menyarankan Anda menentukan jumlah ACU yang relatif besar.

    Parallel Tasks

    Jumlah tugas yang dimulai untuk dijalankan secara paralel. Nilai default: 1. Nilai valid: 1 hingga 8.

    Setiap tugas memigrasikan sebuah tabel. Setiap tugas memerlukan setidaknya 4 ACU. Jika jumlah ACU tidak cukup, tugas-tugas dijalankan secara berurutan.

    Advanced Settings

    Pengaturan kustom untuk tugas migrasi data. Jika Anda ingin mengonfigurasi pengaturan kustom, hubungi dukungan teknis.

  4. Klik Submit.

Mulai tugas migrasi data

  1. Di halaman Data Migration, temukan tugas migrasi data yang telah Anda buat, lalu klik Start pada kolom Actions.

  2. Di pojok kanan atas, klik Search. Jika status tugas berubah menjadi Starting, tugas migrasi data telah dimulai.

Analisis data

Setelah tugas migrasi data selesai, Anda dapat menggunakan penemuan metadata untuk mengimpor data dari OSS ke Data Lakehouse Edition. Selanjutnya, gunakan Spark JAR Development untuk menganalisis data yang telah diimpor ke Data Lakehouse Edition. Untuk detail lebih lanjut tentang pengembangan Spark, lihat Editor Spark dan Ikhtisar.

    1. Di panel navigasi di sebelah kiri, pilih Job Development > Spark JAR Development.

    2. Masukkan pernyataan SQL di template default dan klik Run Now.

      -- Berikut hanya contoh SparkSQL. Modifikasi konten dan jalankan program spark Anda.
      
      conf spark.driver.resourceSpec=medium;
      conf spark.executor.instances=2;
      conf spark.executor.resourceSpec=medium;
      conf spark.app.name=Spark SQL Test;
      conf spark.adb.connectors=oss;
      
      -- Berikut adalah pernyataan sql Anda
      show tables from lakehouse20220413156_adbTest;
    3. (Opsional)Di tab Applications, temukan aplikasi dan klik Log di kolom Aksi untuk melihat log pelaksanaan Spark SQL aplikasi tersebut.

Kelola tugas migrasi data

Di halaman Data Migration, Anda dapat melakukan operasi yang dijelaskan dalam tabel berikut pada kolom Actions.

Operasi

Deskripsi

Start

Memulai tugas migrasi data.

View Details

Menampilkan detail tugas migrasi data, seperti pengaturan tugas migrasi data dan jumlah tabel yang dimigrasikan.

Edit

Memodifikasi properti konfigurasi tugas migrasi data.

Pause

Menjeda tugas migrasi data.

Delete

Menghapus tugas migrasi data.