全部产品
Search
文档中心

ApsaraDB for SelectDB:Migrasi data dari kluster Hive

更新时间:Jul 30, 2025

Anda dapat memigrasikan data dari kluster Hive ke instance ApsaraDB for SelectDB menggunakan katalog X2Doris, DataWorks, atau Object Storage Service (OSS). Pilih solusi yang sesuai berdasarkan volume data dan skenario bisnis Anda. Topik ini menjelaskan cara melakukan migrasi data offline dari kluster Hive ke instance ApsaraDB for SelectDB, serta cara memilih solusi migrasi.

Solusi

Pilih solusi migrasi yang sesuai dengan skenario bisnis Anda. Tabel berikut menggambarkan opsi solusi migrasi.

Solusi

Skenario

Manfaat

Referensi

Katalog

Data yang akan dimigrasikan disimpan di platform Alibaba Cloud.

Catatan

Solusi ini juga berlaku untuk skenario di mana data disimpan dalam kluster E-MapReduce (EMR) Alibaba Cloud.

  • Anda dapat memigrasikan data tanpa menghasilkan biaya transfer data.

    Catatan

    Kluster Hive dan SelectDB instance berada di virtual private cloud (VPC) yang sama. Data dimigrasikan melalui jaringan internal.

  • Anda dapat memigrasikan data tanpa perlu menggunakan komponen eksternal.

Sumber data Hive

OSS

Data yang akan dimigrasikan tidak disimpan di platform Alibaba Cloud.

Anda dapat memigrasikan data tanpa menghasilkan biaya transfer data.

Catatan

Jika Anda memigrasikan data dari Bucket OSS ke SelectDB instance, data dimigrasikan melalui jaringan internal tanpa menghasilkan biaya transfer data.

Gunakan OSS Load untuk mengimpor data

DataWorks

Data yang akan dimigrasikan dikelola oleh DataWorks atau Anda menggunakan DataWorks sebagai platform pengembangan data Anda.

Anda dapat memigrasikan data dengan menggunakan platform visualisasi, yang menyederhanakan operasi.

Gunakan DataWorks untuk mengimpor data

Migrasi data inkremental

Di lingkungan produksi, data Hive biasanya terdiri dari data offline dan data inkremental. Karena migrasi data Hive ke SelectDB sering melibatkan replikasi data ke gudang data untuk meningkatkan kinerja kueri, Anda dapat memigrasikan data inkremental menggunakan salah satu metode berikut:

  • Replikasi data Hive ke SelectDB saat data Hive dibuat.

  • Baca data dari partisi Hive menggunakan pekerjaan terjadwal dan tulis data tersebut ke SelectDB.

Referensi

Untuk informasi lebih lanjut tentang Hive, lihat Sumber Data Hive.