Pilih Metode Impor Data yang Tepat untuk AnalyticDB MySQL - AnalyticDB untuk MySQL

Untuk memenuhi berbagai kebutuhan impor data, AnalyticDB for MySQL menyediakan beberapa metode impor data seperti tabel eksternal, DataWorks, Data Transmission Service (DTS), atau program berbasis Java Database Connectivity (JDBC). Topik ini menjelaskan fitur dan skenario penggunaan masing-masing metode untuk membantu Anda memilih metode yang sesuai.

Gunakan tabel eksternal untuk mengimpor data

AnalyticDB for MySQL memungkinkan Anda mengakses berbagai sumber data dengan membuat tabel eksternal untuk memetakan sumber data eksternal. Dengan cara ini, Anda dapat membaca data eksternal secara bersamaan dan mengimpornya ke dalam AnalyticDB for MySQL. Metode ini memaksimalkan penggunaan sumber daya kluster untuk meningkatkan kinerja impor.

Karakteristik dasar

Cocok untuk mengimpor sejumlah besar data dalam satu pekerjaan.
Pekerjaan impor data mengonsumsi banyak sumber daya kluster untuk memastikan kinerja tinggi. Disarankan menggunakan metode ini selama jam non-puncak.
Data yang diimpor tidak terlihat selama proses impor dan hanya akan terlihat setelah pekerjaan selesai.
Jika Anda mengimpor partisi menggunakan metode ini, data partisi yang ada dengan nama yang sama akan ditimpa.
Setelah pekerjaan impor selesai menggunakan tabel eksternal, indeks tabel dibuat untuk meningkatkan kinerja kueri.

Skema umum

Inisialisasi data dalam gudang data
Untuk menginisialisasi dan mengimpor terabyte data ke AnalyticDB for MySQL untuk analisis, disarankan menyimpan data di OSS atau HDFS, lalu menggunakan tabel eksternal untuk mengimpor data.
Analisis dipercepat dari data batch
Data batch disimpan di gudang data seperti MaxCompute. Setiap hari, gigabyte atau terabyte data diimpor dari gudang data batch ke AnalyticDB for MySQL untuk analisis yang dipercepat.

Metode

Anda dapat mengimpor data menggunakan metode reguler atau elastis. Secara default, metode reguler digunakan. Jika menggunakan metode reguler, data dibaca dari node komputasi dan indeks dibuat pada node penyimpanan. Metode ini mengonsumsi sumber daya komputasi dan penyimpanan. Jika menggunakan metode elastis, data dibaca dan indeks dibuat untuk pekerjaan Serverless Spark. Metode ini mengonsumsi sumber daya grup sumber daya pekerjaan dan menghasilkan biaya tambahan. Tabel berikut menunjukkan perbandingan antara kedua metode tersebut.

Perbandingan antara metode impor reguler dan elastis

Item	Impor reguler	Impor elastis
Versi minor yang didukung	Tidak ada batasan.	V3.1.10.0 dan yang lebih baru.
Skema penggunaan	Mengimpor sejumlah kecil data. Tidak ada persyaratan khusus untuk kecepatan dan konkurensi pekerjaan impor.	Mengonsumsi lebih sedikit sumber daya node penyimpanan untuk mempercepat impor data. Pekerjaan impor mencakup beberapa tabel. Anda ingin mengimpor sejumlah besar data ke dalam tabel terpartisi.
Sumber data yang didukung	Impor data MaxCompute Impor data OSS Impor data HDFS Impor data ApsaraDB RDS for MySQL Impor data ApsaraDB RDS for SQL Server Impor data PolarDB-X Impor data PolarDB for MySQL	Impor data MaxCompute Impor data OSS
Cara mengaktifkan	Secara default, metode impor reguler diaktifkan.	Secara default, metode impor elastis diaktifkan untuk kluster AnalyticDB for MySQL versi V3.1.10 dan yang lebih baru.
Batasan	Tidak ada batasan.	Anda dapat menggunakan impor elastis untuk mengimpor data ke AnalyticDB for MySQL Data Lakehouse Edition (V3.0) berdasarkan tabel eksternal hanya dengan menggunakan pernyataan `INSERT OVERWRITE INTO`. Perhatikan batasan berikut untuk operasi SQL: Anda dapat menggunakan impor elastis untuk mengimpor data dari satu tabel, tetapi tidak dari beberapa tabel yang digabungkan. Impor elastis hanya mendukung klausa WHERE dan LIMIT. Sintaks lain seperti ORDER BY tidak didukung. Saat menjalankan pekerjaan impor elastis, Anda dapat menggunakan tanda bintang (*), nama kolom, nilai default, atau konstanta untuk bidang kolom dan nilai dalam pernyataan SELECT. Sintaks lain seperti fungsi SQL tidak didukung. Anda dapat menggunakan impor elastis untuk mengimpor data hanya ke tabel fakta. Impor elastis mendukung tipe data berikut: `BOOLEAN`, `TINYINT`, `SMALLINT`, `INT`, `BIGINT`, `FLOAT`, `DOUBLE`, `DECIMAL`, `VARCHAR`, `DATE`, `TIME`, `DATETIME`, dan `TIMESTAMP`.
Pekerjaan impor bersamaan	Metode impor reguler mendukung hingga dua pekerjaan bersamaan.	Metode impor elastis mendukung hingga 32 pekerjaan bersamaan. Catatan Untuk meningkatkan konkurensi impor, Anda dapat menentukan parameter adb.load.job.max.acu untuk menambah jumlah maksimum sumber daya yang dapat digunakan oleh pekerjaan impor elastis. Nilai default dari parameter adb.load.job.max.acu adalah jumlah shard ditambah 1. Anda dapat mengatur parameter adb.load.job.max.acu ke `K × nilai default` (K ≥ 1). Kami menyarankan Anda mengatur nilai maksimum K ke nilai yang kurang dari atau sama dengan jumlah partisi tabel terpartisi dalam pekerjaan impor saat ini. Gunakan metode berikut untuk menanyakan jumlah shard dan partisi: Jalankan pernyataan berikut untuk menanyakan jumlah shard dalam kluster AnalyticDB for MySQL: `SELECT count(1) FROM information_schema.kepler_meta_shards;` Untuk informasi tentang cara melihat jumlah partisi, lihat bagian "Lihat ukuran data tabel" pada topik Analisis Penyimpanan.
Sumber daya yang dikonsumsi	Metode impor reguler membaca data sumber dari grup sumber daya interaktif (node komputasi residensial) dan membuat indeks pada node penyimpanan. Proses ini mengonsumsi sejumlah besar sumber daya dari grup sumber daya interaktif (node komputasi residensial) dan node penyimpanan. Catatan Saat Anda menjalankan pekerjaan impor reguler, nilai metrik node penyimpanan, seperti penggunaan CPU dan penggunaan I/O, tinggi. Hal ini memengaruhi kinerja baca dan tulis.	Metode impor elastis membaca data sumber dari dan membuat indeks pada grup sumber daya pekerjaan (node komputasi berskala dinamis). Proses ini tidak mengonsumsi sumber daya node penyimpanan. Hanya sejumlah kecil sumber daya node penyimpanan yang dikonsumsi untuk mengunduh data partisi panas yang telah dibangun, termasuk format data dan indeks, ke perangkat lokal. Catatan Pekerjaan impor elastis mengonsumsi sejumlah kecil sumber daya node penyimpanan, tetapi tidak mengonsumsi sumber daya kelompok sumber daya interaktif (node komputasi residensial). Di halaman pemantauan, nilai metrik node penyimpanan, seperti penggunaan CPU dan penggunaan I/O, rendah dan metrik transaksi per detik (TPS) tidak ditampilkan.
Kecepatan impor	Kecepatan impor pekerjaan impor reguler bervariasi berdasarkan konfigurasi impor, metode impor, dan skema tabel. Untuk informasi tentang metode optimasi impor data untuk skenario yang berbeda, lihat Optimalkan kinerja impor data.	Sumber daya yang cukup dari grup sumber daya pekerjaan memastikan konkurensi tinggi dan peningkatan kecepatan pekerjaan impor elastis. Anda dapat menjalankan beberapa pekerjaan impor elastis dan meningkatkan jumlah maksimum sumber daya yang dapat digunakan oleh pekerjaan impor elastis untuk meningkatkan kecepatan impor.

Rekomendasi:

Pekerjaan impor elastis memerlukan setidaknya 2 hingga 3 menit untuk selesai dan tidak cocok untuk sejumlah kecil data. Jika pekerjaan impor harus selesai dalam waktu 3 menit, kami menyarankan Anda menggunakan metode impor reguler.
Pekerjaan impor elastis memerlukan waktu yang lebih lama untuk selesai dibandingkan dengan pekerjaan impor reguler yang menggunakan sumber daya yang sama. Jika Anda ingin mempercepat pekerjaan impor, kami menyarankan Anda meningkatkan jumlah maksimum sumber daya yang dapat digunakan oleh pekerjaan impor elastis.

Optimasi kinerja impor data

Untuk informasi tentang cara meningkatkan kinerja metode impor data berbasis tabel eksternal, lihat bagian "Optimalkan kinerja saat Anda menggunakan tabel eksternal untuk mengimpor data" dari topik Optimalkan kinerja impor data.

Gunakan DataWorks untuk mengimpor data

DataWorks menyediakan metode impor data visual yang memungkinkan Anda mengimpor data dari berbagai sumber data ke AnalyticDB for MySQL. Dibandingkan dengan tabel eksternal, DataWorks lebih cocok jika Anda ingin mengimpor hanya sejumlah kecil data.

Catatan

DataWorks Untuk mengimpor ratusan gigabyte data, kami menyarankan menggunakan tabel eksternal daripada DataWorks. Untuk informasi lebih lanjut, lihat bagian "Gunakan tabel eksternal untuk mengimpor data" dari topik ini.

Skema umum

Impor data setiap menit atau jam
Anda ingin mengimpor sejumlah kecil data ke AnalyticDB for MySQL setiap menit atau jam untuk analisis.
Impor data dari beberapa sumber data eksternal
Anda ingin mengimpor data dari beberapa sumber data seperti Tablestore, Redis, dan PostgreSQL ke AnalyticDB for MySQL.

Metode

Untuk menggunakan DataWorks untuk mengimpor data, lakukan langkah-langkah berikut:

Konfigurasikan sumber data. Sumber data berikut didukung: RDS for MySQL, Oracle, RDS for SQL Server, OSS, MaxCompute, dan HDFS. Untuk informasi lebih lanjut, lihat topik berikut:
Tambahkan sumber data AnalyticDB for MySQL V3.0.
Konfigurasikan koneksi sumber dan tujuan untuk pekerjaan sinkronisasi.

Optimasi kinerja impor data

Untuk informasi tentang cara meningkatkan kinerja metode impor data berbasis DataWorks, lihat bagian "Optimalkan kinerja saat Anda menggunakan DataWorks untuk mengimpor data" dari topik Optimalkan kinerja impor data.

Gunakan DTS untuk mengimpor data

Data Transmission Service (DTS) adalah layanan streaming data waktu nyata. DTS mendukung transmisi data antara sumber data seperti database sistem manajemen database relasional (RDBMS), database NoSQL, dan database pemrosesan analitik online (OLAP). DTS memiliki keunggulan dibandingkan alat migrasi dan sinkronisasi data tradisional: fitur yang beragam, kinerja tinggi, keamanan, keandalan, dan kemudahan penggunaan. DTS membantu menyederhanakan transmisi data dan memungkinkan Anda fokus pada pengembangan bisnis. Anda dapat menggunakan DTS untuk mengimpor data ke AnalyticDB for MySQL dari berbagai sumber data untuk analisis waktu nyata.

Skema umum

Sinkronisasi data waktu nyata dalam hitungan detik
Anda ingin menyinkronkan data secara real-time dari RDS for MySQL atau PolarDB for MySQL ke AnalyticDB for MySQL untuk analisis.
Agregasi multi-sumber
Anda ingin menyinkronkan data dari beberapa instance RDS for MySQL atau kluster PolarDB for MySQL ke kluster AnalyticDB for MySQL untuk analisis. Anda dapat menggunakan fitur penggabungan tabel multi-sumber dari DTS untuk menyinkronkan beberapa tabel sumber yang menggunakan skema yang sama ke satu tabel di kluster AnalyticDB for MySQL.

Metode

Gunakan program berbasis JDBC untuk mengimpor data

Jika metode penggunaan tabel eksternal atau DataWorks untuk mengimpor data tidak dapat memenuhi persyaratan bisnis Anda, Anda dapat menggunakan program berbasis JDBC untuk mengimpor data dalam skenario pembersihan data dan skenario kompleks lainnya yang melibatkan data tidak terstruktur.

Skema umum

Impor setelah pra-pemrosesan data
Anda ingin mengurai dan mengimpor file log yang dihasilkan ke AnalyticDB for MySQL secara real-time.
Impor data lokal
Anda ingin mengimpor data lokal yang gagal diunggah ke OSS, HDFS, atau MaxCompute ke AnalyticDB for MySQL.

Catatan penggunaan

Saat Anda menggunakan program berbasis JDBC untuk terhubung ke AnalyticDB for MySQL, Anda harus mengonfigurasi driver JDBC yang sesuai. Untuk informasi lebih lanjut, lihat bagian "Versi driver JDBC MySQL yang didukung" dari topik Java.
Jika Anda ingin mengimpor sejumlah besar data dan mengurangi waktu yang diperlukan untuk menyelesaikan pekerjaan impor, kami menyarankan Anda mengonfigurasi kumpulan koneksi. Untuk informasi lebih lanjut, lihat Kumpulan koneksi Druid.
Metode impor data ini mendukung impor batch dan impor bersamaan untuk kinerja impor yang lebih tinggi.
Untuk informasi tentang cara mengimpor data streaming, lihat Impor data dari Apache Flink.
Untuk informasi tentang cara mengimpor data lokal non-kustom, lihat Gunakan LOAD DATA untuk mengimpor data ke Data Warehouse Edition dan Gunakan alat impor AnalyticDB for MySQL untuk mengimpor data ke Data Warehouse Edition.

Optimasi kinerja impor data

Untuk informasi tentang cara meningkatkan kinerja metode impor data yang menggunakan program berbasis JDBC, lihat bagian "Optimalkan kinerja saat Anda menggunakan program berbasis JDBC untuk mengimpor data" dari topik Optimalkan kinerja impor data.

Gunakan sinkronisasi data untuk mengimpor data

AnalyticDB for MySQL menyediakan berbagai fitur sinkronisasi data, seperti Layanan Pipa AnalyticDB (APS), penemuan metadata, dan migrasi data Hive. Fitur sinkronisasi data memungkinkan Anda menemukan dan mengatur metadata OSS, menyinkronkan data secara real-time dari Simple Log Service (SLS) dan ApsaraMQ for Kafka ke AnalyticDB for MySQL, serta memigrasi data Hive ke OSS untuk analisis data selanjutnya.

Skema umum

Penyimpanan dan analisis biaya rendah
Jika Anda ingin menyimpan dan menganalisis sejumlah besar log seperti data SLS dan pesan seperti data Kafka dengan cara yang hemat biaya, Anda dapat menggunakan fitur APS untuk menyinkronkan data secara real-time dari SLS dan Kafka ke AnalyticDB for MySQL.
Penemuan metadata
Sejumlah besar data OSS sulit dikelola dan dianalisis karena tidak adanya metadata. AnalyticDB for MySQL menggunakan fitur penemuan metadata untuk membangun level metadata, seperti database, tabel, dan partisi, serta mengidentifikasi format data dan informasi bidang untuk menghasilkan skema tabel. Metadata yang dibangun menggunakan fitur penemuan metadata memungkinkan data diidentifikasi oleh mesin analisis lain untuk analisis selanjutnya.
Migrasi data Hive
Jika Anda ingin AnalyticDB for MySQL melakukan operasi pada data yang disimpan di Hive, termasuk manajemen metadata dan analisis selanjutnya, Anda dapat menggunakan fitur migrasi data Hive untuk memigrasi data Hive ke OSS. Kemudian, AnalyticDB for MySQL secara otomatis mengatur metadata dan melakukan analisis selanjutnya.