ApsaraDB for SelectDB mendukung berbagai metode impor data, termasuk antarmuka asli dan alat ekosistem, untuk memenuhi kebutuhan skenario pemrosesan streaming waktu nyata dan batch. Topik ini menjelaskan antarmuka inti dan alat yang dapat digunakan untuk mengimpor data ke dalam SelectDB instance.
Rekomendasi Pemilihan Metode Impor
Data sumber dari ekosistem Alibaba Cloud: DTS dan DataWorks.
Data sumber dari luar ekosistem Alibaba Cloud:
Antarmuka impor data:
Sumber data Kafka: Routine Load (disarankan).
Sumber data non-Kafka: Stream Load (disarankan).
Alat impor data: Flink.
Jumlah data yang besar:
Antarmuka impor data:
Sumber data Kafka: Routine Load (disarankan).
Sumber data non-Kafka: Stream Load (disarankan).
Alat impor data:
Untuk informasi lebih lanjut tentang antarmuka dan alat, lihat Antarmuka impor data dan Alat impor data.
Antarmuka impor data
Antarmuka | Deskripsi | Format data yang didukung | Skenario | Referensi |
Stream Load (Disarankan) |
| CSV, JSON, PARQUET, dan ORC. | Anda ingin mengimpor file lokal atau aliran data ke dalam SelectDB instance secara real-time atau dalam batch. | |
Routine Load | Anda dapat memproses aliran data secara real-time. | CSV dan JSON. | Anda ingin terus-menerus mengimpor sumber data yang ditentukan dalam pekerjaan jangka panjang ke dalam SelectDB instance. Catatan Hanya sumber data Kafka yang didukung. | |
Broker Load |
| CSV, PARQUET, dan ORC. | Anda ingin membaca dan mengimpor data dari sistem penyimpanan jarak jauh, seperti Object Storage Service (OSS), Hadoop Distributed File System (HDFS), dan Amazon Simple Storage Service (Amazon S3), ke dalam SelectDB instance. | |
OSS Load |
| CSV, PARQUET, dan ORC. | Anda ingin mengimpor data di Alibaba Cloud OSS ke dalam SelectDB instance. | |
INSERT INTO | Kinerja | Data dari database dan tabel dibaca, tanpa format file tertentu. |
|
Alat impor data
Alat | Manfaat | Sumber data yang didukung | Data tambahan | Data historis | Skema | Referensi |
DataWorks | Manajemen end-to-end: Fitur penjadwalan tugas, pemantauan data, dan analisis garis keturunan terintegrasi, dan ekosistem Alibaba Cloud dapat diintegrasikan dengan mulus. |
| Tidak didukung | Didukung | Skema sinkronisasi data kompleks di mana data tingkat perusahaan perlu diintegrasikan dan tugas-tugas perlu diatur serta dipantau. | |
DTS | Sinkronisasi data waktu nyata: Migrasi data dapat selesai dengan latensi level detik, dan fitur unggah yang dapat dilanjutkan serta verifikasi data disediakan untuk memastikan keandalan migrasi data. |
| Didukung | Didukung | Skema migrasi data yang sangat andal di mana database lintas-cloud atau cloud hibrida perlu disinkronkan secara real-time. | |
Flink | Pengolahan stream-batch terpadu: Semantik exactly-once didukung untuk pengolahan aliran data waktu nyata, dan fitur komputasi dan impor data terintegrasi untuk menyesuaikan diri dengan skenario ETL kompleks. |
| Didukung | Didukung | Skema di mana gudang data waktu nyata dapat dibangun dan komputasi aliran serta impor data perlu diintegrasikan. | |
Kafka | Pipeline berkapasitas tinggi: Penyanggaan data level terabyte didukung, dan mekanisme penyimpanan persistensi dan multi-replika disediakan untuk mencegah kehilangan data. |
| Didukung | Didukung | Skema di mana pipeline data asinkron digunakan dan produsen dan konsumen perlu dipisahkan untuk mencapai penyanggaan data konkurensi tinggi. | |
Spark | Komputasi terdistribusi: Mesin Spark dapat digunakan untuk memproses data dalam jumlah besar secara paralel, dan konversi fleksibel antara DataFrame dan kueri SQL didukung. |
| Didukung | Didukung | Skema impor batch di mana logika komputasi, seperti kueri SQL dan DataFrame, perlu digabungkan untuk mencapai pemrosesan ETL skala besar. | |
DataX | Arsitektur berbasis plugin: Lebih dari 20 ekstensi sumber data didukung, sinkronisasi pemrosesan batch didukung, dan migrasi data heterogen tingkat perusahaan diizinkan. |
| Tidak didukung | Didukung | Skema di mana plugin yang sangat skalabel diperlukan untuk menyinkronkan data heterogen multi-sumber dalam batch. | |
SeaTunnel | ETL ringan: Mode terdorong dikonfigurasi untuk menyederhanakan pengembangan, fitur Change Data Capture (CDC) didukung untuk menangkap perubahan data secara real-time, dan mesin Flink dan Spark kompatibel. |
| Didukung | Didukung | Skema di mana fitur CDC dalam mode terdorong perlu dikonfigurasi dengan cara sederhana dan sinkronisasi data waktu nyata ringan perlu dicapai. | |
BitSail | Adaptasi multi-mesin: Beberapa kerangka komputasi seperti MapReduce dan Flink didukung, dan strategi sharding data disediakan untuk meningkatkan efisiensi impor data. |
| Didukung | Didukung | Skema migrasi data di mana kerangka komputasi, seperti Flink dan MapReduce (MR), perlu dialihkan. |