Metode yang digunakan untuk mengimpor data ke dalam instans SelectDB - ApsaraDB for SelectDB

ApsaraDB for SelectDB mendukung berbagai metode impor data, termasuk antarmuka asli dan alat ekosistem, untuk memenuhi kebutuhan skenario pemrosesan streaming waktu nyata dan batch. Topik ini menjelaskan antarmuka inti dan alat yang dapat digunakan untuk mengimpor data ke dalam SelectDB instance.

Rekomendasi Pemilihan Metode Impor

Data sumber dari ekosistem Alibaba Cloud: DTS dan DataWorks.
Data sumber dari luar ekosistem Alibaba Cloud:
- Antarmuka impor data:
  - Sumber data Kafka: Routine Load (disarankan).
  - Sumber data non-Kafka: Stream Load (disarankan).
- Alat impor data: Flink.
Jumlah data yang besar:
- Antarmuka impor data:
  - Sumber data Kafka: Routine Load (disarankan).
  - Sumber data non-Kafka: Stream Load (disarankan).
- Alat impor data:
  - Sumber data MySQL dari ekosistem Alibaba Cloud: DTS (disarankan).
  - Sumber data MySQL dari luar ekosistem Alibaba Cloud: Flink (disarankan).

Untuk informasi lebih lanjut tentang antarmuka dan alat, lihat Antarmuka impor data dan Alat impor data.

Antarmuka impor data

Antarmuka	Deskripsi	Format data yang didukung	Skenario	Referensi
Stream Load (Disarankan)	Protokol HTTP digunakan untuk mentransmisikan data. Stream Load adalah antarmuka sinkron. Setelah permintaan berhasil, hasilnya langsung dikembalikan.	CSV, JSON, PARQUET, dan ORC.	Anda ingin mengimpor file lokal atau aliran data ke dalam SelectDB instance secara real-time atau dalam batch.	Gunakan Stream Load untuk mengimpor data.
Routine Load	Anda dapat memproses aliran data secara real-time.	CSV dan JSON.	Anda ingin terus-menerus mengimpor sumber data yang ditentukan dalam pekerjaan jangka panjang ke dalam SelectDB instance. Catatan Hanya sumber data Kafka yang didukung.	Gunakan Routine Load untuk mengimpor data.
Broker Load	Anda dapat mengimpor ratusan GB data ke dalam instance sekaligus. Broker Load adalah antarmuka asinkron.	CSV, PARQUET, dan ORC.	Anda ingin membaca dan mengimpor data dari sistem penyimpanan jarak jauh, seperti Object Storage Service (OSS), Hadoop Distributed File System (HDFS), dan Amazon Simple Storage Service (Amazon S3), ke dalam SelectDB instance.	Gunakan Broker Load untuk mengimpor data.
OSS Load	Data ditransmisikan melalui jaringan internal, mengurangi konsumsi bandwidth Internet. Anda dapat mengimpor ratusan GB data ke dalam instance sekaligus.	CSV, PARQUET, dan ORC.	Anda ingin mengimpor data di Alibaba Cloud OSS ke dalam SelectDB instance.	Gunakan OSS Load untuk mengimpor data.
INSERT INTO	Kinerja `INSERT INTO VALUES` buruk. Kami menyarankan agar Anda tidak menggunakan `INSERT INTO VALUES` di lingkungan produksi.	Data dari database dan tabel dibaca, tanpa format file tertentu.	`INSERT INTO VALUES` cocok untuk skenario di mana Anda ingin mengimpor sejumlah kecil data ke dalam SelectDB instance dengan frekuensi kurang dari sekali setiap lima menit. `INSERT INTO SELECT` cocok untuk skenario di mana Anda ingin menghitung dan memproses data internal dari SelectDB instance dan data eksternal di danau data terpadu, kemudian mengimpor data tersebut ke dalam tabel baru dari SelectDB instance.	Gunakan INSERT INTO untuk mengimpor data.

Alat impor data

Alat	Manfaat	Sumber data yang didukung	Data tambahan	Data historis	Skema	Referensi
DataWorks	Manajemen end-to-end: Fitur penjadwalan tugas, pemantauan data, dan analisis garis keturunan terintegrasi, dan ekosistem Alibaba Cloud dapat diintegrasikan dengan mulus.	MySQL ApsaraDB for ClickHouse StarRocks	Tidak didukung	Didukung	Skema sinkronisasi data kompleks di mana data tingkat perusahaan perlu diintegrasikan dan tugas-tugas perlu diatur serta dipantau.	Gunakan DataWorks untuk mengimpor data
DTS	Sinkronisasi data waktu nyata: Migrasi data dapat selesai dengan latensi level detik, dan fitur unggah yang dapat dilanjutkan serta verifikasi data disediakan untuk memastikan keandalan migrasi data.	MySQL PostgreSQL	Didukung	Didukung	Skema migrasi data yang sangat andal di mana database lintas-cloud atau cloud hibrida perlu disinkronkan secara real-time.	Gunakan DTS untuk mengimpor data
Flink	Pengolahan stream-batch terpadu: Semantik exactly-once didukung untuk pengolahan aliran data waktu nyata, dan fitur komputasi dan impor data terintegrasi untuk menyesuaikan diri dengan skenario ETL kompleks.	MySQL Kafka Oracle PostgreSQL SQL Server	Didukung	Didukung	Skema di mana gudang data waktu nyata dapat dibangun dan komputasi aliran serta impor data perlu diintegrasikan.	Gunakan Flink untuk mengimpor data
Kafka	Pipeline berkapasitas tinggi: Penyanggaan data level terabyte didukung, dan mekanisme penyimpanan persistensi dan multi-replika disediakan untuk mencegah kehilangan data.	Kafka	Didukung	Didukung	Skema di mana pipeline data asinkron digunakan dan produsen dan konsumen perlu dipisahkan untuk mencapai penyanggaan data konkurensi tinggi.	Gunakan Doris Kafka Connector untuk mengimpor data
Spark	Komputasi terdistribusi: Mesin Spark dapat digunakan untuk memproses data dalam jumlah besar secara paralel, dan konversi fleksibel antara DataFrame dan kueri SQL didukung.	MySQL PostgreSQL HDFS S3	Didukung	Didukung	Skema impor batch di mana logika komputasi, seperti kueri SQL dan DataFrame, perlu digabungkan untuk mencapai pemrosesan ETL skala besar.	Gunakan Spark untuk mengimpor data
DataX	Arsitektur berbasis plugin: Lebih dari 20 ekstensi sumber data didukung, sinkronisasi pemrosesan batch didukung, dan migrasi data heterogen tingkat perusahaan diizinkan.	MySQL Oracle HDFS Hive ODPS HBase FTP	Tidak didukung	Didukung	Skema di mana plugin yang sangat skalabel diperlukan untuk menyinkronkan data heterogen multi-sumber dalam batch.	Gunakan DataX untuk mengimpor data
SeaTunnel	ETL ringan: Mode terdorong dikonfigurasi untuk menyederhanakan pengembangan, fitur Change Data Capture (CDC) didukung untuk menangkap perubahan data secara real-time, dan mesin Flink dan Spark kompatibel.	MySQL Hive Kafka	Didukung	Didukung	Skema di mana fitur CDC dalam mode terdorong perlu dikonfigurasi dengan cara sederhana dan sinkronisasi data waktu nyata ringan perlu dicapai.	Gunakan SeaTunnel untuk mengimpor data
BitSail	Adaptasi multi-mesin: Beberapa kerangka komputasi seperti MapReduce dan Flink didukung, dan strategi sharding data disediakan untuk meningkatkan efisiensi impor data.	MySQL Hive Kafka	Didukung	Didukung	Skema migrasi data di mana kerangka komputasi, seperti Flink dan MapReduce (MR), perlu dialihkan.	Gunakan BitSail untuk mengimpor data