全部产品
Search
文档中心

ApsaraDB for SelectDB:Impor Data

更新时间:Jul 30, 2025

ApsaraDB for SelectDB mendukung berbagai metode impor data, termasuk antarmuka asli dan alat ekosistem, untuk memenuhi kebutuhan skenario pemrosesan streaming waktu nyata dan batch. Topik ini menjelaskan antarmuka inti dan alat yang dapat digunakan untuk mengimpor data ke dalam SelectDB instance.

Rekomendasi Pemilihan Metode Impor

  • Data sumber dari ekosistem Alibaba Cloud: DTS dan DataWorks.

  • Data sumber dari luar ekosistem Alibaba Cloud:

  • Jumlah data yang besar:

    • Antarmuka impor data:

    • Alat impor data:

      • Sumber data MySQL dari ekosistem Alibaba Cloud: DTS (disarankan).

      • Sumber data MySQL dari luar ekosistem Alibaba Cloud: Flink (disarankan).

Untuk informasi lebih lanjut tentang antarmuka dan alat, lihat Antarmuka impor data dan Alat impor data.

Antarmuka impor data

Antarmuka

Deskripsi

Format data yang didukung

Skenario

Referensi

Stream Load (Disarankan)

  • Protokol HTTP digunakan untuk mentransmisikan data.

  • Stream Load adalah antarmuka sinkron. Setelah permintaan berhasil, hasilnya langsung dikembalikan.

CSV, JSON, PARQUET, dan ORC.

Anda ingin mengimpor file lokal atau aliran data ke dalam SelectDB instance secara real-time atau dalam batch.

Gunakan Stream Load untuk mengimpor data.

Routine Load

Anda dapat memproses aliran data secara real-time.

CSV dan JSON.

Anda ingin terus-menerus mengimpor sumber data yang ditentukan dalam pekerjaan jangka panjang ke dalam SelectDB instance.

Catatan

Hanya sumber data Kafka yang didukung.

Gunakan Routine Load untuk mengimpor data.

Broker Load

  • Anda dapat mengimpor ratusan GB data ke dalam instance sekaligus.

  • Broker Load adalah antarmuka asinkron.

CSV, PARQUET, dan ORC.

Anda ingin membaca dan mengimpor data dari sistem penyimpanan jarak jauh, seperti Object Storage Service (OSS), Hadoop Distributed File System (HDFS), dan Amazon Simple Storage Service (Amazon S3), ke dalam SelectDB instance.

Gunakan Broker Load untuk mengimpor data.

OSS Load

  • Data ditransmisikan melalui jaringan internal, mengurangi konsumsi bandwidth Internet.

  • Anda dapat mengimpor ratusan GB data ke dalam instance sekaligus.

CSV, PARQUET, dan ORC.

Anda ingin mengimpor data di Alibaba Cloud OSS ke dalam SelectDB instance.

Gunakan OSS Load untuk mengimpor data.

INSERT INTO

Kinerja INSERT INTO VALUES buruk. Kami menyarankan agar Anda tidak menggunakan INSERT INTO VALUES di lingkungan produksi.

Data dari database dan tabel dibaca, tanpa format file tertentu.

  • INSERT INTO VALUES cocok untuk skenario di mana Anda ingin mengimpor sejumlah kecil data ke dalam SelectDB instance dengan frekuensi kurang dari sekali setiap lima menit.

  • INSERT INTO SELECT cocok untuk skenario di mana Anda ingin menghitung dan memproses data internal dari SelectDB instance dan data eksternal di danau data terpadu, kemudian mengimpor data tersebut ke dalam tabel baru dari SelectDB instance.

Gunakan INSERT INTO untuk mengimpor data.

Alat impor data

Alat

Manfaat

Sumber data yang didukung

Data tambahan

Data historis

Skema

Referensi

DataWorks

Manajemen end-to-end: Fitur penjadwalan tugas, pemantauan data, dan analisis garis keturunan terintegrasi, dan ekosistem Alibaba Cloud dapat diintegrasikan dengan mulus.

  • MySQL

  • ApsaraDB for ClickHouse

  • StarRocks

Tidak didukung

Didukung

Skema sinkronisasi data kompleks di mana data tingkat perusahaan perlu diintegrasikan dan tugas-tugas perlu diatur serta dipantau.

Gunakan DataWorks untuk mengimpor data

DTS

Sinkronisasi data waktu nyata: Migrasi data dapat selesai dengan latensi level detik, dan fitur unggah yang dapat dilanjutkan serta verifikasi data disediakan untuk memastikan keandalan migrasi data.

  • MySQL

  • PostgreSQL

Didukung

Didukung

Skema migrasi data yang sangat andal di mana database lintas-cloud atau cloud hibrida perlu disinkronkan secara real-time.

Gunakan DTS untuk mengimpor data

Flink

Pengolahan stream-batch terpadu: Semantik exactly-once didukung untuk pengolahan aliran data waktu nyata, dan fitur komputasi dan impor data terintegrasi untuk menyesuaikan diri dengan skenario ETL kompleks.

  • MySQL

  • Kafka

  • Oracle

  • PostgreSQL

  • SQL Server

Didukung

Didukung

Skema di mana gudang data waktu nyata dapat dibangun dan komputasi aliran serta impor data perlu diintegrasikan.

Gunakan Flink untuk mengimpor data

Kafka

Pipeline berkapasitas tinggi: Penyanggaan data level terabyte didukung, dan mekanisme penyimpanan persistensi dan multi-replika disediakan untuk mencegah kehilangan data.

  • Kafka

Didukung

Didukung

Skema di mana pipeline data asinkron digunakan dan produsen dan konsumen perlu dipisahkan untuk mencapai penyanggaan data konkurensi tinggi.

Gunakan Doris Kafka Connector untuk mengimpor data

Spark

Komputasi terdistribusi: Mesin Spark dapat digunakan untuk memproses data dalam jumlah besar secara paralel, dan konversi fleksibel antara DataFrame dan kueri SQL didukung.

  • MySQL

  • PostgreSQL

  • HDFS

  • S3

Didukung

Didukung

Skema impor batch di mana logika komputasi, seperti kueri SQL dan DataFrame, perlu digabungkan untuk mencapai pemrosesan ETL skala besar.

Gunakan Spark untuk mengimpor data

DataX

Arsitektur berbasis plugin: Lebih dari 20 ekstensi sumber data didukung, sinkronisasi pemrosesan batch didukung, dan migrasi data heterogen tingkat perusahaan diizinkan.

  • MySQL

  • Oracle

  • HDFS

  • Hive

  • ODPS

  • HBase

  • FTP

Tidak didukung

Didukung

Skema di mana plugin yang sangat skalabel diperlukan untuk menyinkronkan data heterogen multi-sumber dalam batch.

Gunakan DataX untuk mengimpor data

SeaTunnel

ETL ringan: Mode terdorong dikonfigurasi untuk menyederhanakan pengembangan, fitur Change Data Capture (CDC) didukung untuk menangkap perubahan data secara real-time, dan mesin Flink dan Spark kompatibel.

  • MySQL

  • Hive

  • Kafka

Didukung

Didukung

Skema di mana fitur CDC dalam mode terdorong perlu dikonfigurasi dengan cara sederhana dan sinkronisasi data waktu nyata ringan perlu dicapai.

Gunakan SeaTunnel untuk mengimpor data

BitSail

Adaptasi multi-mesin: Beberapa kerangka komputasi seperti MapReduce dan Flink didukung, dan strategi sharding data disediakan untuk meningkatkan efisiensi impor data.

  • MySQL

  • Hive

  • Kafka

Didukung

Didukung

Skema migrasi data di mana kerangka komputasi, seperti Flink dan MapReduce (MR), perlu dialihkan.

Gunakan BitSail untuk mengimpor data