全部產品
Search
文件中心

ApsaraDB for SelectDB:資料匯入

更新時間:Apr 02, 2025

雲資料庫 SelectDB 版支援多樣化的資料匯入方式,涵蓋原生介面與生態工具,滿足從即時資料流資料到離線批處理的多情境需求。本文為您介紹資料匯入到SelectDB的核心介面與工具。

匯入選型建議

  • 阿里雲生態來源資料:DTSDataWorks

  • 非阿里雲生態來源資料:

  • 大規模資料:

    • 匯入介面:Kafka資料來源優先選擇Routine Load,非Kafka資料來源優先選擇Stream Load

    • 匯入工具:阿里雲生態MySQL資料來源優先選擇DTS,非阿里雲生態MySQL資料來源與非MySQL資料來源優先選擇Flink

更多介面與工具概覽,請參見下述匯入介面匯入工具

匯入介面

介面方式

特性說明

支援資料格式

適用情境

操作步驟

Stream Load(推薦

  • HTTP協議傳輸資料。

  • 同步介面,請求結束後立即返回結果。

CSV/JSON/PARQUET/ORC

本地檔案/資料流即時或大量匯入到SelectDB

Stream Load

Routine Load

即時處理資料流。

CSV/JSON

常駐任務持續從指定的資料來源讀取資料並匯入到SelectDB

說明

目前僅支援Kafka資料來源。

Routine Load

Broker Load

  • 單次匯入資料量可達百GB層級

  • 非同步介面

CSV/PARQUET/ORC

讀取OSS、HDFS、S3等遠端儲存資料匯入至SelectDB

Broker Load

OSS Load

  • 內網傳輸,減少公網頻寬消耗。

  • 支援單次百GB層級資料。

CSV/PARQUET/ORC

將阿里雲OSS資料匯入至SelectDB

OSS Load

Insert Into

insert Into values效能較低,不建議在生產環境中使用。

讀取庫表資料,不涉及檔案格式。

  • Insert Into Values適用於極少量資料匯入至SelectDB,且請求頻率不高於5分鐘一次的情境。

  • Insert Into Select適用於將SelectDB內部資料或外部資料湖資料進行計算處理,並將其匯入SelectDB的新表中,其效率較高。

Insert Into

匯入工具

工具

工具特點

支援的資料來源

增量資料

歷史資料

適用情境

操作步驟

DataWorks

全鏈路管控:整合任務調度、資料監控、血緣分析功能,支援阿里雲生態無縫對接

  • MySQL

  • 阿里雲Clickhouse

  • StarRocks

不支援

支援

企業級Data Integration,需任務編排與監控的複雜資料鏈路情境

通過DataWorks匯入資料

DTS

即時同步:支援秒級延遲資料移轉,提供斷點續傳、資料校正功能,保障遷移可靠性。

  • MySQL

  • PostgreSQL

支援

支援

跨雲/混合雲資料庫即時同步,需高可靠遷移的情境

通過DTS匯入資料

Flink

流批一體:支援Exactly-Once語義的即時資料流處理,整合計算與匯入,適配複雜ETL情境。

  • MySQL

  • Kafka

  • Oracle

  • PostgreSQL

  • SQL Server

支援

支援

適用於即時數倉構建,且需流式計算與資料匯入一體化的情境。

通過Flink匯入資料

Kafka

高吞吐管道:支援TB級資料緩衝,提供持久化與多副本機制,確保資料不丟失。

  • Kafka

支援

支援

非同步資料管道情境,需解耦生產端與消費端,緩衝高並發資料。

通過Kafka匯入資料

Spark

分散式運算:利用Spark引擎實現海量資料平行處理,支援SQL/DataFrame靈活轉換。

  • MySQL

  • PostgreSQL

  • HDFS

  • S3

支援

支援

巨量資料量ETL處理,需結合計算邏輯(如SQL/DataFrame)的離線匯入情境。

通過Spark匯入資料

DataX

外掛程式化架構:支援20+資料來源擴充,提供離線批處理同步,適配企業級異構資料移轉。

  • MySQL

  • Oracle

  • HDFS

  • Hive

  • ODPS

  • HBase

  • FTP

不支援

支援

多源異構資料離線批處理同步,需高擴充性外掛程式的情境。

通過DataX匯入資料

SeaTunnel

輕量級ETL:配置驅動模式簡化開發,支援CDC即時捕獲,相容Flink/Spark引擎。

  • MySQL

  • Hive

  • Kafka

支援

支援

簡單配置驅動的CDC資料擷取及輕量級即時同步情境。

通過SeaTunnel匯入資料

BitSail

多引擎適配:支援MapReduce/Flink多種計算架構,提供資料分區策略最佳化匯入效率。

  • MySQL

  • Hive

  • Kafka

支援

支援

需靈活切換計算架構(如Flink與MR)的資料移轉情境。

通過BitSail匯入資料