雲資料庫 SelectDB 版支援多樣化的資料匯入方式,涵蓋原生介面與生態工具,滿足從即時資料流資料到離線批處理的多情境需求。本文為您介紹資料匯入到SelectDB的核心介面與工具。
匯入選型建議
非阿里雲生態來源資料:
匯入介面:Kafka資料來源優先選擇Routine Load,非Kafka資料來源優先選擇Stream Load。
匯入工具:Flink。
大規模資料:
匯入介面:Kafka資料來源優先選擇Routine Load,非Kafka資料來源優先選擇Stream Load。
匯入工具:阿里雲生態MySQL資料來源優先選擇DTS,非阿里雲生態MySQL資料來源與非MySQL資料來源優先選擇Flink。
匯入介面
介面方式 | 特性說明 | 支援資料格式 | 適用情境 | 操作步驟 |
Stream Load(推薦) |
| CSV/JSON/PARQUET/ORC | 本地檔案/資料流即時或大量匯入到SelectDB。 | |
Routine Load | 即時處理資料流。 | CSV/JSON | 常駐任務持續從指定的資料來源讀取資料並匯入到SelectDB。 說明 目前僅支援Kafka資料來源。 | |
Broker Load |
| CSV/PARQUET/ORC | 讀取OSS、HDFS、S3等遠端儲存資料匯入至SelectDB。 | |
OSS Load |
| CSV/PARQUET/ORC | 將阿里雲OSS資料匯入至SelectDB。 | |
Insert Into |
| 讀取庫表資料,不涉及檔案格式。 |
|
匯入工具
工具 | 工具特點 | 支援的資料來源 | 增量資料 | 歷史資料 | 適用情境 | 操作步驟 |
DataWorks | 全鏈路管控:整合任務調度、資料監控、血緣分析功能,支援阿里雲生態無縫對接。 |
| 不支援 | 支援 | 企業級Data Integration,需任務編排與監控的複雜資料鏈路情境 | |
DTS | 即時同步:支援秒級延遲資料移轉,提供斷點續傳、資料校正功能,保障遷移可靠性。 |
| 支援 | 支援 | 跨雲/混合雲資料庫即時同步,需高可靠遷移的情境 | |
Flink | 流批一體:支援Exactly-Once語義的即時資料流處理,整合計算與匯入,適配複雜ETL情境。 |
| 支援 | 支援 | 適用於即時數倉構建,且需流式計算與資料匯入一體化的情境。 | |
Kafka | 高吞吐管道:支援TB級資料緩衝,提供持久化與多副本機制,確保資料不丟失。 |
| 支援 | 支援 | 非同步資料管道情境,需解耦生產端與消費端,緩衝高並發資料。 | |
Spark | 分散式運算:利用Spark引擎實現海量資料平行處理,支援SQL/DataFrame靈活轉換。 |
| 支援 | 支援 | 巨量資料量ETL處理,需結合計算邏輯(如SQL/DataFrame)的離線匯入情境。 | |
DataX | 外掛程式化架構:支援20+資料來源擴充,提供離線批處理同步,適配企業級異構資料移轉。 |
| 不支援 | 支援 | 多源異構資料離線批處理同步,需高擴充性外掛程式的情境。 | |
SeaTunnel | 輕量級ETL:配置驅動模式簡化開發,支援CDC即時捕獲,相容Flink/Spark引擎。 |
| 支援 | 支援 | 簡單配置驅動的CDC資料擷取及輕量級即時同步情境。 | |
BitSail | 多引擎適配:支援MapReduce/Flink多種計算架構,提供資料分區策略最佳化匯入效率。 |
| 支援 | 支援 | 需靈活切換計算架構(如Flink與MR)的資料移轉情境。 |