ApsaraDB for SelectDB は、ネイティブインターフェイスとエコシステムツールを含むさまざまなデータインポート方法をサポートしており、リアルタイムストリーミング処理やバッチ処理など、さまざまなシナリオの要件に対応します。このトピックでは、SelectDB インスタンスにデータをインポートするために使用できるコアインターフェイスとツールについて説明します。
インポート方法の選択に関する推奨事項
Alibaba Cloud エコシステム以外のソースデータ:
データインポートインターフェイス:
Kafka データソース: Routine Load (推奨)
Kafka 以外のデータソース: Stream Load (推奨)
データインポートツール: Flink
大量のデータ:
データインポートインターフェイス:
Kafka データソース: Routine Load (推奨)
Kafka 以外のデータソース: Stream Load (推奨)
データインポートツール:
インターフェイスとツールの詳細については、「データインポートインターフェイス」および「データインポートツール」をご参照ください。
データインポートインターフェイス
インターフェイス | 説明 | サポートされているデータ形式 | シナリオ | 参照 |
Stream Load (推奨) |
| CSV、JSON、PARQUET、および ORC。 | ローカルファイルまたはデータストリームを リアルタイムまたはバッチで SelectDB インスタンスにインポートする場合。 | |
Routine Load | データストリームをリアルタイムで処理できます。 | CSV および JSON。 | 常駐ジョブで指定されたデータソースを SelectDB インスタンスに継続的にインポートする場合。 説明 Kafka データソースのみがサポートされています。 | |
Broker Load |
| CSV、PARQUET、および ORC。 | Object Storage Service (OSS)、Hadoop 分散ファイルシステム (HDFS)、Amazon Simple Storage Service (Amazon S3) などのリモートストレージシステムからデータを読み取り、SelectDB インスタンスにインポートする場合。 | |
OSS Load |
| CSV、PARQUET、および ORC。 | Alibaba Cloud OSS 内のデータを SelectDB インスタンスにインポートする場合。 | |
Insert Into |
| データベースとテーブルのデータが読み取られ、ファイル形式は関係ありません。 |
|
データインポートツール
ツール | メリット | サポートされているデータソース | 差分データ | 履歴データ | シナリオ | 参照 |
DataWorks | エンドツーエンドの管理: タスクスケジューリング、データモニタリング、およびリネージ分析機能が統合されており、Alibaba Cloud エコシステムをシームレスに統合できます。 |
| サポートされていません | サポートされています | 企業レベルのデータを統合し、タスクを調整および監視する必要がある複雑なデータ同期シナリオ。 | |
DTS | リアルタイムデータ同期: データ移行は秒単位のレイテンシで完了でき、再開可能なアップロードとデータ検証機能が提供され、データ移行の信頼性が保証されます。 |
| サポートされています | サポートされています | クラウド間またはハイブリッドクラウドデータベースをリアルタイムで同期する必要がある、信頼性の高いデータ移行シナリオ。 | |
Flink | 統合ストリームバッチ処理: リアルタイムデータストリーム処理に対して Exactly-once セマンティクスがサポートされており、データ計算とインポート機能が統合されて、複雑な抽出、変換、ロード (ETL) シナリオに適応します。 |
| サポートされています | サポートされています | リアルタイムデータウェアハウスを構築でき、ストリームコンピューティングとデータインポートを統合する必要があるシナリオ。 | |
Kafka | 高スループットパイプライン: テラバイトレベルのデータバッファリングがサポートされており、永続性とマルチレプリカストレージメカニズムが提供され、データ損失を防ぎます。 |
| サポートされています | サポートされています | 非同期データパイプラインが使用され、プロデューサーとコンシューマーを切り離して高並列データバッファリングを実現する必要があるシナリオ。 | |
Spark | 分散コンピューティング: Spark エンジンを使用して大量のデータを並列処理でき、DataFrames と SQL クエリ間の柔軟な変換がサポートされています。 |
| サポートされています | サポートされています | SQL クエリや DataFrames などの計算ロジックを組み合わせて大規模 ETL 処理を実現する必要があるバッチインポートシナリオ。 | |
DataX | プラグインベースのアーキテクチャ: 20 を超えるデータソース拡張機能がサポートされており、バッチ処理同期がサポートされており、企業レベルの異種データ移行が可能です。 |
| サポートされていません | サポートされています | 拡張性の高いプラグインを使用して、マルチソースの異種データをバッチで同期する必要があるシナリオ。 | |
SeaTunnel | 軽量 ETL: 開発を簡素化するために駆動モードが設定されており、変更データキャプチャ(CDC)機能がリアルタイムのデータ変更のキャプチャをサポートし、Flink および Spark エンジンと互換性があります。 |
| サポート対象 | サポート対象 | 駆動モードの CDC 機能をシンプルな方法で構成し、軽量なリアルタイム データ同期を実現する必要があるシナリオ。 | |
BitSail | マルチエンジン対応: MapReduce や Flink などの複数のコンピューティングフレームワークがサポートされており、データシャーディングポリシーが提供されてデータインポート効率が向上します。 |
| サポート対象 | サポート対象 | Flink や MapReduce (MR) などのコンピューティング フレームワーク間の柔軟な変換がサポートされているデータ移行シナリオ。 |