SelectDB インスタンスにデータをインポートする方法 - ApsaraDB for SelectDB

ApsaraDB for SelectDB は、ネイティブインターフェイスとエコシステムツールを含むさまざまなデータインポート方法をサポートしており、リアルタイムストリーミング処理やバッチ処理など、さまざまなシナリオの要件に対応します。このトピックでは、SelectDB インスタンスにデータをインポートするために使用できるコアインターフェイスとツールについて説明します。

インポート方法の選択に関する推奨事項

Alibaba Cloud エコシステムのソースデータ: DTS および DataWorks
Alibaba Cloud エコシステム以外のソースデータ:
- データインポートインターフェイス:
  - Kafka データソース: Routine Load (推奨)
  - Kafka 以外のデータソース: Stream Load (推奨)
- データインポートツール: Flink
大量のデータ:
- データインポートインターフェイス:
  - Kafka データソース: Routine Load (推奨)
  - Kafka 以外のデータソース: Stream Load (推奨)
- データインポートツール:
  - Alibaba Cloud エコシステムの MySQL データソース: DTS (推奨)
  - Alibaba Cloud エコシステム以外の MySQL データソース: Flink (推奨)

インターフェイスとツールの詳細については、「データインポートインターフェイス」および「データインポートツール」をご参照ください。

データインポートインターフェイス

インターフェイス	説明	サポートされているデータ形式	シナリオ	参照
Stream Load (推奨)	HTTP プロトコルを使用してデータを送信します。 Stream Load は同期インターフェイスです。リクエストが成功すると、すぐに結果が返されます。	CSV、JSON、PARQUET、および ORC。	ローカルファイルまたはデータストリームをリアルタイムまたはバッチで SelectDB インスタンスにインポートする場合。	Stream Load を使用してデータをインポートする
Routine Load	データストリームをリアルタイムで処理できます。	CSV および JSON。	常駐ジョブで指定されたデータソースを SelectDB インスタンスに継続的にインポートする場合。説明 Kafka データソースのみがサポートされています。	Routine Load を使用してデータをインポートする
Broker Load	一度に数百 GB のデータをインスタンスにインポートできます。 Broker Load は非同期インターフェイスです。	CSV、PARQUET、および ORC。	Object Storage Service (OSS)、Hadoop 分散ファイルシステム (HDFS)、Amazon Simple Storage Service (Amazon S3) などのリモートストレージシステムからデータを読み取り、SelectDB インスタンスにインポートする場合。	Broker Load を使用してデータをインポートする
OSS Load	データは内部ネットワーク経由で送信されます。これにより、インターネット帯域幅の消費が削減されます。一度に数百 GB のデータをインスタンスにインポートできます。	CSV、PARQUET、および ORC。	Alibaba Cloud OSS 内のデータを SelectDB インスタンスにインポートする場合。	OSS Load を使用してデータをインポートする
Insert Into	`INSERT INTO VALUES` のパフォーマンスは低いため、本番環境では `INSERT INTO VALUES` を使用しないことをお勧めします。	データベースとテーブルのデータが読み取られ、ファイル形式は関係ありません。	`INSERT INTO VALUES` は、少量のデータを SelectDB インスタンスにインポートする場合に適しており、データインポート頻度は 5 分に 1 回未満である必要があります。 `INSERT INTO SELECT` は、SelectDB インスタンスの内部データとデータレイクハウスの外部データを計算および処理し、SelectDB インスタンスの新しいテーブルにデータをインポートする場合に適しています。	INSERT INTO を使用してデータをインポートする

データインポートツール

ツール	メリット	サポートされているデータソース	差分データ	履歴データ	シナリオ	参照
DataWorks	エンドツーエンドの管理: タスクスケジューリング、データモニタリング、およびリネージ分析機能が統合されており、Alibaba Cloud エコシステムをシームレスに統合できます。	MySQL ApsaraDB for ClickHouse StarRocks	サポートされていません	サポートされています	企業レベルのデータを統合し、タスクを調整および監視する必要がある複雑なデータ同期シナリオ。	DataWorks を使用してデータをインポートする
DTS	リアルタイムデータ同期: データ移行は秒単位のレイテンシで完了でき、再開可能なアップロードとデータ検証機能が提供され、データ移行の信頼性が保証されます。	MySQL PostgreSQL	サポートされています	サポートされています	クラウド間またはハイブリッドクラウドデータベースをリアルタイムで同期する必要がある、信頼性の高いデータ移行シナリオ。	DTS を使用してデータをインポートする
Flink	統合ストリームバッチ処理: リアルタイムデータストリーム処理に対して Exactly-once セマンティクスがサポートされており、データ計算とインポート機能が統合されて、複雑な抽出、変換、ロード (ETL) シナリオに適応します。	MySQL Kafka Oracle PostgreSQL SQL Server	サポートされています	サポートされています	リアルタイムデータウェアハウスを構築でき、ストリームコンピューティングとデータインポートを統合する必要があるシナリオ。	Flink を使用してデータをインポートする
Kafka	高スループットパイプライン: テラバイトレベルのデータバッファリングがサポートされており、永続性とマルチレプリカストレージメカニズムが提供され、データ損失を防ぎます。	Kafka	サポートされています	サポートされています	非同期データパイプラインが使用され、プロデューサーとコンシューマーを切り離して高並列データバッファリングを実現する必要があるシナリオ。	Doris Kafka Connector を使用してデータをインポートする
Spark	分散コンピューティング: Spark エンジンを使用して大量のデータを並列処理でき、DataFrames と SQL クエリ間の柔軟な変換がサポートされています。	MySQL PostgreSQL HDFS S3	サポートされています	サポートされています	SQL クエリや DataFrames などの計算ロジックを組み合わせて大規模 ETL 処理を実現する必要があるバッチインポートシナリオ。	Spark を使用してデータをインポートする
DataX	プラグインベースのアーキテクチャ: 20 を超えるデータソース拡張機能がサポートされており、バッチ処理同期がサポートされており、企業レベルの異種データ移行が可能です。	MySQL Oracle HDFS Hive ODPS HBase FTP	サポートされていません	サポートされています	拡張性の高いプラグインを使用して、マルチソースの異種データをバッチで同期する必要があるシナリオ。	DataX を使用してデータをインポートする
SeaTunnel	軽量 ETL: 開発を簡素化するために駆動モードが設定されており、変更データキャプチャ（CDC）機能がリアルタイムのデータ変更のキャプチャをサポートし、Flink および Spark エンジンと互換性があります。	MySQL Hive Kafka	サポート対象	サポート対象	駆動モードの CDC 機能をシンプルな方法で構成し、軽量なリアルタイムデータ同期を実現する必要があるシナリオ。	SeaTunnel を使用してデータをインポートする
BitSail	マルチエンジン対応: MapReduce や Flink などの複数のコンピューティングフレームワークがサポートされており、データシャーディングポリシーが提供されてデータインポート効率が向上します。	MySQL Hive Kafka	サポート対象	サポート対象	Flink や MapReduce (MR) などのコンピューティングフレームワーク間の柔軟な変換がサポートされているデータ移行シナリオ。	BitSail を使用してデータをインポートする