すべてのプロダクト
Search
ドキュメントセンター

ApsaraDB for SelectDB:データインポート

最終更新日:Apr 03, 2025

ApsaraDB for SelectDB は、ネイティブインターフェイスとエコシステムツールを含むさまざまなデータインポート方法をサポートしており、リアルタイムストリーミング処理やバッチ処理など、さまざまなシナリオの要件に対応します。このトピックでは、SelectDB インスタンスにデータをインポートするために使用できるコアインターフェイスとツールについて説明します。

インポート方法の選択に関する推奨事項

  • Alibaba Cloud エコシステムのソースデータ: DTS および DataWorks

  • Alibaba Cloud エコシステム以外のソースデータ:

    • データインポートインターフェイス:

    • データインポートツール: Flink

  • 大量のデータ:

    • データインポートインターフェイス:

    • データインポートツール:

      • Alibaba Cloud エコシステムの MySQL データソース: DTS (推奨)

      • Alibaba Cloud エコシステム以外の MySQL データソース: Flink (推奨)

インターフェイスとツールの詳細については、「データインポートインターフェイス」および「データインポートツール」をご参照ください。

データインポートインターフェイス

インターフェイス

説明

サポートされているデータ形式

シナリオ

参照

Stream Load (推奨)

  • HTTP プロトコルを使用してデータを送信します。

  • Stream Load は同期インターフェイスです。リクエストが成功すると、すぐに結果が返されます。

CSV、JSON、PARQUET、および ORC。

ローカルファイルまたはデータストリームを リアルタイムまたはバッチで SelectDB インスタンスにインポートする場合。

Stream Load を使用してデータをインポートする

Routine Load

データストリームをリアルタイムで処理できます。

CSV および JSON。

常駐ジョブで指定されたデータソースを SelectDB インスタンスに継続的にインポートする場合。

説明

Kafka データソースのみがサポートされています。

Routine Load を使用してデータをインポートする

Broker Load

  • 一度に数百 GB のデータをインスタンスにインポートできます。

  • Broker Load は非同期インターフェイスです。

CSV、PARQUET、および ORC。

Object Storage Service (OSS)、Hadoop 分散ファイルシステム (HDFS)、Amazon Simple Storage Service (Amazon S3) などのリモートストレージシステムからデータを読み取り、SelectDB インスタンスにインポートする場合。

Broker Load を使用してデータをインポートする

OSS Load

  • データは内部ネットワーク経由で送信されます。これにより、インターネット帯域幅の消費が削減されます。

  • 一度に数百 GB のデータをインスタンスにインポートできます。

CSV、PARQUET、および ORC。

Alibaba Cloud OSS 内のデータを SelectDB インスタンスにインポートする場合。

OSS Load を使用してデータをインポートする

Insert Into

INSERT INTO VALUES のパフォーマンスは低いため、本番環境では INSERT INTO VALUES を使用しないことをお勧めします。

データベースとテーブルのデータが読み取られ、ファイル形式は関係ありません。

  • INSERT INTO VALUES は、少量のデータを SelectDB インスタンスにインポートする場合に適しており、データインポート頻度は 5 分に 1 回未満である必要があります。

  • INSERT INTO SELECT は、SelectDB インスタンスの内部データとデータレイクハウスの外部データを計算および処理し、SelectDB インスタンスの新しいテーブルにデータをインポートする場合に適しています。

INSERT INTO を使用してデータをインポートする

データインポートツール

ツール

メリット

サポートされているデータソース

差分データ

履歴データ

シナリオ

参照

DataWorks

エンドツーエンドの管理: タスクスケジューリング、データモニタリング、およびリネージ分析機能が統合されており、Alibaba Cloud エコシステムをシームレスに統合できます。

  • MySQL

  • ApsaraDB for ClickHouse

  • StarRocks

サポートされていません

サポートされています

企業レベルのデータを統合し、タスクを調整および監視する必要がある複雑なデータ同期シナリオ。

DataWorks を使用してデータをインポートする

DTS

リアルタイムデータ同期: データ移行は秒単位のレイテンシで完了でき、再開可能なアップロードとデータ検証機能が提供され、データ移行の信頼性が保証されます。

  • MySQL

  • PostgreSQL

サポートされています

サポートされています

クラウド間またはハイブリッドクラウドデータベースをリアルタイムで同期する必要がある、信頼性の高いデータ移行シナリオ。

DTS を使用してデータをインポートする

Flink

統合ストリームバッチ処理: リアルタイムデータストリーム処理に対して Exactly-once セマンティクスがサポートされており、データ計算とインポート機能が統合されて、複雑な抽出、変換、ロード (ETL) シナリオに適応します。

  • MySQL

  • Kafka

  • Oracle

  • PostgreSQL

  • SQL Server

サポートされています

サポートされています

リアルタイムデータウェアハウスを構築でき、ストリームコンピューティングとデータインポートを統合する必要があるシナリオ。

Flink を使用してデータをインポートする

Kafka

高スループットパイプライン: テラバイトレベルのデータバッファリングがサポートされており、永続性とマルチレプリカストレージメカニズムが提供され、データ損失を防ぎます。

  • Kafka

サポートされています

サポートされています

非同期データパイプラインが使用され、プロデューサーとコンシューマーを切り離して高並列データバッファリングを実現する必要があるシナリオ。

Doris Kafka Connector を使用してデータをインポートする

Spark

分散コンピューティング: Spark エンジンを使用して大量のデータを並列処理でき、DataFrames と SQL クエリ間の柔軟な変換がサポートされています。

  • MySQL

  • PostgreSQL

  • HDFS

  • S3

サポートされています

サポートされています

SQL クエリや DataFrames などの計算ロジックを組み合わせて大規模 ETL 処理を実現する必要があるバッチインポートシナリオ。

Spark を使用してデータをインポートする

DataX

プラグインベースのアーキテクチャ: 20 を超えるデータソース拡張機能がサポートされており、バッチ処理同期がサポートされており、企業レベルの異種データ移行が可能です。

  • MySQL

  • Oracle

  • HDFS

  • Hive

  • ODPS

  • HBase

  • FTP

サポートされていません

サポートされています

拡張性の高いプラグインを使用して、マルチソースの異種データをバッチで同期する必要があるシナリオ。

DataX を使用してデータをインポートする

SeaTunnel

軽量 ETL: 開発を簡素化するために駆動モードが設定されており、変更データキャプチャ(CDC)機能がリアルタイムのデータ変更のキャプチャをサポートし、Flink および Spark エンジンと互換性があります。

  • MySQL

  • Hive

  • Kafka

サポート対象

サポート対象

駆動モードの CDC 機能をシンプルな方法で構成し、軽量なリアルタイム データ同期を実現する必要があるシナリオ。

SeaTunnel を使用してデータをインポートする

BitSail

マルチエンジン対応: MapReduce や Flink などの複数のコンピューティングフレームワークがサポートされており、データシャーディングポリシーが提供されてデータインポート効率が向上します。

  • MySQL

  • Hive

  • Kafka

サポート対象

サポート対象

Flink や MapReduce (MR) などのコンピューティング フレームワーク間の柔軟な変換がサポートされているデータ移行シナリオ。

BitSail を使用してデータをインポートする