すべてのプロダクト
Search
ドキュメントセンター

E-MapReduce:ビジネスシナリオの選択

最終更新日:Apr 26, 2025

Alibaba Cloud E-MapReduce (EMR) は、データレイク、データ分析、リアルタイムデータストリーミング、データサービスといった定義済みのクラスタのビジネスシナリオを提供します。ビジネス要件に基づいて EMR クラスタにサービスを柔軟にデプロイする場合、カスタムクラスタを作成してビジネス特性に適応するビッグデータプラットフォームを構築できます。このトピックでは、ビジネスシナリオ間の違いについて説明します。ビジネス要件に基づいてビジネスシナリオを選択できます。

ビジネスシナリオの選択

ビジネスシナリオ (クラスタタイプ)

サポートされているサービス

コア機能

シナリオ

データレイク (DataLake クラスタ)

コンピューティング: Spark、Hive、Tez、Trino、Kyuubi、Presto

データストレージ: Hadoop 分散ファイルシステム (HDFS)、OSS-HDFS、Celeborn、JindoCache

データ統合: Flume、Sqoop

データレイクフォーマット: Hudi、Iceberg、Paimon

リソース管理: YARN

分散調整: ZooKeeper

セキュリティと権限: OpenLDAP、Ranger、DLF-Auth、Knox

  • 統合ストレージ

  • 複数の互換性のあるコンピューティングエンジン

  • さまざまなデータレイクフォーマットのサポート

データウェアハウスの ETL など、オフラインでの抽出・変換・書き出し (ETL)、およびアドホック分析などのインタラクティブクエリ

データ分析 (OLAP クラスタ)

オンライン分析処理 (OLAP) 分析: StarRocks、ClickHouse、Doris

分散調整: ZooKeeper

  • サブ秒レベルのクエリ応答

  • 列指向ストレージの最適化

  • フェデレーテッドクエリ

ユーザープロファイル分析、ユーザーグループ識別、ビジネスインテリジェンス (BI) などの複雑な集約分析

リアルタイムデータストリーミング (Dataflow クラスタ)

ストリームコンピューティング: Flink

データストレージ: HDFS、OSS-HDFS

データレイクフォーマット: Paimon

リソース管理: YARN

分散調整: ZooKeeper

セキュリティと権限: OpenLDAP、Knox

  • バッチ処理とストリーム処理の統合

  • 低レイテンシ

  • 状態整合性保証

ストリーミングウェアハウスの ETL など、リアルタイム ETL

データサービス (DataServing クラスタ)

コンピューティング: Phoenix

列指向ストレージ: HBase

データストレージ: HDFS、OSS-HDFS、JindoCache

分散調整: ZooKeeper

セキュリティと権限: OpenLDAP、Ranger、Knox

  • ミリ秒レベルのポイントクエリ

  • SQL インターフェイスの最適化

  • 読み取り/書き込みの分割

行動分析や精密マーケティングなどの高並列クエリ

カスタムクラスタ

コンピューティング: Spark、Hive、Tez、Trino、Kyuubi、Presto、Flink、Phoenix

OLAP 分析: StarRocks

列指向ストレージ: HBase

データストレージ: HDFS、OSS-HDFS、Celeborn、JindoCache

データ統合: Flume、Sqoop

データレイクフォーマット: Hudi、Iceberg、Paimon

リソース管理: YARN

分散調整: ZooKeeper

セキュリティと権限: OpenLDAP、Ranger、DLF-Auth、Knox

  • Spark、Flink、HBase などのサービスの柔軟なデプロイ

  • リアルタイム処理、オフライン処理、データ分析などの混合ワークロードのサポート

説明

混合ワークロードのシナリオでは、オフラインビジネスとリアルタイムビジネスが相互に影響を与える可能性があります。この場合、ビジネス要件に基づいて異なるタイプのクラスタを作成することをお勧めします。

オフライン ETL、リアルタイム ETL、複雑な集約分析、高並列クエリ

説明
  • EMR クラスタにデプロイできるサービスのバージョンは、EMR のバージョンによって異なります。詳細については、「リリースバージョン」をご参照ください。より多くの機能を体験し、パフォーマンスを向上させ、セキュリティを確保するために、最新の EMR バージョンを使用することをお勧めします。

  • カスタムクラスタがビジネス要件を完全に満たせない場合は、サービスの互換性とセキュリティを評価した後に、必要なサービスを自分でデプロイできます。

後続のクラスタ計画

クラスタのビジネスシナリオを選択した後、ストレージアーキテクチャ、メタデータサービス、ハードウェア仕様、およびネットワーク仕様の計画に進むことができます。詳細については、「リージョンとストレージサービスを選択する」、「メタデータサービスを選択する」、および「ハードウェア仕様とネットワーク構成を選択する」をご参照ください。