すべてのプロダクト
Search
ドキュメントセンター

E-MapReduce:ビジネスシナリオの選択

最終更新日:Mar 27, 2026

E-MapReduce (EMR) は、特定のワークロード向けに事前設定された 4 つのクラスタータイプ (データレイク、データ分析、リアルタイムデータストリーミング、データサービス) を提供します。これらのいずれも要件に合わない場合は、カスタムクラスターを使用して、サービスの任意の組み合わせをデプロイできます。

クラスタータイプの選択

以下の表を参考に、ご利用のワークロードに適したクラスタータイプを選択してください。

クラスタータイプ 含まれるサービス コア機能 典型的なワークロード
データレイク (DataLake クラスター)

コンピューティング: Spark、Hive、Tez、Trino、Kyuubi、Presto

ストレージ: Hadoop 分散ファイルシステム (HDFS)、OSS-HDFS、Celeborn、JindoCache

データ統合: Flume、Sqoop

データレイクフォーマット: Hudi、Iceberg、Paimon

リソース管理: YARN

コーディネーション: ZooKeeper

セキュリティ: OpenLDAP、Ranger、DLF-Auth、Knox

統合ストレージ、複数の互換性のあるコンピュートエンジン、Hudi/Iceberg/Paimon フォーマットのサポート オフラインの抽出、変換、ロード (ETL) — データウェアハウス ETL、アドホック分析
データ分析 (OLAP クラスター)

オンライン分析処理 (OLAP): StarRocks、ClickHouse、Doris

コーディネーション: ZooKeeper

サブ秒レベルのクエリ応答、列指向ストレージの最適化、フェデレーションクエリ 複雑な集計分析 — ユーザープロファイル分析、ユーザーグループの識別、ビジネスインテリジェンス (BI)
リアルタイムデータストリーミング (Dataflow クラスター)

ストリームコンピューティング: Flink

ストレージ: HDFS、OSS-HDFS

データレイクフォーマット: Paimon

リソース管理: YARN

コーディネーション: ZooKeeper

セキュリティ: OpenLDAP、Knox

バッチ処理とストリーム処理の統合、低レイテンシー、状態整合性の保証 リアルタイム ETL — ストリーミングウェアハウス ETL
データサービス (DataServing クラスター)

コンピューティング: Phoenix

列指向ストレージ: HBase

ストレージ: HDFS、OSS-HDFS、JindoCache

コーディネーション: ZooKeeper

セキュリティ: OpenLDAP、Ranger、Knox

ミリ秒レベルのポイントクエリ、SQL インターフェイスの最適化、読み書き分離 高同時実行クエリ — 行動分析、精密マーケティング
カスタムクラスター

コンピューティング: Spark、Hive、Tez、Trino、Kyuubi、Presto、Flink、Phoenix

OLAP: StarRocks

列指向ストレージ: HBase

ストレージ: HDFS、OSS-HDFS、Celeborn、JindoCache

データ統合: Flume、Sqoop

データレイクフォーマット: Hudi、Iceberg、Paimon

リソース管理: YARN

コーディネーション: ZooKeeper

セキュリティ: OpenLDAP、Ranger、DLF-Auth、Knox

柔軟なサービスデプロイ、混合ワークロード (リアルタイム、オフライン、分析) オフライン ETL、リアルタイム ETL、複雑な集計分析、高同時実行クエリ
説明

クラスターで利用可能なサービスのバージョンは、EMR のバージョンによって異なります。最新の機能、より優れたパフォーマンス、セキュリティの向上を利用するには、最新の EMR バージョンを使用してください。利用可能なバージョンの完全なリストについては、リリースバージョンをご参照ください。

カスタムクラスターを使用するケース

カスタムクラスターでは、デプロイするサービスを完全に制御できます。ワークロードが複数のクラスタータイプにまたがる場合、たとえば、単一のクラスターで Spark、Flink、HBase を一緒に実行する場合などに使用します。

次のような場合は、カスタムクラスターを使用します:

  • ご利用のワークロードが、オフライン ETL、リアルタイム処理、分析クエリを組み合わせたものである場合

  • 事前定義済みのクラスタータイプに、必要なサービスがすべて含まれていない場合

次のような場合は、代わりに専用のクラスターを個別に使用します:

  • オフラインとリアルタイムのワークロードで、レイテンシーやリソース要件が異なる場合 — これらを 1 つのクラスターで混在させると、干渉が発生する可能性があります

カスタムクラスターでも要件を完全に満たせない場合は、互換性とセキュリティを評価した上で、追加のサービスを手動でデプロイしてください。

次のステップ

クラスタータイプを選択したら、残りのクラスター構成を計画します:

参考資料