EMR クラスタータイプ概要：アーキテクチャとワークロード適合性 - EMR

E-MapReduce (EMR) は、特定のワークロード向けに事前設定された 4 つのクラスタータイプ (データレイク、データ分析、リアルタイムデータストリーミング、データサービス) を提供します。これらのいずれも要件に合わない場合は、カスタムクラスターを使用して、サービスの任意の組み合わせをデプロイできます。

クラスタータイプの選択

以下の表を参考に、ご利用のワークロードに適したクラスタータイプを選択してください。

クラスタータイプ	含まれるサービス	コア機能	典型的なワークロード
データレイク (DataLake クラスター)	コンピューティング： Spark、Hive、Tez、Trino、Kyuubi、Presto ストレージ： Hadoop 分散ファイルシステム (HDFS)、OSS-HDFS、Celeborn、JindoCache データ統合： Flume、Sqoop データレイクフォーマット： Hudi、Iceberg、Paimon リソース管理： YARN コーディネーション： ZooKeeper セキュリティ： OpenLDAP、Ranger、DLF-Auth、Knox	統合ストレージ、複数の互換性のあるコンピュートエンジン、Hudi/Iceberg/Paimon フォーマットのサポート	オフラインの抽出、変換、ロード (ETL) — データウェアハウス ETL、アドホック分析
データ分析 (OLAP クラスター)	オンライン分析処理 (OLAP)： StarRocks、ClickHouse、Doris コーディネーション： ZooKeeper	サブ秒レベルのクエリ応答、列指向ストレージの最適化、フェデレーションクエリ	複雑な集計分析 — ユーザープロファイル分析、ユーザーグループの識別、ビジネスインテリジェンス (BI)
リアルタイムデータストリーミング (Dataflow クラスター)	ストリームコンピューティング： Flink ストレージ： HDFS、OSS-HDFS データレイクフォーマット： Paimon リソース管理： YARN コーディネーション： ZooKeeper セキュリティ： OpenLDAP、Knox	バッチ処理とストリーム処理の統合、低レイテンシー、状態整合性の保証	リアルタイム ETL — ストリーミングウェアハウス ETL
データサービス (DataServing クラスター)	コンピューティング： Phoenix 列指向ストレージ： HBase ストレージ： HDFS、OSS-HDFS、JindoCache コーディネーション： ZooKeeper セキュリティ： OpenLDAP、Ranger、Knox	ミリ秒レベルのポイントクエリ、SQL インターフェイスの最適化、読み書き分離	高同時実行クエリ — 行動分析、精密マーケティング
カスタムクラスター	コンピューティング： Spark、Hive、Tez、Trino、Kyuubi、Presto、Flink、Phoenix OLAP： StarRocks 列指向ストレージ： HBase ストレージ： HDFS、OSS-HDFS、Celeborn、JindoCache データ統合： Flume、Sqoop データレイクフォーマット： Hudi、Iceberg、Paimon リソース管理： YARN コーディネーション： ZooKeeper セキュリティ： OpenLDAP、Ranger、DLF-Auth、Knox	柔軟なサービスデプロイ、混合ワークロード (リアルタイム、オフライン、分析)	オフライン ETL、リアルタイム ETL、複雑な集計分析、高同時実行クエリ

説明

クラスターで利用可能なサービスのバージョンは、EMR のバージョンによって異なります。最新の機能、より優れたパフォーマンス、セキュリティの向上を利用するには、最新の EMR バージョンを使用してください。利用可能なバージョンの完全なリストについては、リリースバージョンをご参照ください。

カスタムクラスターを使用するケース

カスタムクラスターでは、デプロイするサービスを完全に制御できます。ワークロードが複数のクラスタータイプにまたがる場合、たとえば、単一のクラスターで Spark、Flink、HBase を一緒に実行する場合などに使用します。

次のような場合は、カスタムクラスターを使用します：

ご利用のワークロードが、オフライン ETL、リアルタイム処理、分析クエリを組み合わせたものである場合
事前定義済みのクラスタータイプに、必要なサービスがすべて含まれていない場合

次のような場合は、代わりに専用のクラスターを個別に使用します：

オフラインとリアルタイムのワークロードで、レイテンシーやリソース要件が異なる場合 — これらを 1 つのクラスターで混在させると、干渉が発生する可能性があります

カスタムクラスターでも要件を完全に満たせない場合は、互換性とセキュリティを評価した上で、追加のサービスを手動でデプロイしてください。

次のステップ

クラスタータイプを選択したら、残りのクラスター構成を計画します：

E-MapReduce:ビジネスシナリオの選択

クラスタータイプの選択

カスタムクラスターを使用するケース

次のステップ

参考資料