E-MapReduce (EMR) は、特定のワークロード向けに事前設定された 4 つのクラスタータイプ (データレイク、データ分析、リアルタイムデータストリーミング、データサービス) を提供します。これらのいずれも要件に合わない場合は、カスタムクラスターを使用して、サービスの任意の組み合わせをデプロイできます。
クラスタータイプの選択
以下の表を参考に、ご利用のワークロードに適したクラスタータイプを選択してください。
| クラスタータイプ | 含まれるサービス | コア機能 | 典型的なワークロード |
|---|---|---|---|
| データレイク (DataLake クラスター) |
コンピューティング: Spark、Hive、Tez、Trino、Kyuubi、Presto ストレージ: Hadoop 分散ファイルシステム (HDFS)、OSS-HDFS、Celeborn、JindoCache データ統合: Flume、Sqoop データレイクフォーマット: Hudi、Iceberg、Paimon リソース管理: YARN コーディネーション: ZooKeeper セキュリティ: OpenLDAP、Ranger、DLF-Auth、Knox |
統合ストレージ、複数の互換性のあるコンピュートエンジン、Hudi/Iceberg/Paimon フォーマットのサポート | オフラインの抽出、変換、ロード (ETL) — データウェアハウス ETL、アドホック分析 |
| データ分析 (OLAP クラスター) |
オンライン分析処理 (OLAP): StarRocks、ClickHouse、Doris コーディネーション: ZooKeeper |
サブ秒レベルのクエリ応答、列指向ストレージの最適化、フェデレーションクエリ | 複雑な集計分析 — ユーザープロファイル分析、ユーザーグループの識別、ビジネスインテリジェンス (BI) |
| リアルタイムデータストリーミング (Dataflow クラスター) |
ストリームコンピューティング: Flink ストレージ: HDFS、OSS-HDFS データレイクフォーマット: Paimon リソース管理: YARN コーディネーション: ZooKeeper セキュリティ: OpenLDAP、Knox |
バッチ処理とストリーム処理の統合、低レイテンシー、状態整合性の保証 | リアルタイム ETL — ストリーミングウェアハウス ETL |
| データサービス (DataServing クラスター) |
コンピューティング: Phoenix 列指向ストレージ: HBase ストレージ: HDFS、OSS-HDFS、JindoCache コーディネーション: ZooKeeper セキュリティ: OpenLDAP、Ranger、Knox |
ミリ秒レベルのポイントクエリ、SQL インターフェイスの最適化、読み書き分離 | 高同時実行クエリ — 行動分析、精密マーケティング |
| カスタムクラスター |
コンピューティング: Spark、Hive、Tez、Trino、Kyuubi、Presto、Flink、Phoenix OLAP: StarRocks 列指向ストレージ: HBase ストレージ: HDFS、OSS-HDFS、Celeborn、JindoCache データ統合: Flume、Sqoop データレイクフォーマット: Hudi、Iceberg、Paimon リソース管理: YARN コーディネーション: ZooKeeper セキュリティ: OpenLDAP、Ranger、DLF-Auth、Knox |
柔軟なサービスデプロイ、混合ワークロード (リアルタイム、オフライン、分析) | オフライン ETL、リアルタイム ETL、複雑な集計分析、高同時実行クエリ |
クラスターで利用可能なサービスのバージョンは、EMR のバージョンによって異なります。最新の機能、より優れたパフォーマンス、セキュリティの向上を利用するには、最新の EMR バージョンを使用してください。利用可能なバージョンの完全なリストについては、リリースバージョンをご参照ください。
カスタムクラスターを使用するケース
カスタムクラスターでは、デプロイするサービスを完全に制御できます。ワークロードが複数のクラスタータイプにまたがる場合、たとえば、単一のクラスターで Spark、Flink、HBase を一緒に実行する場合などに使用します。
次のような場合は、カスタムクラスターを使用します:
-
ご利用のワークロードが、オフライン ETL、リアルタイム処理、分析クエリを組み合わせたものである場合
-
事前定義済みのクラスタータイプに、必要なサービスがすべて含まれていない場合
次のような場合は、代わりに専用のクラスターを個別に使用します:
-
オフラインとリアルタイムのワークロードで、レイテンシーやリソース要件が異なる場合 — これらを 1 つのクラスターで混在させると、干渉が発生する可能性があります
カスタムクラスターでも要件を完全に満たせない場合は、互換性とセキュリティを評価した上で、追加のサービスを手動でデプロイしてください。
次のステップ
クラスタータイプを選択したら、残りのクラスター構成を計画します: