Alibaba Cloud E-MapReduce (EMR) は、データレイク、データ分析、リアルタイムデータストリーミング、データサービスといった定義済みのクラスタのビジネスシナリオを提供します。ビジネス要件に基づいて EMR クラスタにサービスを柔軟にデプロイする場合、カスタムクラスタを作成してビジネス特性に適応するビッグデータプラットフォームを構築できます。このトピックでは、ビジネスシナリオ間の違いについて説明します。ビジネス要件に基づいてビジネスシナリオを選択できます。
ビジネスシナリオの選択
ビジネスシナリオ (クラスタタイプ) | サポートされているサービス | コア機能 | ||
データレイク (DataLake クラスタ) | コンピューティング: Spark、Hive、Tez、Trino、Kyuubi、Presto データストレージ: Hadoop 分散ファイルシステム (HDFS)、OSS-HDFS、Celeborn、JindoCache データ統合: Flume、Sqoop データレイクフォーマット: Hudi、Iceberg、Paimon リソース管理: YARN 分散調整: ZooKeeper セキュリティと権限: OpenLDAP、Ranger、DLF-Auth、Knox |
| データウェアハウスの ETL など、オフラインでの抽出・変換・書き出し (ETL)、およびアドホック分析などのインタラクティブクエリ | |
データ分析 (OLAP クラスタ) | オンライン分析処理 (OLAP) 分析: StarRocks、ClickHouse、Doris 分散調整: ZooKeeper |
| ユーザープロファイル分析、ユーザーグループ識別、ビジネスインテリジェンス (BI) などの複雑な集約分析 | |
リアルタイムデータストリーミング (Dataflow クラスタ) | ストリームコンピューティング: Flink データストレージ: HDFS、OSS-HDFS データレイクフォーマット: Paimon リソース管理: YARN 分散調整: ZooKeeper セキュリティと権限: OpenLDAP、Knox |
| ストリーミングウェアハウスの ETL など、リアルタイム ETL | |
データサービス (DataServing クラスタ) | コンピューティング: Phoenix 列指向ストレージ: HBase データストレージ: HDFS、OSS-HDFS、JindoCache 分散調整: ZooKeeper セキュリティと権限: OpenLDAP、Ranger、Knox |
| 行動分析や精密マーケティングなどの高並列クエリ | |
カスタムクラスタ | コンピューティング: Spark、Hive、Tez、Trino、Kyuubi、Presto、Flink、Phoenix OLAP 分析: StarRocks 列指向ストレージ: HBase データストレージ: HDFS、OSS-HDFS、Celeborn、JindoCache データ統合: Flume、Sqoop データレイクフォーマット: Hudi、Iceberg、Paimon リソース管理: YARN 分散調整: ZooKeeper セキュリティと権限: OpenLDAP、Ranger、DLF-Auth、Knox |
説明 混合ワークロードのシナリオでは、オフラインビジネスとリアルタイムビジネスが相互に影響を与える可能性があります。この場合、ビジネス要件に基づいて異なるタイプのクラスタを作成することをお勧めします。 | オフライン ETL、リアルタイム ETL、複雑な集約分析、高並列クエリ | |
EMR クラスタにデプロイできるサービスのバージョンは、EMR のバージョンによって異なります。詳細については、「リリースバージョン」をご参照ください。より多くの機能を体験し、パフォーマンスを向上させ、セキュリティを確保するために、最新の EMR バージョンを使用することをお勧めします。
カスタムクラスタがビジネス要件を完全に満たせない場合は、サービスの互換性とセキュリティを評価した後に、必要なサービスを自分でデプロイできます。
後続のクラスタ計画
クラスタのビジネスシナリオを選択した後、ストレージアーキテクチャ、メタデータサービス、ハードウェア仕様、およびネットワーク仕様の計画に進むことができます。詳細については、「リージョンとストレージサービスを選択する」、「メタデータサービスを選択する」、および「ハードウェア仕様とネットワーク構成を選択する」をご参照ください。