ECS 上の EMR を使用すると、Elastic Compute Service (ECS) インスタンスに E-MapReduce (EMR) クラスタをデプロイできます。 ECS 上の EMR は、EMR のビッグデータ処理機能と ECS インスタンスのスケーラビリティと柔軟性を兼ね備えています。 これにより、EMR クラスタを柔軟に構成および管理できます。 また、ECS 上の EMR は、さまざまなオープンソースコンポーネントと独自開発のコンポーネントを提供し、複雑なシナリオで大規模なデータの処理と分析を可能にします。
アーキテクチャ
EMR は、Alibaba Cloud サービスとオープンソースコンポーネントを統合し、独自開発のコンポーネントとクラスタ管理機能を提供します。 コンポーネントの種類と使用シナリオについては、「コンポーネント」および「使用シナリオ」をご参照ください。
Alibaba Cloud サービス
クラスタは ECS インスタンスに基づいてデプロイされます。
データは Alibaba Cloud Object Storage Service (OSS) に保存できます。
EMR は DataWorks と統合されています。 DataWorks で EMR をジョブコンピューティングおよびデータストレージエンジンとして使用できます。
EMR Workflow は、ワークフローとタスクのスケジュールに使用できるフルマネージドサービスです。
オープンソースコンポーネント
データ統合、データストレージ、リソース管理、コンピューティングエンジン、データ開発、データサービスに関連するオープンソースのビッグデータコンポーネントは EMR に統合されており、効率的なデータの処理と管理に役立ちます。
独自開発のコンポーネント
EMR は、オープンソースコンポーネントとサービスが Alibaba Cloud インフラストラクチャ上でより適切に実行できるように、次の独自開発のコンポーネントを提供します。
OSS-HDFS: Hadoop 分散ファイルシステム (HDFS) API と互換性のあるオブジェクトストレージソリューション。 OSS-HDFS を使用すると、ビッグデータコンピューティングタスクは標準の HDFS プロトコルに基づいて OSS に保存されているデータに直接アクセスできます。
JindoCache: 分散キャッシュソリューション。 JindoCache はデータブロックをメモリにキャッシュしてデータの読み取りパフォーマンスを向上させ、基盤となるストレージシステムの負荷を軽減します。
DLF-Auth: Data Lake Formation (DLF) によって提供されるコンポーネント。 DLF-Auth を使用して、DLF のデータ権限管理機能を有効にすることができます。
クラスタ管理
クラスタをすばやく作成またはスケールアウトし、クラスタの自動スケーリングルールを構成できます。
クラスタの構成と、クラスタにデプロイされているサービスを管理できます。 また、ノードとサービスで O&M 操作を実行することもできます。
EMR は、多次元メトリック監視、クラスタレポート分析、および監視とアラート機能を提供します。
利点
EMR は、柔軟で管理しやすいエンタープライズレベルのオープンソースビッグデータコンポーネントを提供します。 EMR クラスタとセルフマネージド Hadoop クラスタの比較については、「EMR クラスタとセルフマネージド Hadoop クラスタの比較」をご参照ください。
安定した信頼性の高いオープンソースコンポーネント
オープンソースコンポーネントが使用されます。 各 EMR バージョンは、オープンソースコンポーネントの最新バージョンを提供します。 さまざまなバージョンの EMR クラスタでサポートされているサービスの詳細については、「さまざまなバージョンの EMR クラスタのサービスの違い」をご参照ください。
EMR はオープンソースコンポーネントに完全に適合しており、オープンソースコンポーネント間のバージョンの互換性の問題は解消されています。
EMR は、オープンソースコンポーネント向けの強化された Alibaba Cloud デプロイ環境を提供します。 強化されたデプロイ環境は、オープンソースコミュニティよりもはるかに高いパフォーマンスを提供します。
使いやすさ
数分でビッグデータコンピューティング環境を作成し、数回クリックするだけでコンピューティングリソースの規模を調整できます。 サービスを手動でデプロイまたは開始する必要はありません。
EMR は、インテリジェントな診断と分析をサポートする包括的な監視およびアラートシステムを提供します。 これにより、問題のトラブルシューティングの難易度が大幅に軽減され、O&M 効率が向上します。
費用対効果
コンピューティングリソースはオンデマンドで使用されるため、コストを削減できます。
ホットデータとコールドデータは異なるレイヤーに保存されるため、ユニットストレージコストを削減できます。
EMR は、さまざまな O&M ツール、インテリジェントな診断と分析機能、およびビッグデータプラットフォームを提供し、O&M コストの削減に役立ちます。
スケーラビリティ
クラスタリソースは、クラスタの負荷によって、または指定された期間内に動的に調整できます。
クラスタの自動スケーリングは数分で完了でき、複数の弾性リソースタイプがサポートされています。
緊密な統合
ECS および Container Service for Kubernetes (ACK) に基づいて EMR クラスタをデプロイできます。 さまざまな ECS インスタンスタイプがサポートされています。 詳細については、「ECS インスタンス」をご参照ください。
EMR は DataWorks と統合されています。 DataWorks で EMR をジョブコンピューティングおよびデータストレージエンジンとして使用できます。
DLF は EMR と統合されています。 データレイクシナリオでは、EMR を使用して複数のエンジンのメタデータを一元的に管理できます。
課金
ECS 上の EMR クラスタの料金は、EMR サービスと ECS インスタンスの料金で構成されます。 OSS、DLF、Workflow など、ECS 上の EMR クラスタに関連する他の Alibaba Cloud サービスの料金については、関連する Alibaba Cloud サービスの課金ルールのドキュメントをご参照ください。
ECS 上の EMR は、次の課金方法をサポートしています。
サブスクリプション: リソースを使用する前に、特定のサブスクリプション期間に基づいてリソースの料金を支払います。 サブスクリプション課金方法を使用すると、リソースを事前に予約し、割引料金でコストを削減できます。
従量課金: リソースの料金を支払う前にリソースを使用できます。 ビジネス要件に基づいてリソースを購入およびリリースできます。 多数のリソースを事前に購入する必要はありません。
デフォルトでは、クラスタ内のノードの使用によって生成されたインターネットトラフィックの料金は、クラスタの課金方法ではなく、従量課金制で課金されます。
詳細については、「課金」をご参照ください。
クイックスタート
EMR コンソールでクラスタを作成し、クラスタでジョブを実行する方法については、「EMR を使い始める」をご参照ください。
DataWorks で EMR クラスタを使用し、データレイクを一元的に開発および管理する方法については、「EMR 上の DataWorks を使い始める」をご参照ください。
参考資料
EMR の使用シナリオについては、「使用シナリオ」をご参照ください。
さまざまなバージョンの EMR クラスタでサポートされているサービスとサービスバージョンについては、「さまざまなバージョンの EMR クラスタでサポートされているサービス」をご参照ください。
EMR クラスタの O&M および監視機能については、「クラスタ O&M」ディレクトリと「クラスタ監視」ディレクトリのトピックをご参照ください。