ACK 上の EMR 概要: Kubernetes 上のクラウドネイティブ大数据 - E-MapReduce

Alibaba Cloud E-MapReduce (EMR) on ACK は、ビッグデータプラットフォームを構築するための新しい方法を提供します。これにより、オープンソースのビッグデータサービスを Alibaba Cloud Container Service for Kubernetes (ACK) にデプロイできます。ACK のサービスデプロイとコンテナー管理機能により、基盤となるクラスターリソースの O&M が削減され、ビッグデータタスクに集中できます。

機能比較

Alibaba Cloud EMR は、さまざまなユーザーのニーズを満たすために、EMR on ECS と EMR on ACK を提供します。

EMR on ECS を使用している場合、EMR on ACK クラスターを作成して Spark および Presto ジョブを実行できます。この設定により、さまざまなアプリケーションが単一の ACK クラスターを共有でき、計算リソースをゾーン間で共有できます。
Spark や Presto ジョブなどのビッグデータジョブを ACK クラスターですでに実行している場合、EMR on ACK はクラスターのデプロイと管理を自動化します。EMR on ACK と EMR Shuffle Service を組み合わせることで、Spark ジョブのパフォーマンスが大幅に向上します。

ECS-on-ACK

タイプ

説明

EMR on ECS

EMR は、オープンソースの Hadoop エコシステムのコンポーネントを ECS インスタンスにデプロイし、サービスとして開始します。EMR コンソールでクラスターの ECS インスタンスとサービスを管理できます。

ビッグデータジョブを EMR クラスターに送信します。

EMR on ACK

まず、ACK クラスターをデプロイします。ACK クラスターの準備が整うと、EMR は ACK リソースに基づいてビッグデータサービスコンポーネントをデプロイし、コンテナーで実行します。

ACK 上の EMR の利点

利点	説明
コスト効率	簡単な構成で、既存の ACK クラスター上でビッグデータジョブを実行できます。これにより、ビッグデータサービス用に個別の ACK クラスターを購入するコストを回避できます。ワンクリックで、既存の ACK クラスター上のアイドルリソースを再利用して、Spark や Presto ジョブなどの EMR ジョブを実行できます。ビッグデータとオンラインアプリケーションはクラスターリソースを共有できます。オンラインタスクとオフラインタスクの両方を含む混合ワークロードシナリオでは、リソースが完全に利用されます。ビッグデータとオンラインアプリケーションがクラスターリソースを共有することで、ピーク負荷のシフトが可能になります。
O&M の簡素化	単一の O&M およびクラスター管理システムで、ビッグデータやオンラインアプリケーションを含む複数のサービスをカバーします。これにより、O&M が簡素化されます。
最適化されたユーザーエクスペリエンス	EMR プラットフォームは、EMR on ECS と EMR on ACK の 2 つのサービスとしてのインフラストラクチャ (IaaS) モデルをサポートしています。2 つのモデルをシームレスに切り替えることができます。 ACK と Elastic Container Instance (ECI) の迅速なリソース配信により、エラスティックコンピューティングリソースを取得するまでの時間が短縮されます。これにより、コンピューティングのピーク需要に対応できます。ジョブレベルで Spark のバージョンを調整できます。これにより、新しい機能を簡単に試したり、さまざまなビジネスバージョンの要件を満たすことができます。
緊密な統合	EMR on ACK は、クラウドネイティブのデータレイクアーキテクチャを使用します。コンピューティングには Alibaba Cloud ACK を使用し、計算リソースの無制限のスケーリングを可能にします。ストレージには Alibaba Cloud Object Storage Service (OSS) を使用し、ストレージとコンピューティングを分離します。メタデータには Data Lake Formation (DLF) を使用して、データレイクの構築を支援します。