Alibaba Cloud Elastic MapReduce (または E-MapReduce) は、大量のデータの処理と分析を容易にするビッグデータ処理ソリューションです。

E-MapReduce は、ECS (Alibaba Cloud Elastic Compute Service) 上に構築され、オープンソースの Apache Hadoop と Apache Spark に基づいて、トレンド分析、データウェアハウス、オンラインおよびオフラインのデータ処理など、幅広いシナリオでデータを柔軟に管理します。 また、 Alibaba Cloud OSS や Alibaba Cloud RDS など、他のクラウドストレージシステムやデータベースシステムとの間の、データのインポートやエクスポートが容易です。

E-MapReduce の使用

通常、Hadoop や Spark などの分散処理システムを使用するには、以下の手順に従います。

  1. ビジネス特性を評価します。
  2. 機種を選択します。
  3. マシンを購入します。
  4. ハードウェア環境を準備します。
  5. オペレーティングシステムをインストールします。
  6. アプリケーション (Hadoop や Spark など) をデプロイします。
  7. クラスターを起動します。
  8. アプリケーションを記述します。
  9. ジョブを実行します。
  10. データを取得します。または別の操作を実行します。

手順 1 〜 7 は準備作業であり、完了するまでに時間がかかる可能性があります。 一方、手順 8 〜 10 はアプリケーションロジックに関するものです。 E-MapReduce では、クラスタの構築、構成、実行および管理、ジョブの構成および実行、ホストの選択、環境のデプロイ、およびパフォーマンスの監視に使用されるものを含む、統合された一連のクラスター管理ツールが提供されます。

アプリケーションの処理ロジックに集中するには、E-MapReduce を使用して、調達、準備、運用、保守などのプロセスをすべて管理します。 E-MapReduce には柔軟な組み合わせモードもあります。E-MapReduce では、必要に応じてさまざまなクラスターサービスを選択します。 たとえば、毎日の統計を受信したり、単純なバッチ操作を実行する場合は、E-MapReduce で Hadoop サービスのみの実行を選択します。 ストリーム指向コンピューティングおよびリアルタイムコンピューティングを後の段階で実装する場合は、Spark に追加します。

E-MapReduce の構造

クラスターは E-MapReduce のコアコンポーネントです。 E-MapReduce クラスターは、基本的には複数の Alibaba Cloud ECS インスタンスからなる Spark または Hadoop クラスターです。 たとえば、Hadoop では、通常は各 ECS インスタンス (namenode、datanode、resourcemanager、nodemanager など) で実行されるデーモンによって Hadoop クラスターが形成されます。 Namenode と Resourcemanager を実行するノードはマスターノードと呼ばれ、Datanode と Nodemanager を実行するノードはスレーブノードと呼ばれます。

以下の図は、1 つのマスターノードと 3 つのスレーブノードで構成される E-MapReduce クラスターを示しています。

1 つのマスターノードと 3 つのスレーブノードからなる E-MapReduce クラスター