E-MapReduce (EMR) は、クラウドネイティブのオープンソースビッグデータプラットフォームです。Hadoop、Hive、Spark、StarRocks、Flink、Presto、ClickHouse など、統合が容易なオープンソースビッグデータコンピューティングおよびストレージエンジンを使用できます。 EMR のコンピューティングリソースは柔軟に拡張できます。 EMR クラスターは、Alibaba Cloud Elastic Compute Service (ECS)、Container Service for Kubernetes (ACK)、またはサーバーレスアーキテクチャ上にデプロイできます。
製品の強み

-
オープンソースコンポーネントとの完全な互換性
EMR は、100% オープンソースコンポーネント上に構築され、オープンソースコンポーネントのバージョンのイテレーションに合わせて進化します。

-
高いセキュリティと信頼性
EMR を使用すると、数分でビッグデータコンピューティング環境を作成できます。 インテリジェントな診断と分析、Kerberos 認証、データ暗号化などの機能がサポートされています。

-
費用対効果
コンピューティングリソースはオンデマンドで使用され、ホットデータとコールドデータは異なるレイヤーに保存されます。また、プリエンプティブ Alibaba Cloud インスタンスがサポートされています。

-
エラスティックリソース
クラスターリソースは、クラスターワークロードごとに、または指定された期間内に動的に調整できます。 クラスターの自動スケーリングは数分で完了でき、複数のエラスティックリソースタイプがサポートされています。
特徴
使いやすさ
環境の構築
EMR を使用すると、EMR コンソールで、または API 操作を呼び出して、数分で EMR クラスターを作成できます。 オープンソースのビッグデータフレームワークを、ハードウェアおよびソフトウェア基盤のデプロイに集中する必要なく、簡単にデプロイできます。
リソースのスケーリング
EMR を使用すると、EMR コンソールで、または API 操作を呼び出すことによって、EMR クラスター内のノード数を増減できます。 マネージド自動スケーリングルールを簡単に設定し、EMR でコンピューティングリソースを自動的に管理して、使用状況とパフォーマンスの要件を満たすことができます。 そのため、クラスターの使用率を改善し、コストを削減できます。
サービスの設定
EMR を使用すると、EMR で提供されるサービスの追加、サービスのステータスの監視、サービスの設定、サービスとそのコンポーネントの O&M 操作をすばやく実行できます。 クラスターの再起動や、クラスターをリリースして別のクラスターを作成したりすることなく、Apache Hadoop、Apache Spark、Apache Hive、Hue などの EMR クラスターで実行されているサービスの設定を変更できます。 そのため、EMR では新しい設定の適用後、再設定されたサービスを想定どおりに再起動できます。
簡単に統合
EMR では、EMR コンソール、または SDK または CLI を使用して、特定の設定を適用できます。
開発とスケジューリング
EMR Workflow は、インタラクティブなデータ分析と探索のためのサーバーレスプラットフォームです。 ビッグデータと AI のデータ処理要件を満たし、データエンジニア、データアナリスト、データサイエンティストは視覚化された開発環境を使用できます。 EMR Notebook を使用すると、SQL、Python、Markdown など、複数の言語を使用してコードを記述、デバッグ、実行できます。 EMR Notebook は、オープンソースの Apache DolphinScheduler と完全互換のフルマネージド型サービスで、ワークフローやジョブのスケジュールに使用できます。 EMR Workflow は、使いやすいスケジューリングサービスです。 視覚化された操作インターフェイスに基づいて、ワークフローとジョブを簡単に管理し、データウェアハウスを効率的に構築できます。 そのため、本番環境のジョブを安定して実行することができます。 EMR は DataWorks に接続できます。 DataWorks では、EMR コンピューティングエンジンに基づいて、Hive、Spark SQL、Presto、MapReduce ノードなどのノードを作成できます。 ワークフローの設定、ワークフロー内のノードの定期的なスケジュール設定、メタデータの管理、データ品質を監視する監視ルールの設定もできます。 これにより、一元化された方法でデータレイクを開発および管理できます。
スケーラビリティと弾力性
サーバーレス
サーバーレスアーキテクチャによりリソースの柔軟性と安定性が高まり、ビジネスの負荷と秒単位の課金に基づくリソースの自動スケーリングがサポートされています。 EMR サーバーレスインスタンスでは、固定された仕様は使用されません。 インスタンスのコンピューティングリソースは、ワークロードに基づいて指定した範囲内で自動的にスケーリングされます。 これにより、リソースの無駄を防ぎ、O&M コストを削減できます。
自動スケーリング
ECS 上の EMR では、複数タイプの自動スケーリングルールがサポートされています。 EMR は、時刻または負荷によってクラスターコンピューティングリソースを数分で自動的にスケールアウトまたはスケールインできます。
コストの最適化
その他の課金方法
EMR では、サブスクリプション、従量課金、プリエンプティブルインスタンスなど、複数の課金方法を使用できます。 使用期間が短期の場合は、従量課金方式を使用することを推奨します。 使用期間が長期の場合は、サブスクリプション課金方式を使用することを推奨します。 Alibaba Cloud では、サブスクリプション期間が長くなるほど低価格になります。
YiTian ARM アーキテクチャ
ECS 上 の EMR では、YiTian ARM アーキテクチャがサポートされています。 自社開発の YiTian 710 チップには、ソフトウェアとハードウェアの協調動作が実装され、費用対効果を 40% 以上改善できます。
モニタリングと診断
クラスターのモニタリング
EMR では、さまざまなサービスおよびホストのモニタリングメトリクスが用意され、サービスおよびホストの例外を視覚化して迅速に特定します。
イベントセンター
EMR には、サービスイベント、コンソール関連イベント、ホストイベントなど、さまざまな種類のイベントが用意されています。 イベントを使用してクラスターの問題を迅速かつ具体的に特定し、問題の原因を追跡できます。
診断分析
EMR では、HDFS のコールドおよびホットデータ、および小さなファイルの分析がサポートされ、サービスのパフォーマンスを最適化できます。