大数据プラットフォーム - E-MapReduce

E-MapReduce（EMR）は、Alibaba Cloudが提供するビッグデータ処理ソリューションです。EMRは、オープンソースのApache HadoopおよびApache Sparkをベースに開発されています。EMRを使用すると、HadoopエコシステムとSparkエコシステムの周辺システムを使用して、データを簡単に分析および処理できます。EMRは、オブジェクトストレージサービス（OSS）やApsaraDB RDSなど、他のAlibaba Cloudストレージシステムおよびデータベースシステムとの間でデータの読み書きを行うこともできます。

製品紹介

Alibaba Cloudは、さまざまなユーザーのビジネス要件を満たすために、EMR on ECS、EMR on ACK、およびEMR Serverless StarRocksを提供しています。

項目	説明
EMR on ECS	EMRクラスターを作成すると、EMRシステムは、構成に基づいてElastic Compute Service（ECS）インスタンスにオープンソースHadoopエコシステムのコンポーネントをデプロイし、クラスター内のサービスとしてコンポーネントを起動します。EMRコンソールで、EMRクラスターのサービスとECSインスタンスに対してO&M操作を実行できます。 EMR on ECSの詳細については、「EMR on ECSとは」をご参照ください。
EMR on ACK	EMR on ACKを使用する前に、ACKクラスターがデプロイされていることを確認してください。ACKクラスターがデプロイされた後、EMRクラスターを作成して、ACKリソースに基づいてビッグデータコンポーネントをデプロイし、関連するコンテナーでコンポーネントを実行できます。EMR on ACKの詳細については、「EMR on ACKとは」をご参照ください。
EMR Serverless Spark	E-MapReduce (EMR) Serverless Spark は、大規模データ処理と分析向けに設計されたクラウドネイティブのフルマネージドサーバーレスサービスです。ジョブの開発、デバッグ、スケジューリング、O&M など、企業向けのエンドツーエンドのデータプラットフォームサービスを提供します。これにより、ライフサイクル全体でデータ処理ワークフローが簡素化されます。EMR Serverless Spark は、企業がデータ分析とデータ価値の抽出に集中することで効率を向上させるのに役立ちます。 EMR Serverless Spark の詳細については、「EMR Serverless Sparkとは」をご参照ください。

メリット

EMR on ECS

EMRを使用すると、Hadoop、Spark、Flink、Kafka、HBaseなどのエンタープライズレベルのオープンソースビッグデータサービスを簡単にデプロイできます。

EMRのすべてのコンポーネントはオープンソースです。EMRはオープンソースコンポーネントに適応および最適化し、コンポーネントのオープンソースバージョンよりも高いパフォーマンスを提供します。
プリエンプティブインスタンスは、時間ベースの自動スケーリング機能に基づいてコストを削減するのに役立ちます。
コンピューティングとストレージは分離されており、リソースの弾力的使用をサポートしています。
数分でクラスターを作成またはスケールアウトできます。サービスを手動でデプロイまたは起動する必要はありません。

EMR on ACK

費用対効果：ACKクラスターを購入する必要はありません。
簡素化されたO&M：ビッグデータとオンラインビジネスの両方にO&Mシステムとクラスター管理システムが提供されています。
最適化されたユーザーエクスペリエンス：EMRコンソールは、EMR on ECSとEMR on ACKという2つのInfrastructure as a Service（IaaS）モデルを提供しています。2つのモデルをシームレスに切り替えることができます。
緊密な統合：EMR on ACKは、クラウドネイティブのデータレイクアーキテクチャを採用しています。このアーキテクチャはACKを統合して、コンピューティングリソースを無制限にスケールアウトします。

EMR Serverless Spark

超高速でデータを計算するクラウドネイティブコンピューティングエンジン
- 組み込みのFusion Engine（旧Spark Native Engine）により、オープンソース Spark より 300% 高いパフォーマンスを実現します。
- 組み込みのCeleborn（旧Remote Shuffle Service）は、ペタバイト単位のシャッフルデータをサポートします。これにより、コンピューティングリソースの総コストが最大 30% 削減されます。
オープンデータレイクアーキテクチャ
- コンピューティングとストレージの分離、スケーラブルなコンピューティングリソース、従量課金制ストレージがサポートされています。
- このサービスは OSS-HDFS と統合されており、HDFS のクラウドストレージと完全に互換性があります。これにより、ビジネスをシームレスにクラウドに移行できます。
- データレイクとデータウェアハウスのメタデータを統合するために、一元化された DLF メタデータサービスが提供されます。
エンドツーエンドの開発
- ジョブの開発、デバッグ、公開、スケジューリングを網羅したエンドツーエンドのデータ開発がサポートされています。
- 開発環境と本番環境間の組み込みバージョン管理と分離がサポートされており、開発と公開に関する企業標準を満たしています。
サーバーレスリソースプラットフォーム
- すぐに使えるサービスにより、クラウドインフラストラクチャを手動で管理および保守する必要がなくなります。
- リソースは自動的にスケーリングされ、数秒以内に提供されます。
- コンピューティングリソースは、従量課金制で課金されます。これにより、リソースの総コストが削減されます。