すべてのプロダクト
Search
ドキュメントセンター

E-MapReduce:プロダクトフォームの選択

最終更新日:Nov 09, 2025

Alibaba Cloud のオープンビッグデータプラットフォームである E-MapReduce (EMR) は、さまざまなビジネスニーズに対応するために、いくつかのプロダクトフォームを提供しています。これらのフォームは、デプロイメントモードによって分類され、EMR Serverless Spark、EMR Serverless StarRocks、EMR on ECS、および EMR on ACK が含まれます。このトピックでは、お客様が適切なプロダクトフォームを選択できるよう、各プロダクトフォームの主な特徴、ユースケース、および選択の推奨事項について説明します。

EMR Serverless Spark

EMR Serverless Spark は、Data+AI アプリケーション向けのハイパフォーマンスなデータレイクハウスプロダクトです。Spark ネイティブエンジンである Fusion Engine と Alibaba Cloud のサーバーレス基盤を活用して、ジョブ開発、デバッグ、公開、スケジューリング、および運用保守 (O&M) のためのワンストップサービスを提供します。

主な特徴

  • エンタープライズグレードのフルマネージドデータプラットフォーム: 独自のインフラストラクチャを構築することなく、ジョブ開発を開始できます。タスク開発やデバッグから O&M まで、あらゆる機能を提供します。

  • ハイパフォーマンスなコンピュートエンジン: 内蔵の Fusion Engine は、オープンソースの Spark よりも最大 4 倍高いパフォーマンスを発揮します。ペタバイトレベルのシャッフル機能を提供し、計算コストを削減する Remote Shuffle Service Celeborn をサポートしています。

  • 高いスケーラビリティと弾力性: Alibaba Cloud のサーバーレス基盤上に構築されており、数秒でリソースの自動スケーリングを提供します。使用した計算リソースに対して課金されるため、コストを削減できます。

  • リソースの可観測性とセキュリティ: ジョブレベルおよびリソースレベルのモニタリングとアラートを提供します。VPC に基づいてデプロイされ、詳細なアクセスの制御をサポートします。

  • オープンアーキテクチャとエコシステム統合: OSS-HDFS、Data Lake Formation (DLF)、および DataWorks とシームレスに統合します。計算とストレージの分離をサポートし、一元化されたメタデータを共有できます。

  • ワンストップの開発エクスペリエンス: 組み込みのバージョン管理と、開発環境と本番環境間の隔離を提供します。ジョブ開発、デバッグ、公開、スケジューリングをサポートします。

シナリオ

  • クラスターリソースを管理することなく、フルマネージドサービスを使用して Spark ジョブを実行する。

  • ジョブの急なピーク時に計算リソースを迅速に取得するために、高い弾力性とオンデマンド課金を必要とするシナリオ。

  • データレイクハウスまたは AI ワークロードのデータレイクをサポートするために、ハイパフォーマンスな Spark とデータレイクハウスプラットフォームを必要とするシナリオ。

EMR Serverless StarRocks

EMR Serverless StarRocks は、クラウドネイティブでフルマネージドのデータレイクハウス分析サービスです。オープンソースの StarRocks と 100% 互換性があり、エンタープライズグレードのコア機能を提供します。このサービスは、OLAP、リアルタイムデータウェアハウス、データレイクハウス分析、軽量データウェアハウスの構築など、さまざまなシナリオに適しています。企業がデータレイクハウスアーキテクチャでリアルタイムデータ分析サービスを実装するのに役立ちます。

主な特徴

  • フルマネージドで O&M フリー: すぐに使用できます。視覚的なインスタンス管理、インテリジェントなモニタリング、およびヘルス診断を提供し、O&M コストを大幅に削減します。

  • エンタープライズグレードのクラウドネイティブカーネル (Stella): ストレージとコンピュートが分離されたアーキテクチャに基づいており、このアーキテクチャとデータレイクハウス分析におけるパフォーマンスと安定性のために深く最適化されています。複数の計算グループの隔離をサポートし、重要なサービスのリソース隔離を保証します。

  • ワンストップのデータ管理プラットフォーム: SQL エディター、権限コントロール、マテリアライズドビュー、インポートタスク、SQL 診断などの機能を統合し、開発と管理の効率を向上させます。

  • 高速クエリパフォーマンス: Massively Parallel Processing (MPP) 分散アーキテクチャと完全なベクトル化実行エンジンにより、クエリパフォーマンスが 3〜10 倍向上します。

  • インテリジェントなクエリオプティマイゼーション: コストベースオプティマイザー (CBO) が自動的に最適な実行計画を選択し、複雑なクエリの効率を向上させます。

  • リアルタイムデータ更新: カラムナストレージは、秒単位のデータインポート、原子性、一貫性、隔離性、および耐久性 (ACID) トランザクション、および効率的なアップサートをサポートし、リアルタイム分析のニーズに対応します。

  • データレイクハウス分析: インテリジェントなマテリアライズドビューが自動的に同期され、ETL (抽出·変換·書き出し) プロセスを簡素化します。Paimon、Iceberg、Hudi、Delta Lake、Hive などのデータレイクフォーマットに対する効率的なクエリをネイティブにサポートします。

シナリオ

  • 多次元 OLAP 分析: 柔軟な多次元分析とアドホッククエリをサポートします。運用レポート、ユーザーペルソナ、メトリックプラットフォーム、BI 分析などのシナリオで広く使用され、データ駆動型の意思決定を支援します。

  • リアルタイムデータウェアハウス: 秒単位のデータインジェストと更新を提供します。リアルタイムの在庫モニタリング、注文追跡、ユーザー行動分析、リアルタイムのリスク管理など、低レイテンシーを必要とするビジネスシナリオに適しています。

  • データレイクハウスの処理と分析: OSS や HDFS などのデータレイクストレージにシームレスに接続します。Paimon や Iceberg などのフォーマットを直接クエリできるため、データサイロを解消し、効率的で統一された分析を可能にします。

EMR on ECS

EMR on ECS は、E-MapReduce が Alibaba Cloud Elastic Compute Service (ECS) インスタンス上で実行されるデプロイメントモードです。このモードでは、EMR は弾力性のある ECS インスタンスを使用して、クラウドサーバー上にオープンソースの Hadoop エコシステムをインストールおよびデプロイします。また、クラスターの作成、スケーリング、サービス構成、モニタリングなどの管理機能も提供します。

主な特徴

  • 豊富なコンポーネント: Hadoop、Spark、Hive、Flink、Presto などのオープンソースコンポーネントと、OSS-HDFS、JindoCache、DLF-Auth などの独自コンポーネントを統合しています。バッチ処理、ストリーム処理、データレイクなど、さまざまなシナリオに適しています。

  • 柔軟性と制御性: ECS インスタンスにログインしてカスタム操作を実行できます。迅速なクラスター作成、自動スケーリング、構成管理、視覚的な O&M の機能を提供します。

  • 安定性と使いやすさ: クラウド環境向けに最適化された 100% コミュニティオープンソースコンポーネントを使用し、パフォーマンスを向上させ、バージョンの互換性の問題を回避します。数分でビッグデータコンピューティング環境をセットアップし、ワンクリックでリソース規模を調整できます。

  • 費用対効果: 計算リソースをオンデマンドで使用でき、サブスクリプションまたは従量課金の課金方法をサポートします。ホットデータとコールドデータの自動階層化ストレージと豊富な O&M ツールを提供し、総コストを削減します。

  • 自動スケーリング: 時間またはワークロードに基づいてクラスターサイズを動的に調整できます。複数のタイプのエラスティックリソースをサポートします。

  • 深い統合: OSS、DataWorks、DLF などの Alibaba Cloud サービスと深く統合されています。DataWorks のジョブのコンピュートエンジンとして EMR を使用できます。

シナリオ

  • 計算リソースとストレージリソースに対する完全な制御を必要とするエンタープライズグレードのビッグデータプラットフォーム。

  • 特定のオープンソースコンポーネントのインストールやカーネルパラメーターの調整など、デプロイメント環境と構成に関するカスタマイズ要件。

  • コストとパフォーマンスのバランスが必要で、長時間実行されるバッチジョブや混合ワークロードをサポートするシナリオ。

EMR on ACK

EMR on ACK は、オープンソースのビッグデータサービスが Alibaba Cloud Container Service for Kubernetes (ACK) 上にデプロイされるデプロイメントアーキテクチャです。まず ACK クラスターが必要です。その後、EMR を使用して ACK リソース上にビッグデータサービスをインストールして実行できます。

主な特徴

  • Kubernetes クラスターリソースの共有: 既存の ACK クラスター上で Spark や Presto などのジョブを実行できます。オンラインサービスとコンテナーリソースを共有し、ゾーン間で計算リソースを共有できます。

  • コスト削減: 別途 ACK クラスターを購入する必要はありません。ACK クラスターのアイドルリソースを再利用して、ワンクリックで EMR ジョブを実行できます。これは、オンラインサービスとオフラインサービスのハイブリッドデプロイメントに適しています。

  • 簡素化された O&M: 統一された O&M システムを通じて、オンラインアプリケーションとビッグデータタスクを管理できます。ACK と Elastic Container Instance (ECI) の機能を使用して、より迅速に弾力性のある計算リソースを取得できます。

  • 最適化されたエクスペリエンス: ジョブレベルで Spark のバージョンを調整して、新機能を迅速に試すことができます。ECS と ACK のリソースモデル間のシームレスな切り替えをサポートします。

  • データレイクアーキテクチャとの深い統合: クラウドネイティブのデータレイクアーキテクチャを採用しています。計算には ACK を、ストレージには OSS を使用して、ストレージと計算の分離を実現します。メタデータは DLF によって管理されます。

シナリオ

  • すでに ACK クラスターがあり、同じクラスター上でビッグデータタスクとオンラインアプリケーションを実行して、リソースプーリングと弾力性のあるスケジューリングを実現したい場合。

  • コンテナー化された管理に対する高い要求があり、Kubernetes の弾力性とクラウドネイティブエコシステム (CI/CD、サービスメッシュ、マイクロサービスなど) の組み合わせが必要なシナリオ。

  • データレイクアーキテクチャを迅速に構築し、DLF を使用してメタデータを管理したいシナリオ。

選択の推奨事項

ビジネスニーズ

推奨プロダクトフォーム

理由

プロダクトの O&M 範囲

大規模な Spark ジョブ、AI トレーニング、および推論

数秒単位の弾力性、従量課金、データレイクハウス機能が必要です。

EMR Serverless Spark

  • Fusion Engine はオープンソースの Spark よりも最大 4 倍高いパフォーマンスを発揮し、複雑なデータレイクハウスや AI タスクに適しています。

  • サーバーレス基盤は数秒での自動スケーリングを提供し、実際の使用量に基づいて課金します。

  • クラスターの O&M は不要です。ジョブ開発、デバッグ、公開、スケジューリングのためのワンストップエクスペリエンスを提供します。

  • OSS-HDFS、DLF、DataWorks と深く統合されています。

  • Alibaba Cloud は、基盤となる計算リソースとストレージリソース、およびジョブスケジューリングサービスの可用性と信頼性を担当します。

  • お客様はジョブのロジックとデータ開発にのみ集中すればよいです。

OLAP、データレイクハウス処理、および分析

高同時実行クエリ、多次元分析、および MySQL プロトコルとの互換性が必要です。

EMR Serverless StarRocks

  • ベクトル化、MPP アーキテクチャ、新しい CBO などの技術を使用して、最適なデータ分析サービスを提供します。

  • クロスエンジンフェデレーションクエリ、複数のデータレイクフォーマットとの互換性、およびインテリジェントなマテリアライズドビューにより、データレイクハウス処理と分析のための統一されたエンジンを提供します。

  • クラウドネイティブでフルマネージドのサービスフォームにより、使いやすさと O&M 効率が向上します。

  • StarRocks コンソールと OpenAPI の安定性とサービス保証。

  • StarRocks インスタンスで実行されているノードの安定性とサービス保証。

  • StarRocks ソフトウェアスタック内のサービスの安定性とサービス保証。

カスタム環境と長時間実行されるオフラインジョブ

クラスターリソースと構成に対する完全な制御が必要です。

EMR on ECS

  • ECS のエラー補償、自動スケーリング、インテリジェント診断など、クラスターとコンポーネントサービスに対する包括的な管理および制御機能を提供します。

  • Hadoop、Spark、Flink、Presto などの豊富なコンポーネントを統合し、バッチ処理、ストリーム処理、データレイクなどのシナリオをサポートします。

  • 柔軟なコスト。サブスクリプションまたは従量課金の課金方法をサポートします。

  • 高い安定性。数分でビッグデータ環境をセットアップできます。

  • EMR サービスはクラスターとコンポーネントの管理機能、およびビッグデータコンポーネントのバージョン管理を提供しますが、ビッグデータコンポーネントの O&M はお客様の責任となります。

  • ビッグデータコンポーネントの O&M に関する知識と能力を持つ企業に適しています。

コンテナーリソースの再利用、オンラインサービスとオフラインサービスのハイブリッドデプロイメント

すでに Kubernetes (ACK) クラスターをお持ちです。

EMR on ACK

  • 既存の ACK リソースを再利用するため、追加のクラスターを購入する必要はありません。

  • オンラインサービスとビッグデータタスクのハイブリッド運用をサポートし、コストを削減します。

  • ACK の弾力性と ECI を使用して、より迅速なスケーリングを実現します。

  • コンテナー化されたアーキテクチャを確立している企業に適していますが、最初の選択肢としては推奨されません。

  • ビッグデータコンポーネント (Spark や Presto など) の安定性は、お客様自身の管理に大きく依存します。

  • ビッグデータコンポーネントの O&M に関する知識と能力を持つ企業に適しています。