Alibaba Cloud のオープンビッグデータプラットフォームである E-MapReduce (EMR) は、さまざまなビジネスニーズに対応するために、いくつかのプロダクトフォームを提供しています。これらのフォームは、デプロイメントモードによって分類され、EMR Serverless Spark、EMR Serverless StarRocks、EMR on ECS、および EMR on ACK が含まれます。このトピックでは、お客様が適切なプロダクトフォームを選択できるよう、各プロダクトフォームの主な特徴、ユースケース、および選択の推奨事項について説明します。
EMR Serverless Spark
EMR Serverless Spark は、Data+AI アプリケーション向けのハイパフォーマンスなデータレイクハウスプロダクトです。Spark ネイティブエンジンである Fusion Engine と Alibaba Cloud のサーバーレス基盤を活用して、ジョブ開発、デバッグ、公開、スケジューリング、および運用保守 (O&M) のためのワンストップサービスを提供します。
主な特徴
エンタープライズグレードのフルマネージドデータプラットフォーム: 独自のインフラストラクチャを構築することなく、ジョブ開発を開始できます。タスク開発やデバッグから O&M まで、あらゆる機能を提供します。
ハイパフォーマンスなコンピュートエンジン: 内蔵の Fusion Engine は、オープンソースの Spark よりも最大 4 倍高いパフォーマンスを発揮します。ペタバイトレベルのシャッフル機能を提供し、計算コストを削減する Remote Shuffle Service Celeborn をサポートしています。
高いスケーラビリティと弾力性: Alibaba Cloud のサーバーレス基盤上に構築されており、数秒でリソースの自動スケーリングを提供します。使用した計算リソースに対して課金されるため、コストを削減できます。
リソースの可観測性とセキュリティ: ジョブレベルおよびリソースレベルのモニタリングとアラートを提供します。VPC に基づいてデプロイされ、詳細なアクセスの制御をサポートします。
オープンアーキテクチャとエコシステム統合: OSS-HDFS、Data Lake Formation (DLF)、および DataWorks とシームレスに統合します。計算とストレージの分離をサポートし、一元化されたメタデータを共有できます。
ワンストップの開発エクスペリエンス: 組み込みのバージョン管理と、開発環境と本番環境間の隔離を提供します。ジョブ開発、デバッグ、公開、スケジューリングをサポートします。
シナリオ
クラスターリソースを管理することなく、フルマネージドサービスを使用して Spark ジョブを実行する。
ジョブの急なピーク時に計算リソースを迅速に取得するために、高い弾力性とオンデマンド課金を必要とするシナリオ。
データレイクハウスまたは AI ワークロードのデータレイクをサポートするために、ハイパフォーマンスな Spark とデータレイクハウスプラットフォームを必要とするシナリオ。
EMR Serverless StarRocks
EMR Serverless StarRocks は、クラウドネイティブでフルマネージドのデータレイクハウス分析サービスです。オープンソースの StarRocks と 100% 互換性があり、エンタープライズグレードのコア機能を提供します。このサービスは、OLAP、リアルタイムデータウェアハウス、データレイクハウス分析、軽量データウェアハウスの構築など、さまざまなシナリオに適しています。企業がデータレイクハウスアーキテクチャでリアルタイムデータ分析サービスを実装するのに役立ちます。
主な特徴
フルマネージドで O&M フリー: すぐに使用できます。視覚的なインスタンス管理、インテリジェントなモニタリング、およびヘルス診断を提供し、O&M コストを大幅に削減します。
エンタープライズグレードのクラウドネイティブカーネル (Stella): ストレージとコンピュートが分離されたアーキテクチャに基づいており、このアーキテクチャとデータレイクハウス分析におけるパフォーマンスと安定性のために深く最適化されています。複数の計算グループの隔離をサポートし、重要なサービスのリソース隔離を保証します。
ワンストップのデータ管理プラットフォーム: SQL エディター、権限コントロール、マテリアライズドビュー、インポートタスク、SQL 診断などの機能を統合し、開発と管理の効率を向上させます。
高速クエリパフォーマンス: Massively Parallel Processing (MPP) 分散アーキテクチャと完全なベクトル化実行エンジンにより、クエリパフォーマンスが 3〜10 倍向上します。
インテリジェントなクエリオプティマイゼーション: コストベースオプティマイザー (CBO) が自動的に最適な実行計画を選択し、複雑なクエリの効率を向上させます。
リアルタイムデータ更新: カラムナストレージは、秒単位のデータインポート、原子性、一貫性、隔離性、および耐久性 (ACID) トランザクション、および効率的なアップサートをサポートし、リアルタイム分析のニーズに対応します。
データレイクハウス分析: インテリジェントなマテリアライズドビューが自動的に同期され、ETL (抽出·変換·書き出し) プロセスを簡素化します。Paimon、Iceberg、Hudi、Delta Lake、Hive などのデータレイクフォーマットに対する効率的なクエリをネイティブにサポートします。
シナリオ
多次元 OLAP 分析: 柔軟な多次元分析とアドホッククエリをサポートします。運用レポート、ユーザーペルソナ、メトリックプラットフォーム、BI 分析などのシナリオで広く使用され、データ駆動型の意思決定を支援します。
リアルタイムデータウェアハウス: 秒単位のデータインジェストと更新を提供します。リアルタイムの在庫モニタリング、注文追跡、ユーザー行動分析、リアルタイムのリスク管理など、低レイテンシーを必要とするビジネスシナリオに適しています。
データレイクハウスの処理と分析: OSS や HDFS などのデータレイクストレージにシームレスに接続します。Paimon や Iceberg などのフォーマットを直接クエリできるため、データサイロを解消し、効率的で統一された分析を可能にします。
EMR on ECS
EMR on ECS は、E-MapReduce が Alibaba Cloud Elastic Compute Service (ECS) インスタンス上で実行されるデプロイメントモードです。このモードでは、EMR は弾力性のある ECS インスタンスを使用して、クラウドサーバー上にオープンソースの Hadoop エコシステムをインストールおよびデプロイします。また、クラスターの作成、スケーリング、サービス構成、モニタリングなどの管理機能も提供します。
主な特徴
豊富なコンポーネント: Hadoop、Spark、Hive、Flink、Presto などのオープンソースコンポーネントと、OSS-HDFS、JindoCache、DLF-Auth などの独自コンポーネントを統合しています。バッチ処理、ストリーム処理、データレイクなど、さまざまなシナリオに適しています。
柔軟性と制御性: ECS インスタンスにログインしてカスタム操作を実行できます。迅速なクラスター作成、自動スケーリング、構成管理、視覚的な O&M の機能を提供します。
安定性と使いやすさ: クラウド環境向けに最適化された 100% コミュニティオープンソースコンポーネントを使用し、パフォーマンスを向上させ、バージョンの互換性の問題を回避します。数分でビッグデータコンピューティング環境をセットアップし、ワンクリックでリソース規模を調整できます。
費用対効果: 計算リソースをオンデマンドで使用でき、サブスクリプションまたは従量課金の課金方法をサポートします。ホットデータとコールドデータの自動階層化ストレージと豊富な O&M ツールを提供し、総コストを削減します。
自動スケーリング: 時間またはワークロードに基づいてクラスターサイズを動的に調整できます。複数のタイプのエラスティックリソースをサポートします。
深い統合: OSS、DataWorks、DLF などの Alibaba Cloud サービスと深く統合されています。DataWorks のジョブのコンピュートエンジンとして EMR を使用できます。
シナリオ
計算リソースとストレージリソースに対する完全な制御を必要とするエンタープライズグレードのビッグデータプラットフォーム。
特定のオープンソースコンポーネントのインストールやカーネルパラメーターの調整など、デプロイメント環境と構成に関するカスタマイズ要件。
コストとパフォーマンスのバランスが必要で、長時間実行されるバッチジョブや混合ワークロードをサポートするシナリオ。
EMR on ACK
EMR on ACK は、オープンソースのビッグデータサービスが Alibaba Cloud Container Service for Kubernetes (ACK) 上にデプロイされるデプロイメントアーキテクチャです。まず ACK クラスターが必要です。その後、EMR を使用して ACK リソース上にビッグデータサービスをインストールして実行できます。
主な特徴
Kubernetes クラスターリソースの共有: 既存の ACK クラスター上で Spark や Presto などのジョブを実行できます。オンラインサービスとコンテナーリソースを共有し、ゾーン間で計算リソースを共有できます。
コスト削減: 別途 ACK クラスターを購入する必要はありません。ACK クラスターのアイドルリソースを再利用して、ワンクリックで EMR ジョブを実行できます。これは、オンラインサービスとオフラインサービスのハイブリッドデプロイメントに適しています。
簡素化された O&M: 統一された O&M システムを通じて、オンラインアプリケーションとビッグデータタスクを管理できます。ACK と Elastic Container Instance (ECI) の機能を使用して、より迅速に弾力性のある計算リソースを取得できます。
最適化されたエクスペリエンス: ジョブレベルで Spark のバージョンを調整して、新機能を迅速に試すことができます。ECS と ACK のリソースモデル間のシームレスな切り替えをサポートします。
データレイクアーキテクチャとの深い統合: クラウドネイティブのデータレイクアーキテクチャを採用しています。計算には ACK を、ストレージには OSS を使用して、ストレージと計算の分離を実現します。メタデータは DLF によって管理されます。
シナリオ
すでに ACK クラスターがあり、同じクラスター上でビッグデータタスクとオンラインアプリケーションを実行して、リソースプーリングと弾力性のあるスケジューリングを実現したい場合。
コンテナー化された管理に対する高い要求があり、Kubernetes の弾力性とクラウドネイティブエコシステム (CI/CD、サービスメッシュ、マイクロサービスなど) の組み合わせが必要なシナリオ。
データレイクアーキテクチャを迅速に構築し、DLF を使用してメタデータを管理したいシナリオ。
選択の推奨事項
ビジネスニーズ | 推奨プロダクトフォーム | 理由 | プロダクトの O&M 範囲 |
大規模な Spark ジョブ、AI トレーニング、および推論 数秒単位の弾力性、従量課金、データレイクハウス機能が必要です。 | EMR Serverless Spark |
|
|
OLAP、データレイクハウス処理、および分析 高同時実行クエリ、多次元分析、および MySQL プロトコルとの互換性が必要です。 | EMR Serverless StarRocks |
|
|
カスタム環境と長時間実行されるオフラインジョブ クラスターリソースと構成に対する完全な制御が必要です。 | EMR on ECS |
|
|
コンテナーリソースの再利用、オンラインサービスとオフラインサービスのハイブリッドデプロイメント すでに Kubernetes (ACK) クラスターをお持ちです。 | EMR on ACK |
|
|