すべてのプロダクト
Search
ドキュメントセンター

E-MapReduce:シナリオ

最終更新日:Jun 03, 2025

スケーラブルなコンピューティングクラスタ、マルチソースの異種データを統合および管理する機能、バッチデータとストリームデータを統合処理する機能を備えた Alibaba Cloud E-MapReduce (EMR) は、金融リスク管理、e コマースの精密マーケティング、IoT 時系列データ処理など、複数の分野で広く適用されています。このトピックでは、データレイク、データ分析、リアルタイムデータストリーミング、データサービングのシナリオにおける EMR の典型的なアプリケーションについて説明します。

データレイクシナリオ

Alibaba Cloud EMR DataLake クラスタには、次の表に示すコア機能があります。

コア機能

コンポーネント

説明

統合ストレージレイヤー

OSS-HDFS

Hadoop 分散ファイルシステム (HDFS) プロトコルと互換性のあるオブジェクトストレージベースとして機能します。 OSS-HDFS は従来のオンプレミス HDFS に置き換わり、コンピューティングリソースとストレージリソースを分離し、計算ノードを個別にスケールアウトします。

レイクメタデータガバナンス

Data Lake Formation (DLF)

Object Storage Service (OSS)、データベース、ファイルシステム全体で統合メタデータカタログサービスを提供します。 自動メタデータディスカバリー、きめ細かい権限管理、データ系列追跡をサポートし、データレイクでのデータガバナンスプロセスを簡素化します。

フルスタック分析エンジン

Spark、Hive、Presto/Trino

Spark または Hive によって提供されるオフラインの抽出、変換、ロード (ETL) の機能と、Presto または Trino によって提供されるインタラクティブクエリの機能が EMR に統合されています。 これにより、データレイクへのデータの取り込み、データ処理、データ分析からデータレイクからのデータの出力までのシナリオ全体を実装できます。 DataWorks や Quick BI などのシステムとのシームレスな連携もサポートされており、データバリューの作成を加速します。

データレイクシナリオでは、Alibaba Cloud EMR は次のプロセスを通じてエンドツーエンドのデータアプリケーションを実装します。

image

次のコンテンツでは、プロセスについて詳しく説明します。

  1. データレイクへのマルチソースデータの取り込み

    • データベースシステム

      • リレーショナルデータベース (MySQL、Oracle など): Sqoop または DataX を使用して、リレーショナルデータベースから定期的に完全データまたは増分データを抽出し、ビジネステーブルスキーマに基づいてデータを OSS-HDFS に同期できます。

      • 非リレーショナルデータベース (MongoDB、Redis など): カスタムスクリプトまたは Spark コネクタを使用して JSON データまたはバイナリデータをエクスポートし、データを OSS-HDFS に書き込むことができます。

    • データファイル

      • ログデータ: Logstash や Flume などの収集ツールを使用して、ユーザー行動ログやシステムログなどの増分ログをリアルタイムで監視し、分単位のレイテンシでログを OSS-HDFS に書き込むことができます。

      • ファイルデータ: JindoSDK を使用して、HDFS API を呼び出すことで、CSV ファイルや Parquet ファイルなどの複数のファイルを一度に OSS-HDFS にアップロードできます。 要件に合わせて、OSS コンソールで複数のファイルをアップロードすることもできます。

  2. データ処理と分析

    • バッチ処理: EMR クラスタで Spark と Hive を使用して、生のログとビジネスデータをクレンジング、関連付け、集約し、デイリーアクティブユーザー数、過去 30 日間のユーザー維持率、特定の Stock Keeping Unit (SKU) の新規注文数などの主要なビジネスメトリックを生成できます。

    • インタラクティブクエリ: Trino または Presto を使用して、標準 SQL 構文に基づいてビッグデータをクエリできます。 応答時間はサブ秒レベルに達する可能性があり、運用チームの多次元データ分析の要件を効果的に満たします。

  3. データアプリケーション:

    • データサイエンス: API サービスは、処理済みデータをリスク管理エンジンやレコメンデーションシステムなどのダウンストリームアプリケーションに提供します。

    • ビジネスインテリジェンス: Java Database Connectivity (JDBC) API を呼び出して、関連データを Quick BI などのビジネスインテリジェンスツールに統合し、インタラクティブレポートを迅速に作成できます。

    • 予測分析: 処理結果と特徴データは機械学習プラットフォームにプッシュされ、SKU 販売予測モデルなどのモデルをトレーニングします。 返された結果はデータレイクに保存されます。

    • データの可視化: JDBC API を呼び出して DataV などの可視化ツールに接続し、複雑なデータをダッシュボードに直感的かつ明確に表示できます。

データ分析シナリオ

Alibaba Cloud EMR Online Analytical Processing (OLAP) クラスタは、StarRocks、Doris、ClickHouse などの高パフォーマンス OLAP エンジンと統合されています。 これらのエンジンはすべて、効率的なデータ圧縮、列指向ストレージ、パラレルクエリなどの機能を提供します。 これらの機能により、ビッグデータ分析シナリオにおける OLAP クラスタの高パフォーマンスが保証されます。 OLAP クラスタは、ユーザープロファイリング、受信者選択、ビジネスインテリジェンスなど、さまざまなビジネス分析シナリオに適しています。

次のプロセスでは、StarRocks 分析エンジンを使用して、Alibaba Cloud EMR がデータ分析シナリオでエンドツーエンドのデータアプリケーションをどのように実装するかを示します。

image

次のコンテンツでは、プロセスについて詳しく説明します。

  1. データ収集

    • リアルタイムデータ収集: Flume はログデータのキャプチャに使用され、Apache Kafka 用メッセージキューは高スループットと低レイテンシでデータストリームをバッファリングして、安定したリアルタイムデータ処理を保証するために使用されます。

    • オフラインデータ収集: Sqoop または DataX を使用して、MySQL や Oracle などのリレーショナルデータベースから定期的にデータを抽出し、StarRocks に同期します。

  2. StarRocks の階層アーキテクチャ: StarRocks でデータを処理および階層化して、データのライフサイクル全体を管理します。

    • DIM レイヤー (ディメンションレイヤー): ユーザー属性や商品カテゴリなどのディメンションデータはこのレイヤーに保存されます。 多粒度分析がサポートされています。

    • ODS レイヤー (Operational Data Store レイヤー): 生データを保存し、データの初期状態を保持し、バックトラック分析をサポートします。

    • DWD レイヤー (Data Warehouse Detail レイヤー): このレイヤーでデータクレンジング、フォーマットの標準化、基本的な関連付けを実行して、使用可能な詳細データセットを生成できます。

    • DWS レイヤー (Data Warehouse Summary レイヤー): ユーザー行動や注文コンバージョンなど、ビジネスの主題ごとにメトリックを事前に集計して、クエリ効率を向上させます。

  3. データアプリケーション

    • ユーザープロファイリング: DIM レイヤーのタグと DWS レイヤーの行動データに基づいてユーザープロファイルを作成し、精密マーケティングを実装できます。

    • 受信者選択: 過去 30 日間に活発に活動していたが支払いをしていなかったユーザーなど、複数の条件の組み合わせに基づいて目的のユーザーグループを選択できます。

    • ビジネスインテリジェンス: JDBC API を呼び出して、関連データを Quick BI などのビジネスインテリジェンスツールに統合し、日次レポート、週次レポート、リアルタイムダッシュボードなどの可視化された分析結果を生成できます。

リアルタイムデータストリーミングシナリオ

Alibaba Cloud EMR Dataflow クラスタは、OSS-HDFS、Flink、Paimon などのコアコンポーネントと統合され、リアルタイムデータの取り込みから俊敏なビジネス分析までのエンドツーエンドの機能を実証します。 このタイプのクラスタは、効率的なデータストレージ、リアルタイムデータ処理と分析をサポートし、リアルタイムリスク管理やリアルタイムダッシュボードなどのシナリオで広く使用されています。

  • OSS-HDFS: HDFS プロトコルと互換性のあるスケーラブルなストレージレイヤーを提供します。 ペタバイトのリアルタイムデータの永続ストレージ、ミリ秒レベルの書き込み、低コストのコールドデータとホットデータの階層化をサポートします。

  • Flink: データストリームに対する ETL 操作 (ログ解析、ディメンションの関連付けなど)、ウィンドウ集計 (分単位の総商品量 (GMV) 測定など)、複雑なイベント処理 (リスク管理ルールの策定など) を実装します。

  • Paimon: ストリーミングデータレイクを使用して、リアルタイムの増分データと履歴スナップショットを一元的に管理できます。 変更データキャプチャ (CDC) 同期、原子性、一貫性、分離、耐久性 (ACID) トランザクション、タイムトラベルクエリがサポートされています。

次のプロセスでは、Flink、Paimon、OSS-HDFS を使用してストリーミングデータレイクハウスを構築し、リアルタイムダッシュボードをサポートします。

image

次のコンテンツでは、プロセスについて詳しく説明します。

  1. 複数のソースからのリアルタイムデータアクセス: さまざまな Flink コネクタを使用して、データベースの変更、ログ、イベント追跡データをリアルタイムで収集できます。

  2. ストリーミングデータレイクハウス

    • Flink: 統合バッチおよびストリームデータコンピューティングエンジンとして、Flink はデータストリームをリアルタイムで消費し、クレンジング、変換 (ログ解析、イベント追跡ポイントの標準化など)、ディメンションの関連付けなどの操作を実行します。

    • Paimon: 処理結果をストリーミングデータレイクの形式で保存し、次の機能をサポートします。

      • 変更ログ: このメカニズムを使用して、データの挿入、更新、削除を含むデータの変更を記録し、ACID トランザクションとリアルタイムの増分同期の整合性を確保できます。

      • 階層モデリング: Paimon とデータレイヤー (ODS、DWD、DWS レイヤーなど) の組み合わせを使用して、階層データアーキテクチャを構築し、データレイヤーをレイヤーごとに累積および再利用できます。

    • OSS-HDFS: 生ログ、Paimon の増分スナップショット、履歴アーカイブデータを永続的に保存します。

  3. データアプリケーション: StarRocks を使用して、GMV 監視やユーザー維持分析に関するレポートなど、リアルタイムのビジネスレポートを生成できます。 関連データを Quick BI などのビジネスインテリジェンス (BI) ツールに統合してダッシュボードを構築し、T+0 意思決定を促進できます。

データサービングシナリオ

詳細については、「WordPress のデプロイ」をご参照ください。

  • HBase:

    • 列指向ストレージと分散アーキテクチャに基づいて、HBase は高スループットのリアルタイム読み取りおよび書き込み機能を提供し、ミリ秒レベルの低レイテンシ書き込みと、注文ステータス クエリやユーザー行動レコード クエリなどの大量データのポイント クエリをサポートします。

    • ストレージとコンピューティングのデカップリング設計は、HFile を OSS-HDFS に永続化し、高速クラスター再作成をサポートするために使用されます。

  • Phoenix:

    • HBase の SQL クエリ エンジンとして、Phoenix は NoSQL データを標準のリレーショナル テーブルにマッピングし、複数テーブルの関連付けや集計計算などの複雑な SQL 分析をサポートします。数百億のデータ レコードを処理する必要がある場合、クエリ応答時間はサブ秒レベルに最適化されます。

    • セカンダリ インデックスの作成やクエリ プッシュダウンなどのメカニズムを使用して、タグ選択やユーザー グループ化などの操作を高速化し、ビジネス開発のしきい値を下げることができます。

データサービングシナリオでは、Alibaba Cloud EMRはHBase + OSS-HDFSストレージアーキテクチャとPhoenixクエリエンジンを使用して、ユーザー行動分析のビジネスチームをサポートします。

image

以下のコンテンツでは、プロセスについて詳しく説明します。

  1. データ処理

    • ストリーム処理: Flink を使用して、ログ データ ストリームをリアルタイムでコンシュームし、データクレンジング(ノイズ除去やフォーマット標準化など)、ウィンドウ集約(リアルタイムのユニーク訪問者(UV)測定など)、イベントアラート(異常トラフィック検出など)を実行し、HBase API を呼び出すことで処理結果を HBase クラスターにリアルタイムで書き込むことができます。

    • バッチ処理: Spark は、リレーショナルデータベースのデータを定期的にバッチ処理し、ユーザー タグ計算やデータ重複除去などの複雑な ETL 操作を実行し、データを HBase クラスターに書き込みます。

  2. 大規模データストレージ

    • OSS-HDFS: 生ログと HBase HFiles を永続的に保存し、JindoCache アクセラレーション機能を使用して OSS-HDFS の読み取りおよび書き込みレイテンシを削減できます。

    • HBase クラスター: ユーザー行動レコードの書き込みなどのリアルタイムのデータ書き込み、および注文ステータス クエリなどの高頻度のポイントクエリ リクエストをサポートします。

  3. ユーザー行動: 興味のプリファレンスやコンシューマー行動など、HBase に保存されているタグ データに基づいて、Phoenix SQL 文を実行して、過去 7 日間に特定カテゴリのプロダクトを購入し、そのプロダクト カテゴリに関連する広告をクリックしたユーザーをクエリするなど、複雑なクエリを実装して、精密マーケティングをサポートできます。