EMR on ECS應用情境介紹 - E-MapReduce

阿里雲EMR憑藉彈性擴充的計算叢集、多源異構資料融合治理以及即時資料流批一體處理等卓越能力，已經廣泛應用於金融風控、電商精準營銷、物聯網時序資料處理等多個領域。本文為您介紹EMR在資料湖、資料分析、即時資料流、資料服務四個情境的典型應用。

資料湖情境

阿里雲EMR資料湖類型叢集，包含以下核心能力：

核心能力	組件	說明
統一儲存層	OSS-HDFS	提供相容HDFS協議的Object Storage Service底座，替代傳統本地HDFS，計算資源與儲存解耦，可獨立擴充計算節點。
湖中繼資料治理	Data Lake Formation (DLF)	提供跨OSS、資料庫、檔案系統的統一中繼資料目錄服務，支援自動中繼資料發現、細粒度許可權控制、資料血緣追蹤，簡化湖內資料治理流程。
全棧分析引擎	Spark、Hive、Presto/Trino	整合離線ETL（Spark/Hive）、互動式查詢（Presto/Trino）等架構，覆蓋資料入湖、處理、分析到出湖全情境，支援與DataWorks、Quick BI無縫協作，加速資料價值轉化。

在資料湖情境下，阿里雲EMR通過以下流程實現端到端資料應用。

具體流程如下：

多來源資料入湖
- 資料庫系統
  - 關係型資料庫（MySQL/Oracle）：基於Sqoop或DataX定期批量抽取全量/增量資料，按業務表結構同步至OSS-HDFS；
  - 非關係型資料庫（MongoDB/Redis）：通過自訂指令碼或Spark Connector匯出JSON/位元據，寫入OSS-HDFS。
- 資料檔案
  - 日誌資料：通過Logstash、Flume等採集工具即時監控增量日誌（如使用者行為、系統日誌），以分鐘級延遲寫入OSS-HDFS。
  - 檔案資料：藉助JindoSDK工具通過HDFS API，將CSV、Parquet等檔案批量上傳至OSS-HDFS；同時支援OSS控制台上傳，滿足多樣化檔案傳輸需求。
資料處理與分析
- 批處理：利用EMR叢集中的Spark和Hive，對原始日誌及業務資料進行清洗、關聯和彙總操作，以產生關鍵業務指標，例如日活躍使用者數、30日使用者留存率以及特定SKU訂單增長量等。
- 互動式查詢：藉助Trino或Presto，基於標準SQL文法，提供快速的巨量資料查詢服務，其回應時間可達到亞秒級，能夠有效滿足營運團隊對多維度資料分析的需求。
資料應用：
- 資料科學：通過API服務將處理後的資料提供給風控引擎、推薦系統等下遊應用。
- 商業智慧：通過JDBC介面實現與商業智慧工具（例如Quick BI）的對接，可以快速建立互動式報表。
- 預測性分析：將處理結果及特徵資料推送至Machine Learning Platform for AI，訓練 SKU 銷量預測等模型，並將迴流結果儲存至資料湖。
- 資料視覺效果：通過JDBC介面對接視覺化檢視（如Data V），可以將複雜資料以直觀、清晰的方式呈現在大螢幕上。

資料分析情境

阿里雲EMR資料分析類型叢集整合了StarRocks、Doris、ClickHouse等高效能OLAP引擎。這些分析引擎具備高效的資料壓縮、列式儲存及並行查詢等特性，使其在巨量資料分析情境中表現出色。它們可廣泛應用於使用者畫像、人群圈選、商業智慧等多種業務分析情境。

在資料分析情境下，以StarRocks分析引擎為例，阿里雲EMR通過以下流程實現端到端的資料應用。

具體流程如下：

資料擷取
- 即時採集：通過Flume抓取日誌資料，結合Kafka訊息佇列實現高吞吐、低延遲的流式資料緩衝，確保即時處理穩定性。
- 離線採集：基於Sqoop或DataX定期批量抽取MySQL、Oracle等關係型資料庫的資料，同步至StarRocks。
StarRocks分層架構：通過對進入StarRocks的資料進行加工分層，實現資料全生命週期管理。
- DIM層（維度資料層）：儲存維度資料（如使用者屬性、商品分類），支援多粒度分析。
- ODS層（操作資料儲存）：貼源儲存未經處理資料，保留資料初始狀態，支援回溯分析。
- DWD層（詳細資料層）：進行資料清洗、格式標準化及基礎關聯，產生可用的詳細資料集。
- DWS層（摘要資料層）：按業務主題（如使用者行為、訂單轉化）預彙總指標，提升查詢效率。
資料應用
- 使用者畫像：基於DIM層標籤和DWS層行為資料構建使用者畫像，以實現精準營銷。
- 人群圈選：通過複合條件（例如“近30天高活躍未付費使用者”）迅速篩選目標群體，以支撐營運策略。
- 商業智慧：通過JDBC介面實現與商業智慧工具（如Quick BI）的對接，能夠產生日報、周報及即時看板等可視化分析結果。

即時資料流情境

阿里雲EMR即時資料流叢集通過整合OSS-HDFS、Flink及Paimon等核心組件，實現了從資料即時攝入到業務敏捷分析的全流程能力。該叢集支援資料的高效儲存、即時處理與分析，廣泛應用於即時風控和即時大屏等情境。

OSS-HDFS：提供相容HDFS協議的彈性儲存層，支撐PB級即時資料持久化儲存，支援毫秒級寫入與低成本冷熱分層。
Flink：實現流式ETL（如日誌解析、維度關聯）、視窗彙總（如分鐘級GMV統計）及複雜事件處理（如風控規則引擎）。
Paimon：以流式資料湖形式統一管理即時增量資料與歷史快照，支援CDC同步、ACID事務與時間旅行查詢。

在即時資料流情境下，以Flink+Paimon+OSS-HDFS構建流式湖倉，支撐即時大屏為例。

具體流程如下：

多來源資料即時接入：通過Flink多樣化連接器即時採集資料庫變更、日誌及埋點資料。
流式湖倉
- Flink：作為流批一體計算引擎，即時消費資料流，完成清洗、轉換（如日誌解析、埋點標準化）及維度關聯。
- Paimon：以流式資料湖形式儲存處理結果，支援以下特性。
  - Changelog機制：記錄資料變更（包括插入、更新和刪除），以確保ACID事務的完整性及即時增量同步處理。
  - 分層建模：通過多級“Paimon + ODS”組合構建分層資料架構（例如ODS貼源層→DWD明細層→DWS匯總層），以實現資料的逐層沉澱與複用。
- OSS-HDFS：持久化儲存原始日誌、Paimon增量快照及歷史歸檔資料。
資料應用：基於StarRocks產生即時業務報表（如GMV監控、使用者留存分析），並與BI工具（例如Quick BI）對接，以構建資料大屏，推動T+0決策。

資料服務情境

阿里雲EMR資料服務叢集整合了OSS-HDFS、HBase、Phoenix等核心組件，構建了從海量資料存放區到高效能查詢服務的全鏈路能力。該叢集提供高效的資料存放區管理、靈活的多維查詢以及毫秒級響應服務，廣泛應用於使用者行為分析、精準營銷等情境。

HBase：
- 基於列式儲存與分布式架構，提供高吞吐即時讀寫能力，支援毫秒級低延遲寫入與海量資料點查（如訂單狀態查詢、使用者行為記錄）。
- 通過儲存計算分離設計，將HFile持久化至OSS-HDFS，支援快速重建叢集。
Phoenix：
- 作為HBase的SQL查詢引擎，將NoSQL資料對應為標準關係型表，支援複雜SQL分析（如多表關聯、彙總計算），千億級資料下查詢回應時間最佳化至亞秒級。
- 通過二級索引構建、查詢下推等機制，加速標籤圈選、使用者分群等情境，降低業務開發門檻。

在資料服務情境下，阿里雲EMR基於HBase+OSS-HDFS儲存架構與Phoenix查詢引擎，支撐業務團隊進行使用者行為分析。

具體流程如下：

資料處理
- 流處理：通過Flink即時消費日誌資料流，完成資料清洗（如去噪、格式標準化）、視窗彙總（如即時UV統計）、事件警示（如異常流量檢測），處理結果通過HBase API即時寫入HBase叢集。
- 批處理：通過Spark定期批量處理關係型資料庫資料，執行複雜ETL（如使用者標籤計算、資料去重），寫入至HBase叢集。
海量儲存
- OSS-HDFS：持久化儲存原始日誌、HBase的HFile檔案，通過JindoCache加速訪問效能，降低OSS-HDFS讀寫延遲。
- HBase叢集：承擔即時資料寫入（如使用者行為記錄）與高頻點查請求（如訂單狀態查詢）。
使用者行為：基於HBase儲存的標籤資料（如興趣偏好、消費行為），通過Phoenix SQL實現複雜查詢（如“近7天購買過某品類且點擊過廣告的使用者”），支撐精準營銷。