全部產品
Search
文件中心

E-MapReduce:EMR中繼資料遷移公告

更新時間:Jul 01, 2024

本文為您介紹遷移E-MapReduce(簡稱EMR)中繼資料至資料湖中繼資料DLF(Data Lake Formation)中的原因及遷移流程。

遷移原因

2020年阿里雲EMR推出全新的資料湖構建和統一中繼資料服務,為EMR使用者提供了更好的統一中繼資料服務方案。阿里雲EMR團隊發現部分使用者在EMR叢集上,仍然使用本地MySQL和統一meta資料庫(舊版功能)作為生產環境的Hive中繼資料存放區。我們強烈建議您儘快遷移到資料湖構建DLF中,原因如下:
  • 本地MySQL是單機部署,無法保證服務高可用,容易造成服務中斷。
  • 舊版功能的統一中繼資料,後續將逐步下線,需要遷移到新版統一中繼資料DLF中。
說明 如果您的叢集使用自建RDS儲存中繼資料,也可以遷移到統一中繼資料DLF中,以便於為您提供更好的效能和可擴充性。

資料湖中繼資料DLF是阿里雲提供的統一中繼資料服務,具有高可用、免營運和高效能等優點,相容Hive Metastore,無縫對接EMR上開源計算引擎,並支援多版本管理和Data Profile功能。另外,DLF還支援資料探索、湖管理和資料許可權控制等功能,並與阿里雲其他計算產品(例如MaxCompute、Databricks和Hologres等)無縫對接,可以擴充更豐富的計算情境。DLF詳細介紹,請參見產品簡介

遷移流程

阿里雲EMR和DLF團隊提供了完善的遷移流程及技術工具支援,同時會在整個遷移過程中做好支援和保障工作,以確保快速平滑遷移。

步驟具體描述參與方預計耗時
一、準備階段
  1. 請使用DingTalk搜尋DingTalk群號33719678加入阿里雲EMR中繼資料遷移群。

    阿里雲EMR團隊會指派工程師對接。

  2. 阿里雲EMR團隊對客戶叢集和實際使用方式進行摸底,確定遷移的可行性及排期。
阿里雲EMR團隊+客戶2小時
二、遷移階段
  1. 暫停叢集上啟動並執行任務和停止中繼資料服務。
  2. 備份使用者現有中繼資料內容。
  3. 在DLF上通過中繼資料遷移功能進行遷移和驗證。
  4. 切換叢集中繼資料配置至DLF中繼資料。
  5. 恢複業務任務。
阿里雲EMR團隊+客戶30分鐘
三、驗證階段觀察作業運行一周或者更長時間,查看運行結果。
  • 如果正常運行,則遷移成功。
  • 如果遇到問題,則需要定位分析,可以根據實際情況確定是線上解決還是進入復原階段。

    復原詳情,請參見步驟四

阿里雲EMR團隊+客戶1周
(可選)四、復原階段
  1. 暫停業務任務。
  2. 對比DLF中繼資料和HMS中繼資料,回放增量部分。
  3. 切換叢集中繼資料配置至HMS中繼資料。
  4. 啟動HMS服務。
  5. 恢複業務任務並觀察運行結果。
阿里雲EMR團隊+客戶30分鐘

聯絡我們

阿里雲EMR和DLF團隊,針對此次遷移提供了完善的遷移方案和技術工具支援,如有需要,請使用DingTalk搜尋DingTalk群號33719678加入DingTalk遷移群,我們會安排工程師與您對接具體方案。