本文為您介紹遷移E-MapReduce(簡稱EMR)中繼資料至資料湖中繼資料DLF(Data Lake Formation)中的原因及遷移流程。
遷移原因
2020年阿里雲EMR推出全新的資料湖構建和統一中繼資料服務,為EMR使用者提供了更好的統一中繼資料服務方案。阿里雲EMR團隊發現部分使用者在EMR叢集上,仍然使用本地MySQL和統一meta資料庫(舊版功能)作為生產環境的Hive中繼資料存放區。我們強烈建議您儘快遷移到資料湖構建DLF中,原因如下:
- 本地MySQL是單機部署,無法保證服務高可用,容易造成服務中斷。
- 舊版功能的統一中繼資料,後續將逐步下線,需要遷移到新版統一中繼資料DLF中。
說明 如果您的叢集使用自建RDS儲存中繼資料,也可以遷移到統一中繼資料DLF中,以便於為您提供更好的效能和可擴充性。
資料湖中繼資料DLF是阿里雲提供的統一中繼資料服務,具有高可用、免營運和高效能等優點,相容Hive Metastore,無縫對接EMR上開源計算引擎,並支援多版本管理和Data Profile功能。另外,DLF還支援資料探索、湖管理和資料許可權控制等功能,並與阿里雲其他計算產品(例如MaxCompute、Databricks和Hologres等)無縫對接,可以擴充更豐富的計算情境。DLF詳細介紹,請參見產品簡介。
遷移流程
阿里雲EMR和DLF團隊提供了完善的遷移流程及技術工具支援,同時會在整個遷移過程中做好支援和保障工作,以確保快速平滑遷移。
| 步驟 | 具體描述 | 參與方 | 預計耗時 |
| 一、準備階段 |
| 阿里雲EMR團隊+客戶 | 2小時 |
| 二、遷移階段 |
| 阿里雲EMR團隊+客戶 | 30分鐘 |
| 三、驗證階段 | 觀察作業運行一周或者更長時間,查看運行結果。
| 阿里雲EMR團隊+客戶 | 1周 |
| (可選)四、復原階段 |
| 阿里雲EMR團隊+客戶 | 30分鐘 |
聯絡我們
阿里雲EMR和DLF團隊,針對此次遷移提供了完善的遷移方案和技術工具支援,如有需要,請使用DingTalk搜尋DingTalk群號33719678加入DingTalk遷移群,我們會安排工程師與您對接具體方案。