本文介绍如何配置数据湖构建(Data Lake Formation,DLF),作为E-MapReduce(简称EMR)上Hadoop集群的元数据。

背景信息

阿里云数据湖构建是一款全托管的快速帮助用户构建云上数据湖的服务,产品为云原生数据湖提供了统一的元数据管理、统一的权限与安全管理、便捷的数据入湖能力以及一键式数据探索能力,详细信息请参见数据湖构建产品简介

您可以快速完成云原生数据湖方案的构建与管理,并可无缝对接多种计算引擎,打破数据孤岛,洞察业务价值。

前提条件

已在数据湖构建(Data Lake Formation)控制台开通数据湖构建。

使用限制

  • 数据湖元数据适配EMR的Hive 2.x、Hive 3.x、Presto和SparkSQL。
  • 仅EMR-3.30.0及之后版本和EMR-4.5.0及之后版本,支持选择数据湖元数据作为Hive数据库。

切换元数据存储类型

您可以通过修改Hive参数的方式,切换Hive MetaStore的存储方式。
说明 如果需要迁移数据库的元数据信息,请参见EMR元数据迁移公告
  1. 进入Hive服务页面。
    1. 登录阿里云E-MapReduce控制台
    2. 在顶部菜单栏处,根据实际情况选择地域和资源组
    3. 单击上方的集群管理页签。
    4. 集群管理页面,单击相应集群所在行的详情
    5. 在左侧导航栏,选择集群服务 > Hive
  2. 修改hive.imetastoreclient.factory.class的值。
    1. 在Hive服务页面,单击配置页面。
    2. 在配置搜索中,输入配置项hive.imetastoreclient.factory.class,单击search图标。
      • 切换为MySQL(包括集群内置MySQL、统一meta数据库和独立RDS MySQL):

        设置hive.imetastoreclient.factory.class的值为org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClientFactory

      • 切换为数据湖元数据:

        设置hive.imetastoreclient.factory.class的值为com.aliyun.datalake.metastore.hive2.DlfMetaStoreClientFactory

  3. 保存配置。
    1. 在Hive服务页面,单击右上角的保存
    2. 确认修改对话框中,输入执行原因,单击确定
  4. 重启Hive MetaStore服务。
    1. 在Hive服务页面,选择右上角的操作 > 重启Hive MetaStore
    2. 执行集群操作对话框,设置相关参数,然后单击确定
    3. 确认对话框,单击确定
      您可以单击右上角的查看操作历史,查看任务进度,等待任务完成。