MaxCompute支持通过创建外部数据源连接Hadoop集群,以此来构建湖仓一体。本文为您介绍Hadoop外部数据源的创建、查看以及删除。

背景信息

Hadoop外部数据源可以用来与MaxCompute外部项目做映射,从而在MaxCompute中对这些数据源做单点或者联合查询。MaxCompute支持Hadoop外部数据源的创建、查看以及删除。

注意事项

  • 仅华东1(杭州)、华东2(上海)、华北2(北京)、华南1(深圳)、华北3(张家口)、和新加坡地域支持创建外部数据源。
  • 同一个外部数据源只支持被一个MaxCompute外部项目绑定,不支持多个外部项目绑定同一个外部数据源。
  • 外部数据源只支持创建、查看和删除,不支持更新。

创建外部数据源

  1. 登录MaxCompute控制台,选择相应的地域。
  2. 外部数据源管理页签,单击创建外部数据源链接
  3. 创建外部数据源对话框,按照下表填写对应参数后,单击确定
    参数名称 说明
    选择MaxCompute项目 选择目标MaxCompute项目。您可以在项目管理页签查看MaxCompute项目名称。
    外部数据源名称 自定义外部数据源名称。命名规则如下:
    • 名称只能包括小写字母、数字、下划线。
    • 名称需小于128个字符。
    网络连接对象 MaxCompute到E-MapReduce或Hadoop VPC网络的连接。详情请参见专有网络连接方案
    NameNode地址 目标Hadoop集群的Active和Standby NameNode服务地址和端口号(端口号通常是8020)。具体详情,请您联系Hadoop集群管理员获取。
    HMS服务地址 目标Hadoop集群的Active和Standby NameNode的Hive元数据服务地址和端口号(端口号通常是9083)。具体详情,请您联系Hadoop集群管理员获取。
    集群名称 在Hadoop集群高可用环境下用于指代NameNode的名称。自构建Hadoop集群场景下,您可以通过hdfs-site.xml文件中的dfs.nameservices配置参数获取集群名称。
    认证类型 MaxCompute通过账号映射的方式去Hadoop集群获取元数据和数据,映射的Hadoop账号往往会有认证授权机制(如Kerberos)保护,因此需要账户的认证授权信息文件。请根据实际情况进行选择,详情请咨询Hadoop运维人员。
    • 无认证方式:Hadoop集群没有开启Kerberos认证授权机制,选择此项。
    • Kerberos账号认证:Hadoop集群开启Kerberos认证授权机制,选择此项。
      • 配置文件:上传Hadoop集群中的krb5.conf文件。
        说明 如果Hadoop集群搭建在Linux操作系统上,krb5.conf文件一般位于Hadoop HDFS namenode master节点的 /etc目录下。
      • hmsPrincipals:HMS服务身份标识。您可以在Hadoop集群Kerberos终端,用list_principals命令获取HMS Principals。该选项示例如下所示。
        hive/emr-header-1.cluster-20****@EMR.20****.COM,hive/emr-header-2.cluster-20****@EMR.20****.COM
        说明 不同节点的服务信息是以逗号分隔的字符串,且每个Principals与HMS服务地址一一对应。
      • 添加配置引擎权限映射
        • 云账号:使用MaxCompute访问Hadoop集群的阿里云账号。
        • Kerberos账号:Kerberos授权的具有Hive访问权限的Hadoop用户账号。
        • 上传文件:上传Kerberos账号的keytab配置文件。具体生成方式,请参见生成keytab配置文件

查看或删除外部数据源

  1. 登录MaxCompute控制台,选择相应地域。
  2. 在MaxCompute控制台的外部数据源管理页签,单击目标外部数据源操作列的详情删除
    说明 如果该外部数据源已经绑定了External Project,则无法删除,请先删除或解除绑定对应的External Project后再进行删除。