Hive数据源为您提供读取和写入Hive双向通道的功能,您可以通过向导模式和脚本模式配置同步任务。

背景信息

标准模式的工作空间支持数据源开发和生产环境隔离功能,您可以分别添加开发环境和生产环境的数据源,并进行隔离,以保护您的数据安全。
当底层存储为OSS时,请注意以下问题:
  • defaultFS的配置请以oss://为前缀。例如,`oss://IP:PORT``oss://nameservice`
  • 您需要在高级参数中配置连接OSS服务时需要的参数,示例如下。
    {
            "hiveConfig":{
                "fs.oss.accessKeyId":"<yourAccessKeyId>",
                    "fs.oss.accessKeySecret":"<yourAccessKeySecret>",
                    "fs.oss.endpoint":"oss-cn-<yourRegion>-internal.aliyuncs.com"
            }
        }

使用限制

  • Hive数据源仅支持使用独享数据集成资源组。配置独享数据集成资源组详情请参见新增和使用独享数据集成资源组
  • Hive数据源目前仅支持使用Kerberos身份认证方式(后续会逐步支持其他认证方式,敬请期待)。

新建Hive数据源

  1. 进入数据源管理页面。
    1. 登录DataWorks控制台
    2. 在左侧导航栏,单击工作空间列表
    3. 选择工作空间所在地域后,单击相应工作空间后的进入数据集成
    4. 在左侧导航栏,单击数据源 > 数据源列表,进入工作空间管理 > 数据源管理页面。
  2. 数据源管理页面,单击右上角的新增数据源
  3. 新增数据源对话框中,选择数据源类型为Hive
  4. 新增Hive数据源对话框中,配置各项参数。
    Hive数据源包括阿里云实例模式连接串模式两种类型:
    • 以新增Hive > 阿里云实例模式类型的数据源为例。 Hive
      参数 描述
      数据源类型 当前选择的数据源类型为阿里云实例模式
      数据源名称 数据源名称必须以字母、数字、下划线(_)组合,且不能以数字和下划线(_)开头。
      数据源描述 对数据源进行简单描述,不得超过80个字符。
      适用环境 可以选择开发生产环境。
      说明 仅标准模式工作空间会显示该配置。
      地区 选择相应的地域。
      集群ID 您可以登录EMR控制台,查看集群ID。
      EMR实例主账号ID 实例购买者登录控制台,进入安全设置页面查看实例主账号ID。
      数据库名 数据库的名称。
      Hive登录方式 包括用户名密码登录匿名登录

      如果您选择用户名密码登录,需要输入HIVE用户名HIVE密码

      HIVE版本 选择需要使用的Hive版本。
      defaultFS Hadoop HDFS文件系统处于action状态的namenode节点地址。格式为hdfs://ip:port
      扩展参数 Hive高级参数配置,例如HA的相关配置,示例如下。
      "hadoopConfig":{
      "dfs.nameservices": "testDfs",
      "dfs.ha.namenodes.testDfs": "namenode1,namenode2",
      "dfs.namenode.rpc-address.youkuDfs.namenode1": "",
      "dfs.namenode.rpc-address.youkuDfs.namenode2": "",
      "dfs.client.failover.proxy.provider.testDfs
      "org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider"
      }
    • 以新增Hive > 连接串模式类型的数据源为例。Hive
      参数 描述
      数据源类型 当前选择的数据源类型为连接串模式
      数据源名称 数据源名称必须以字母、数字、下划线(_)组合,且不能以数字和下划线(_)开头。
      数据源描述 对数据源进行简单描述,不得超过80个字符。
      适用环境 可以选择开发生产环境。
      说明 仅标准模式工作空间会显示该配置。
      HIVE JDBC URL Hive元数据库的JDBC URL。
      数据库名 访问的Hive数据库的名称。您可以在Hive客户端执行命令show databases,查看已经创建的数据库。
      Hive登录方式 包括用户名密码登录匿名登录

      如果您选择用户名密码登录,需要输入HIVE用户名HIVE密码

      HIVE版本 选择需要使用的Hive版本。
      metastoreUris 格式为thrift://ip1:port1,thrift://ip2:por2
      defaultFS Hadoop HDFS文件系统处于action状态的namenode节点地址。格式为hdfs://ip:port
      扩展参数 Hive高级参数配置,例如HA的相关配置,示例如下。
      "hadoopConfig":{
      "dfs.nameservices": "testDfs",
      "dfs.ha.namenodes.testDfs": "namenode1,namenode2",
      "dfs.namenode.rpc-address.youkuDfs.namenode1": "",
      "dfs.namenode.rpc-address.youkuDfs.namenode2": "",
      "dfs.client.failover.proxy.provider.testDfs
      "org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider"
      }
      特殊认证方式

      选择数据源是否需要进行身份认证。默认选择。目前认证方式仅支持选择Kerberos认证。关于Kerberos认证详细介绍请参见配置Kerberos认证

      keytab文件

      如果特殊认证方式选择为Kerberos认证,请选择需要使用的keytab文件。

      如果没有可用的keytab文件,请单击新增认证文件进行添加。

      conf文件

      如果特殊认证方式选择为Kerberos认证,请选择需要使用的conf文件。

      如果没有可用的conf文件,请单击新增认证文件进行添加。

      principal

      填写Kerberos认证的主体,即Kerberos账户,格式为:主名称/实例名称@领域名。例如****/hadoopclient@**.*** 。

    • 以新增Hive > CDH集群内置模式类型的数据源为例。CDH
      参数 描述
      数据源类型 当前选择的数据源类型为CDH集群内置模式
      数据源名称 数据源名称必须以字母、数字、下划线(_)组合,且不能以数字和下划线(_)开头。
      数据源描述 对数据源进行简单描述,不得超过80个字符。
      适用环境 可以选择开发生产环境。
      说明 仅标准模式工作空间会显示该配置。
      选择CDH集群 选择需要使用的CDH集群。
      特殊认证方式

      选择数据源是否需要进行身份认证。默认选择。目前认证方式仅支持选择Kerberos认证。关于Kerberos认证详细介绍请参见配置Kerberos认证

      keytab文件

      如果特殊认证方式选择为Kerberos认证,请选择需要使用的keytab文件。

      如果没有可用的keytab文件,请单击新增认证文件进行添加。

      conf文件

      如果特殊认证方式选择为Kerberos认证,请选择需要使用的conf文件。

      如果没有可用的conf文件,请单击新增认证文件进行添加。

      principal

      填写Kerberos认证的主体,即Kerberos账户,格式为:主名称/实例名称@领域名。例如****/hadoopclient@**.*** 。

  5. 选择资源组连通性类型为数据集成
  6. 在资源组列表,单击相应资源组后的测试连通性
    数据同步时,一个任务只能使用一种资源组。您需要测试每种资源组的连通性,以保证同步任务使用的数据集成资源组能够与数据源连通,否则将无法正常执行数据同步任务。如果您需要同时测试多种资源组,请选中相应资源组后,单击批量测试连通性。详情请参见选择网络连通方案
    说明
    • (推荐)资源组列表默认仅显示独享数据集成资源组,为确保数据同步的稳定性和性能要求,推荐使用独享数据集成资源组。
    • 如果您需要测试公共资源组或自定义资源组的连通性,请在资源组列表右下方,单击更多选项,在警告对话框单击确定,资源组列表会显示可供选择的公共资源组和自定义资源组。
  7. 测试连通性通过后,单击完成

在EMR控制台获取Hive配置

  1. 登录E-MapReduce控制台
  2. 在顶部菜单栏,单击集群管理
  3. 单击相应集群后的详情,进入集群基础信息页面。
  4. 在左侧导航栏,单击集群服务 > Hive
  5. 单击配置页签。
  6. 配置搜索下输入javax,单击搜索图标,查看服务配置
    服务配置