Hive数据源为您提供读取和写入Hive双向通道的功能,您可以通过向导模式和脚本模式配置同步任务。
背景信息
标准模式的工作空间支持数据源开发和生产环境隔离功能,您可以分别添加开发环境和生产环境的数据源,并进行隔离,以保护您的数据安全。使用限制
- Hive数据源仅支持使用独享数据集成资源组。配置独享数据集成资源组详情请参见新增和使用独享数据集成资源组。
- 访问Hive数据源时目前仅支持使用Kerberos身份认证方式,如果访问数据源时不需要进行身份认证,则新增数据源时特殊认证方式选择无。
- 在DataWorks使用Kerberos认证身份访问Hive数据源时,如果HiveServer2与metastore均开启了kerberos认证,但是两者认证的principal存在不一致时,需要在扩展参数配置项做如下配置:
{ "hive.metastore.kerberos.principal": "your metastore principal" }
新建Hive数据源
- 进入数据源管理页面。
- 登录DataWorks控制台。
- 在左侧导航栏,单击工作空间列表。
- 选择工作空间所在地域后,鼠标悬浮至
图标,单击工作空间配置。
- 在左侧导航栏,单击 ,进入 页面。
说明 您也可以在数据集成页面进入数据源管理配置数据源,但此方式只支持生产环境的数据源。 - 在数据源管理页面,单击右上角的新增数据源。
- 在新增数据源对话框中,选择数据源类型为Hive。
- 在新增Hive数据源对话框中,配置各项参数。Hive数据源包括阿里云实例模式,连接串模式,CDH集群内置模式三种类型:
- 以新增
参数 描述 数据源类型 当前选择的数据源类型为阿里云实例模式。 数据源名称 数据源名称必须以字母、数字、下划线(_)组合,且不能以数字和下划线(_)开头。 数据源描述 对数据源进行简单描述,不得超过80个字符。 适用环境 可以选择开发或生产环境。 说明 仅标准模式工作空间会显示该配置。地区 选择相应的地域。 集群ID 您可以登录EMR控制台,查看集群ID。 EMR实例主账号ID 实例购买者登录控制台,进入安全设置页面查看实例主账号ID。 数据库名 数据库的名称。 Hive登录方式 包括用户名密码登录(LDAP)和匿名登录。 如果您选择用户名密码登录(LDAP),表示EMR Hive开启了LDAP认证,您需要输入HIVE用户名和HIVE密码。EMR Hive LDAP认证请参见使用LDAP认证。
元数据类型 元数据类型为您在开通EMR实例时选择的元数据类型,包括DLF和Hive Metastore。 如果您选择DLF,表示您的EMR元数据存储在阿里云数据湖中,阿里云数据湖构建(Data Lake Formation,简称 DLF)详细信息请参见产品简介。 对于已开通的EMR集群,您可以登录EMR控制台,在集群服务页面,输入配置项名称hive.metastore.type进行查询,若查到的结果为DLF,则EMR集群的元数据类型为DLF,否则,EMR集群的元数据类型为传统的Hive Metastore。HIVE版本 选择需要使用的Hive版本。此版本为Hive服务端的版本,目前支持Apache、CDH Hive。具体的支持版本请参见版本支持汇总。 defaultFS 若您未配置该参数,数据集成内部会自动获取参数值。若您配置了该参数,系统会优先使用数据源页面填写的配置项。defaultFS为Hadoop HDFS文件系统处于action状态的namenode节点地址, 您可以登录EMR控制台,在集群服务页面的配置项名称处输入fs.defaultFS进行查询。 扩展参数 扩展参数为Hive客户端需要额外配置的参数。例如: - 若您要同步的表为OSS外表,您需要在扩展参数一栏配置OSS相关信息。
{ "fs.oss.accessKeyId":"<yourAccessKeyId>", "fs.oss.accessKeySecret":"<yourAccessKeySecret>", "fs.oss.endpoint":"oss-cn-<yourRegion>-internal.aliyuncs.com" }
- 若您要同步的表为OSS-HDFS外表,您需要在扩展参数一栏配置OSS-HDFS的相关信息。
{ "fs.oss.accessKeyId":"<yourAccessKeyId>", "fs.oss.accessKeySecret":"<yourAccessKeySecret>", "fs.oss.endpoint":"cn-<yourRegion>.oss-dls.aliyuncs.com" }
特殊认证方式 选择数据源是否需要进行身份认证。默认选择无。目前认证方式仅支持选择Kerberos认证。关于Kerberos认证详细介绍请参见附录:配置Kerberos认证。
keytab文件 如果特殊认证方式选择为Kerberos认证,请选择需要使用的keytab文件。
如果没有可用的keytab文件,请单击新增认证文件进行添加。
conf文件 如果特殊认证方式选择为Kerberos认证,请选择需要使用的conf文件。
如果没有可用的conf文件,请单击新增认证文件进行添加。
principal 填写Kerberos认证的主体,即Kerberos账户,格式为:主名称/实例名称@领域名。例如****/hadoopclient@**.*** 。
类型的数据源为例。 - 若您要同步的表为OSS外表,您需要在扩展参数一栏配置OSS相关信息。
- 以新增
参数 描述 数据源类型 当前选择的数据源类型为连接串模式。 数据源名称 数据源名称必须以字母、数字、下划线(_)组合,且不能以数字和下划线(_)开头。 数据源描述 对数据源进行简单描述,不得超过80个字符。 适用环境 可以选择开发或生产环境。 说明 仅标准模式工作空间会显示该配置。HIVE JDBC URL Hive元数据库的JDBC URL。格式为 jdbc:hive2://ip:port/database
。如果您选择kerberos认证方式,您需要在HIVE JDBC URL配置中拼接principal,例如:
jdbc:hive2://***.**.*.***:10000/default;principal=<your principal>
。数据库名 访问的Hive数据库的名称。您可以在Hive客户端执行命令 show databases
,查看已经创建的数据库。Hive登录方式 包括用户名密码登录(LDAP)和匿名登录。 如果您选择用户名密码登录(LDAP),需要输入HIVE用户名和HIVE密码。
元数据类型 元数据类型为您在开通EMR实例时选择的元数据类型,包括DLF和Hive Metastore。 如果您选择DLF,表示您的EMR元数据存储在阿里云数据湖中,阿里云数据湖构建(Data Lake Formation,简称 DLF)详细信息请参见产品简介。 对于已开通的EMR集群,您可以登录EMR控制台,在集群服务页面,输入配置项名称hive.metastore.type进行查询,若查到的结果为DLF,则EMR集群的元数据类型为DLF,否则,EMR集群的元数据类型为传统的Hive Metastore。HIVE版本 选择需要使用的Hive版本。 metastoreUris 若您要同步的EMR Hive元数据类型为Hive MetaStore, 您可通过hive配置项hive.metastore.uris获取此值,若您要同步的EMR Hive元数据类型为DLF,您可以通过dlf.catalog.endpoint获取此值。 defaultFS 若您未配置该参数,数据集成内部会自动获取参数值。若您配置了该参数,系统会优先使用数据源页面填写的配置项。defaultFS为Hadoop HDFS文件系统处于action状态的namenode节点地址, 您可以登录EMR控制台,在集群服务页面的配置项名称处输入fs.defaultFS进行查询。 扩展参数 扩展参数为Hive客户端需要额外配置的参数。 - 若您要同步的EMR Hive集群开启了高可用,您需要在扩展参数一栏,配置HA的相关信息,格式如下。您可以在EMR控制台集群服务页面,获取相关配置值。说明 数据集成资源组无法识别EMR节点Host,您在EMR管控台获取到的配置项值若带有Host, 需要替换成对应的EMR节点IP。
{ //HA的相关配置示例如下。 "dfs.nameservices":"testDfs", "dfs.ha.namenodes.testDfs":"namenode1,namenode2", "dfs.namenode.rpc-address.testDfs.namenode1": "", "dfs.namenode.rpc-address.testDfs.namenode2": "", "dfs.client.failover.proxy.provider.testDfs":"org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider" //(可选)底层存储为OSS时,需在扩展参数中配置以下连接OSS服务所需的参数。 "fs.oss.accessKeyId":"<yourAccessKeyId>", "fs.oss.accessKeySecret":"<yourAccessKeySecret>", "fs.oss.endpoint":"oss-cn-<yourRegion>-internal.aliyuncs.com" }
- 若您要同步的表为OSS外表,您还需要在扩展参数一栏配置OSS相关信息:
{ "fs.oss.accessKeyId":"<yourAccessKeyId>", "fs.oss.accessKeySecret":"<yourAccessKeySecret>", "fs.oss.endpoint":"oss-cn-<yourRegion>-internal.aliyuncs.com" }
- 若您要同步的表为OSS-HDFS外表,您还需要在扩展参数一栏配置OSS-HDFS的相关信息:
{ "fs.oss.accessKeyId":"<yourAccessKeyId>", "fs.oss.accessKeySecret":"<yourAccessKeySecret>", "fs.oss.endpoint":"cn-<yourRegion>.oss-dls.aliyuncs.com" }
特殊认证方式 选择数据源是否需要进行身份认证。默认选择无。目前认证方式仅支持选择Kerberos认证。关于Kerberos认证详细介绍请参见附录:配置Kerberos认证。
如果您选择kerberos认证方式,您需要在HIVE JDBC URL配置中拼接principal,例如:jdbc:hive2://***.**.*.***:10000/default;principal=hive/**@**.***
。keytab文件 如果特殊认证方式选择为Kerberos认证,请选择需要使用的keytab文件。
如果没有可用的keytab文件,请单击新增认证文件进行添加。
conf文件 如果特殊认证方式选择为Kerberos认证,请选择需要使用的conf文件。
如果没有可用的conf文件,请单击新增认证文件进行添加。
principal 填写Kerberos认证的主体,即Kerberos账户,格式为:主名称/实例名称@领域名。例如****/hadoopclient@**.*** 。
类型的数据源为例。 - 若您要同步的EMR Hive集群开启了高可用,您需要在扩展参数一栏,配置HA的相关信息,格式如下。您可以在EMR控制台集群服务页面,获取相关配置值。
- 以新增
参数 描述 数据源类型 当前选择的数据源类型为CDH集群内置模式。 数据源名称 数据源名称必须以字母、数字、下划线(_)组合,且不能以数字和下划线(_)开头。 数据源描述 对数据源进行简单描述,不得超过80个字符。 适用环境 可以选择开发或生产环境。 说明 仅标准模式工作空间会显示该配置。选择CDH集群 选择需要使用的CDH集群。 特殊认证方式 选择数据源是否需要进行身份认证。默认选择无。目前认证方式仅支持选择Kerberos认证。关于Kerberos认证详细介绍请参见附录:配置Kerberos认证。
keytab文件 如果特殊认证方式选择为Kerberos认证,请选择需要使用的keytab文件。
如果没有可用的keytab文件,请单击新增认证文件进行添加。
conf文件 如果特殊认证方式选择为Kerberos认证,请选择需要使用的conf文件。
如果没有可用的conf文件,请单击新增认证文件进行添加。
principal 填写Kerberos认证的主体,即Kerberos账户,格式为:主名称/实例名称@领域名。例如****/hadoopclient@**.*** 。
类型的数据源为例。
- 以新增
- 选择资源组连通性类型为数据集成。
- 在资源组列表,单击相应资源组后的测试连通性。数据同步时,一个任务只能使用一种资源组。您需要测试每个资源组的连通性,以保证同步任务使用的数据集成资源组能够与数据源连通,否则将无法正常执行数据同步任务。如果您需要同时测试多种资源组,请选中相应资源组后,单击批量测试连通性。详情请参见配置资源组与网络连通。说明
- (推荐)资源组列表默认仅显示独享数据集成资源组,为确保数据同步的稳定性和性能要求,推荐使用独享数据集成资源组。
- 如果您需要测试公共资源组或自定义资源组的连通性,请在资源组列表右下方,单击更多选项,在警告对话框单击确定,资源组列表会显示可供选择的公共资源组和自定义资源组。
- 测试连通性通过后,单击完成。
版本支持汇总
0.8.0
0.8.1
0.9.0
0.10.0
0.11.0
0.12.0
0.13.0
0.13.1
0.14.0
1.0.0
1.0.1
1.1.0
1.1.1
1.2.0
1.2.1
1.2.2
2.0.0
2.0.1
2.1.0
2.1.1
2.2.0
2.3.0
2.3.1
2.3.2
2.3.3
2.3.4
2.3.5
2.3.6
2.3.7
3.0.0
3.1.0
3.1.1
3.1.2
0.8.1-cdh4.0.0
0.8.1-cdh4.0.1
0.9.0-cdh4.1.0
0.9.0-cdh4.1.1
0.9.0-cdh4.1.2
0.9.0-cdh4.1.3
0.9.0-cdh4.1.4
0.9.0-cdh4.1.5
0.10.0-cdh4.2.0
0.10.0-cdh4.2.1
0.10.0-cdh4.2.2
0.10.0-cdh4.3.0
0.10.0-cdh4.3.1
0.10.0-cdh4.3.2
0.10.0-cdh4.4.0
0.10.0-cdh4.5.0
0.10.0-cdh4.5.0.1
0.10.0-cdh4.5.0.2
0.10.0-cdh4.6.0
0.10.0-cdh4.7.0
0.10.0-cdh4.7.1
0.12.0-cdh5.0.0
0.12.0-cdh5.0.1
0.12.0-cdh5.0.2
0.12.0-cdh5.0.3
0.12.0-cdh5.0.4
0.12.0-cdh5.0.5
0.12.0-cdh5.0.6
0.12.0-cdh5.1.0
0.12.0-cdh5.1.2
0.12.0-cdh5.1.3
0.12.0-cdh5.1.4
0.12.0-cdh5.1.5
0.13.1-cdh5.2.0
0.13.1-cdh5.2.1
0.13.1-cdh5.2.2
0.13.1-cdh5.2.3
0.13.1-cdh5.2.4
0.13.1-cdh5.2.5
0.13.1-cdh5.2.6
0.13.1-cdh5.3.0
0.13.1-cdh5.3.1
0.13.1-cdh5.3.2
0.13.1-cdh5.3.3
0.13.1-cdh5.3.4
0.13.1-cdh5.3.5
0.13.1-cdh5.3.6
0.13.1-cdh5.3.8
0.13.1-cdh5.3.9
0.13.1-cdh5.3.10
1.1.0-cdh5.3.6
1.1.0-cdh5.4.0
1.1.0-cdh5.4.1
1.1.0-cdh5.4.2
1.1.0-cdh5.4.3
1.1.0-cdh5.4.4
1.1.0-cdh5.4.5
1.1.0-cdh5.4.7
1.1.0-cdh5.4.8
1.1.0-cdh5.4.9
1.1.0-cdh5.4.10
1.1.0-cdh5.4.11
1.1.0-cdh5.5.0
1.1.0-cdh5.5.1
1.1.0-cdh5.5.2
1.1.0-cdh5.5.4
1.1.0-cdh5.5.5
1.1.0-cdh5.5.6
1.1.0-cdh5.6.0
1.1.0-cdh5.6.1
1.1.0-cdh5.7.0
1.1.0-cdh5.7.1
1.1.0-cdh5.7.2
1.1.0-cdh5.7.3
1.1.0-cdh5.7.4
1.1.0-cdh5.7.5
1.1.0-cdh5.7.6
1.1.0-cdh5.8.0
1.1.0-cdh5.8.2
1.1.0-cdh5.8.3
1.1.0-cdh5.8.4
1.1.0-cdh5.8.5
1.1.0-cdh5.9.0
1.1.0-cdh5.9.1
1.1.0-cdh5.9.2
1.1.0-cdh5.9.3
1.1.0-cdh5.10.0
1.1.0-cdh5.10.1
1.1.0-cdh5.10.2
1.1.0-cdh5.11.0
1.1.0-cdh5.11.1
1.1.0-cdh5.11.2
1.1.0-cdh5.12.0
1.1.0-cdh5.12.1
1.1.0-cdh5.12.2
1.1.0-cdh5.13.0
1.1.0-cdh5.13.1
1.1.0-cdh5.13.2
1.1.0-cdh5.13.3
1.1.0-cdh5.14.0
1.1.0-cdh5.14.2
1.1.0-cdh5.14.4
1.1.0-cdh5.15.0
1.1.0-cdh5.16.0
1.1.0-cdh5.16.2
1.1.0-cdh5.16.99
2.1.1-cdh6.1.1
2.1.1-cdh6.2.0
2.1.1-cdh6.2.1
2.1.1-cdh6.3.0
2.1.1-cdh6.3.1
2.1.1-cdh6.3.2
2.1.1-cdh6.3.3