CDH(Cloudera's Distribution, including Apache Hadoop)是眾多Hadoop發行版本中的一種,最新版本CDH6.0.1中的Hadoop3.0.0版本已經支援OSS,但CDH5中的Hadoop2.6版本不支援OSS。本文介紹如何配置CDH5支援OSS讀寫。
前提條件
擁有一個已搭建好的CDH5叢集(本文以CDH 5.14.4版本為例)。如何搭建CDH5叢集,請參見官方文檔。背景資訊
由於CDH5的httpclient和httpcore這兩個組件版本較低(4.2.5),Resource Manager要求的httpclient和httpcore必須是低版本,而OSS SDK要求這兩個組件的版本較高。因此,本文提供了一個workaround方案。
步驟一:增加OSS配置
您需要在所有的CDH節點執行以下操作:
- 查看CDH5安裝目錄${CDH_HOME}的結構:
[root@cdh-master CDH-5.14.4-1.cdh5.14.4.p0.3]# ls -lh 總用量 100K drwxr-xr-x 2 root root 4.0K 6月 12 21:03 bin drwxr-xr-x 27 root root 4.0K 6月 12 20:57 etc drwxr-xr-x 5 root root 4.0K 6月 12 20:57 include drwxr-xr-x 2 root root 68K 6月 12 21:09 jars drwxr-xr-x 38 root root 4.0K 6月 12 21:03 lib drwxr-xr-x 3 root root 4.0K 6月 12 20:57 lib64 drwxr-xr-x 3 root root 4.0K 6月 12 20:51 libexec drwxr-xr-x 2 root root 4.0K 6月 12 21:02 meta drwxr-xr-x 4 root root 4.0K 6月 12 21:03 share說明 本文中所有${}的內容為環境變數,請根據您實際的環境修改。 - 下載 CDH 5.14.4版本支援OSS的支援包至CDH5的安裝目錄中的jars檔案夾中。 該支援包是根據CDH 5.14.4中Hadoop的版本,並增加Apache Hadoop對OSS支援的補丁後編譯得到的。其他版本支援包下載地址,請參見:
- 解壓支援包。
[root@cdh-master CDH-5.14.4-1.cdh5.14.4.p0.3]# tar -tvf hadoop-oss-cdh-5.14.4.tar.gz drwxr-xr-x root/root 0 2018-10-08 18:16 hadoop-oss-cdh-5.14.4/ -rw-r--r-- root/root 13277 2018-10-08 17:36 hadoop-oss-cdh-5.14.4/aliyun-java-sdk-sts-3.0.0.jar -rw-r--r-- root/root 326724 2018-10-08 18:16 hadoop-oss-cdh-5.14.4/httpcore-4.4.4.jar -rw-r--r-- root/root 524927 2018-10-08 17:36 hadoop-oss-cdh-5.14.4/aliyun-sdk-oss-3.4.1.jar -rw-r--r-- root/root 116337 2018-10-08 17:36 hadoop-oss-cdh-5.14.4/aliyun-java-sdk-core-3.4.0.jar -rw-r--r-- root/root 215492 2018-10-08 17:36 hadoop-oss-cdh-5.14.4/aliyun-java-sdk-ram-3.0.0.jar -rw-r--r-- root/root 788137 2018-10-08 17:36 hadoop-oss-cdh-5.14.4/aliyun-java-sdk-ecs-4.2.0.jar -rw-r--r-- root/root 70017 2018-10-08 17:36 hadoop-oss-cdh-5.14.4/hadoop-aliyun-2.6.0-cdh5.14.4.jar -rw-r--r-- root/root 736658 2018-10-08 18:16 hadoop-oss-cdh-5.14.4/httpclient-4.5.2.jar - 進入${CDH_HOME}/lib/hadoop目錄,執行如下命令:
[root@cdh-master hadoop]# rm -f lib/httpclient-4.2.5.jar [root@cdh-master hadoop]# rm -f lib/httpcore-4.2.5.jar [root@cdh-master hadoop]# ln -s ../../jars/hadoop-aliyun-2.6.0-cdh5.14.4.jar hadoop-aliyun-2.6.0-cdh5.14.4.jar [root@cdh-master hadoop]# ln -s hadoop-aliyun-2.6.0-cdh5.14.4.jar hadoop-aliyun.jar [root@cdh-master hadoop]# cd lib [root@cdh-master lib]# ln -s ../../../jars/aliyun-java-sdk-core-3.4.0.jar aliyun-java-sdk-core-3.4.0.jar [root@cdh-master lib]# ln -s ../../../jars/aliyun-java-sdk-ecs-4.2.0.jar aliyun-java-sdk-ecs-4.2.0.jar [root@cdh-master lib]# ln -s ../../../jars/aliyun-java-sdk-ram-3.0.0.jar aliyun-java-sdk-ram-3.0.0.jar [root@cdh-master lib]# ln -s ../../../jars/aliyun-java-sdk-sts-3.0.0.jar aliyun-java-sdk-sts-3.0.0.jar [root@cdh-master lib]# ln -s ../../../jars/aliyun-sdk-oss-3.4.1.jar aliyun-sdk-oss-3.4.1.jar [root@cdh-master lib]# ln -s ../../../jars/httpclient-4.5.2.jar httpclient-4.5.2.jar [root@cdh-master lib]# ln -s ../../../jars/httpcore-4.4.4.jar httpcore-4.4.4.jar [root@cdh-master lib]# ln -s ../../../jars/jdom-1.1.jar jdom-1.1.jar - 進入Resurce Manager部署節點的${CDH_HOME}/lib/hadoop-yarn/bin/目錄,將yarn中的
CLASSPATH=${CLASSPATH}:$HADOOP_YARN_HOME/${YARN_DIR}/* CLASSPATH=${CLASSPATH}:$HADOOP_YARN_HOME/${YARN_LIB_JARS_DIR}/*替換為CLASSPATH=$HADOOP_YARN_HOME/${YARN_DIR}/*:${CLASSPATH}CLASSPATH=$HADOOP_YARN_HOME/${YARN_LIB_JARS_DIR}/*:${CLASSPATH}。 - 進入到Resurce Manager部署節點的${CDH_HOME}/lib/hadoop-yarn/lib目錄,執行如下命令:
[root@cdh-master lib]# ln -s ../../../jars/httpclient-4.2.5.jar httpclient-4.2.5.jar [root@cdh-master lib]# ln -s ../../../jars/httpcore-4.2.5.jar httpcore-4.2.5.jar - 通過叢集管理工具CM增加配置。若沒有CM管理的叢集,可以修改core-site.xml。以CM為例,您需要增加如下配置:

配置項 值 fs.oss.endpoint 填寫需要串連的OSS的Endpoint。 例如華東1(杭州)地址的Endpoint為
oss-cn-hangzhou.aliyuncs.com。更多地區的Endpoint資訊,請參見訪問網域名稱和資料中心。fs.oss.accessKeyId 填寫OSS的AccessKey ID。AccessKey的擷取方式,請參見建立AccessKey。 fs.oss.accessKeySecret 填寫OSS的AccessKey Secret。AccessKey的擷取方式,請參見建立AccessKey。 fs.oss.impl Hadoop OSS檔案系統實作類別。目前固定為 org.apache.hadoop.fs.aliyun.oss.AliyunOSSFileSystem。fs.oss.buffer.dir 填寫臨時檔案目錄。 建議值:
/tmp/ossfs.oss.connection.secure.enabled 是否開啟HTTPS,開啟HTTPS會影響效能。 建議值:false
fs.oss.connection.maximum 與OSS的串連數。 建議值:2048
更多參數詳情,請參見 Hadoop-Aliyun module。
- 根據CM提示重啟叢集。
- 測試讀寫OSS。
- 測試讀
hadoop fs -ls oss://${your-bucket-name}/ - 測試寫
hadoop fs -mkdir oss://${your-bucket-name}/hadoop-test若測試可以讀寫OSS,則配置成功;若無法讀寫OSS,請檢查配置。
- 測試讀
步驟二:配置Impala對OSS的支援
Impala可以直接查詢儲存在HDFS的資料,在CDH5支援OSS後,就可以直接查詢儲存在OSS的資料。OSS SDK要求這兩個組件的版本較高,所以需要在所有部署Impala的節點執行以下操作:
- 進入${CDH_HOME}/lib/impala/lib,執行如下命令:
[root@cdh-master lib]# rm -f httpclient-4.2.5.jar httpcore-4.2.5.jar [root@cdh-master lib]# ln -s ../../../jars/httpclient-4.5.2.jar httpclient-4.5.2.jar [root@cdh-master lib]# ln -s ../../../jars/httpcore-4.4.4.jar httpcore-4.4.4.jar [root@cdh-master lib]# ln -s ../../../jars/hadoop-aliyun-2.6.0-cdh5.14.4.jar hadoop-aliyun.jar [root@cdh-master lib]# ln -s ../../../jars/aliyun-java-sdk-core-3.4.0.jar aliyun-java-sdk-core-3.4.0.jar [root@cdh-master lib]# ln -s ../../../jars/aliyun-java-sdk-ecs-4.2.0.jar aliyun-java-sdk-ecs-4.2.0.jar [root@cdh-master lib]# ln -s ../../../jars/aliyun-java-sdk-ram-3.0.0.jar aliyun-java-sdk-ram-3.0.0.jar [root@cdh-master lib]# ln -s ../../../jars/aliyun-java-sdk-sts-3.0.0.jar aliyun-java-sdk-sts-3.0.0.jar [root@cdh-master lib]# ln -s ../../../jars/aliyun-sdk-oss-3.4.1.jar aliyun-sdk-oss-3.4.1.jar [root@cdh-master lib]# ln -s ../../../jars/jdom-1.1.jar jdom-1.1.jar - 進入${CDH_HOME}/bin目錄,修改impalad、statestored、catalogd三個檔案,在檔案最後一行的exec命令前,增加如下內容:
export CLASSPATH=$CLASSPATH:${IMPALA_HOME}/lib/httpclient-4.5.2.jar:${IMPALA_HOME}/lib/httpcore-4.4.4.jar:${IMPALA_HOME}/lib/hadoop-aliyun.jar:${IMPALA_HOME}/lib/aliyun-java-sdk-core-3.4.0.jar:${IMPALA_HOME}/lib/aliyun-java-sdk-ecs-4.2.0.jar:${IMPALA_HOME}/lib/aliyun-java-sdk-ram-3.0.0.jar:${IMPALA_HOME}/lib/aliyun-java-sdk-sts-3.0.0.jar:${IMPALA_HOME}/lib/aliyun-sdk-oss-3.4.1.jar:${IMPALA_HOME}/lib/jdom-1.1.jar - 重啟所有節點的impala相關進程。重啟完成後即可使用impala查詢OSS資料。
驗證配置
TPC-DS的benchmark有一張表為call_center,假設該表格儲存體在OSS中,我們可以建立一個外部表格指向它,並且查詢這張表根據cc_country分組分別有多少條記錄。
[root@cdh-master ~]# impala-shell -i cdh-slave01:21000
Starting Impala Shell without Kerberos authentication
Connected to cdh-slave01:21000
Server version: impalad version 2.11.0-cdh5.14.4 RELEASE (build20e635646a13347800fad36a7d0b1da25ab32404)
***********************************************************************************
Welcome to the Impala shell.
(Impala Shell v2.11.0-cdh5.14.4 (20e6356) built on Tue Jun 1203:43:08 PDT 2018)
The HISTORY command lists all shell commands in chronological order.
***********************************************************************************
[cdh-slave01:21000] > droptableifexists call_center;
Query: droptableifexists call_center
[cdh-slave01:21000] >
[cdh-slave01:21000] > createexternaltable call_center(
> cc_call_center_sk bigint
> , cc_call_center_id string
> , cc_rec_start_date string
> , cc_rec_end_date string
> , cc_closed_date_sk bigint
> , cc_open_date_sk bigint
> , cc_name string
> , cc_class string
> , cc_employees int
> , cc_sq_ft int
> , cc_hours string
> , cc_manager string
> , cc_mkt_id int
> , cc_mkt_class string
> , cc_mkt_desc string
> , cc_market_manager string
> , cc_division int
> , cc_division_name string
> , cc_company int
> , cc_company_name string
> , cc_street_number string
> , cc_street_name string
> , cc_street_type string
> , cc_suite_number string
> , cc_city string
> , cc_county string
> , cc_state string
> , cc_zip string
> , cc_country string
> , cc_gmt_offset double
> , cc_tax_percentage double
> )
> rowformatdelimitedfieldsterminatedby'|'
> location 'oss://${your-bucket-name}/call_center';
Query: createexternaltable call_center(
cc_call_center_sk bigint
, cc_call_center_id string
, cc_rec_start_date string
, cc_rec_end_date string
, cc_closed_date_sk bigint
, cc_open_date_sk bigint
, cc_name string
, cc_class string
, cc_employees int
, cc_sq_ft int
, cc_hours string
, cc_manager string
, cc_mkt_id int
, cc_mkt_class string
, cc_mkt_desc string
, cc_market_manager string
, cc_division int
, cc_division_name string
, cc_company int
, cc_company_name string
, cc_street_number string
, cc_street_name string
, cc_street_type string
, cc_suite_number string
, cc_city string
, cc_county string
, cc_state string
, cc_zip string
, cc_country string
, cc_gmt_offset double
, cc_tax_percentage double
)
rowformatdelimitedfieldsterminatedby'|'
location 'oss://${your-bucket-name}/call_center'
Fetched 0row(s) in0.07s
[cdh-slave01:21000] > select cc_country, count(*) from call_center groupby cc_country;
Query: select cc_country, count(*) from call_center groupby cc_country
Query submitted at: 2018-10-2816:21:13 (Coordinator: http://cdh-slave01:25000)
Query progress can be monitored at: http://cdh-slave01:25000/query_plan?query_id=fb4e09977145f367:3bdfe4d600000000
+---------------+----------+
| cc_country | count(*) |
+---------------+----------+
| United States | 30 |
+---------------+----------+
Fetched 1 row(s) in 4.71s更多參考
關於Hadoop更多內容,請參見Hadoop支援整合OSS。