Trino使用JindoSDK查询OSS-HDFS服务的数据 - 对象存储 OSS

Trino是一个开源的分布式SQL查询引擎，适用于交互式分析查询。本文介绍Trino如何使用JindoSDK查询OSS-HDFS服务中的数据。

前提条件

以部署环境为阿里云ECS为例，需要选购ECS实例。
已创建Hadoop环境。具体步骤，请参见创建Hadoop运行环境。
已部署Trino。具体操作，请参见部署Trino。
已开通并授权访问OSS-HDFS服务。具体操作，请参见开通OSS-HDFS服务。

操作步骤

连接ECS实例。具体操作，请参见连接ECS实例。
配置JindoSDK。
1. 下载最新版本的JindoSDK JAR包。下载地址，请参见GitHub。
2. 解压JindoSDK JAR包。
  以下以解压jindosdk-x.x.x-linux.tar.gz为例，如使用其他版本的JindoSDK，请替换为对应的JAR包名称。
```
tar zxvf jindosdk-x.x.x-linux.tar.gz
```
  说明
  x.x.x表示JindoSDK JAR包版本号。
3. 将已下载的JindoSDK JAR包安装到Trino的classpath路径下。
```
cp jindosdk-x.x.x-linux/lib/*.jar  $Trino_HOME/plugin/hive-hadoop2/
```

配置OSS-HDFS服务实现类及AccessKey。

将OSS-HDFS服务实现类配置到Trino所有节点上的Hadoop配置文件core-site.xml中。

<configuration>
    <property>
        <name>fs.AbstractFileSystem.oss.impl</name>
        <value>com.aliyun.jindodata.oss.JindoOSS</value>
    </property>

    <property>
        <name>fs.oss.impl</name>
        <value>com.aliyun.jindodata.oss.JindoOssFileSystem</value>
    </property>
</configuration>

将已开启OSS-HDFS服务的Bucket对应的AccessKey ID、AccessKey Secret配置到Trino所有节点上的Hadoop配置文件core-site.xml文件中。

<configuration>
    <property>
        <name>fs.oss.accessKeyId</name>
        <value>LTAI********</value>
    </property>

    <property>
        <name>fs.oss.accessKeySecret</name>
        <value>KZo1********</value>
    </property>
</configuration>

配置OSS-HDFS服务Endpoint。
使用OSS-HDFS服务访问OSS Bucket时需要配置Endpoint。推荐访问路径格式为oss://{yourBucketName}.{yourBucketEndpoint}/{path}，例如oss://examplebucket.cn-shanghai.oss-dls.aliyuncs.com/exampleobject.txt。配置完成后，JindoSDK会根据访问路径中的Endpoint访问对应的OSS-HDFS服务接口。
您还可以通过其他方式配置OSS-HDFS服务Endpoint，且不同方式配置的Endpoint存在生效优先级。更多信息，请参见附录一：配置Endpoint的其他方式。
重要
完成以上配置后，您需要重启Trino服务，使配置生效。
查询OSS-HDFS服务中的数据。
以下以常用的Hive catalog为例，使用Trino创建一个OSS中的schema，并执行简单的SQL查询示例。由于Trino依赖Hive Metastore，因此Hive服务也需要安装并部署JindoSDK。具体操作，请参见Hive使用JindoSDK处理OSS-HDFS服务中的数据。
1. 登录Trino控制台。
```
trino --server <Trino_server_address>:<Trino_server_port> --catalog hive
```
2. 创建OSS中的schema。
```
create schema testDB with (location='oss://{yourBucketName}.{yourBucketEndpoint}/{schema_dir}');
```
3. 使用schema。
```
use testDB;
```
4. 创建表。
```
create table tbl (key int, val int);
```
5. 往表中插入数据。
```
insert into tbl values (1,666);
```
6. 查询表。
```
select * from tbl;
```