Trino を使用して EMR で OSS-HDFS データをクエリする方法 - Object Storage Service

このトピックでは、EMR クラスターで Trino を使用して OSS-HDFS サービスのデータをクエリする方法について説明します。

前提条件

EMR-3.46.2 以降、または EMR-5.12.2 以降のバージョンの EMR クラスターが作成済みで、Trino サービスが選択されていること。詳細については、「クラスターの作成」をご参照ください。
OSS-HDFS サービスが有効化され、アクセスが承認されていること。詳細については、「OSS-HDFS サービスの有効化」をご参照ください。

E-MapReduce コンソールにログインします。左側のナビゲーションウィンドウで、EMR on ECS をクリックして EMR クラスターを作成します。

EMR クラスターを作成する際は、Product Version が EMR-3.46.2 以降または EMR-5.12.2 以降であること、および クラスターストレージのルートパス が OSS-HDFS が有効化されたバケットに設定されていることを確認してください。その他のパラメーターはデフォルト値を使用します。詳細については、「クラスターの作成」をご参照ください。
OSS-HDFS サービスのデータをクエリします。
1. コマンドラインインターフェイス (CLI) を使用して Trino に接続します。
  
  EMR on ECS コンソールで、Services > Trino > Configure タブに移動して、Trino_server_address と Trino_server_port を取得します。
```
trino --server <Trino_server_address>:<Trino_server_port> --catalog hive
```
2. OSS にスキーマを作成します。
```
create schema testDB with (location='oss://{yourBucketName}.{yourBucketEndpoint}/{schema_dir}');
```
3. スキーマを使用します。
```
use testDB;
```
4. テーブルを作成します。
```
create table tbl (key int, val int);
```
5. テーブルにデータを挿入します。
```
insert into tbl values (1,666);
```
6. テーブルをクエリします。
```
select * from tbl;
```