Akses OSS-HDFS dari EMR Hive atau Spark - Object Storage Service

OSS-HDFS (JindoFS) adalah layanan penyimpanan yang mendukung akselerasi berbasis cache dan otentikasi Ranger. OSS-HDFS tersedia untuk kluster versi berikut: E-MapReduce (EMR) V3.42 atau versi minor terbaru dan EMR V5.8.0 atau versi minor terbaru. Kluster yang menggunakan OSS-HDFS sebagai backend penyimpanan memberikan performa lebih baik dalam skenario data besar ekstrak, transformasi, dan muat (ETL), serta memungkinkan migrasi lancar dari HDFS ke OSS-HDFS. Topik ini menjelaskan cara menggunakan OSS-HDFS di EMR Hive atau Spark.

Prasyarat

OSS-HDFS diaktifkan untuk sebuah bucket dan izin diberikan kepada peran RAM untuk mengakses OSS-HDFS. Untuk informasi lebih lanjut, lihat Aktifkan OSS-HDFS dan berikan izin akses.
Secara default, Akun Alibaba Cloud memiliki izin untuk menghubungkan kluster EMR ke OSS-HDFS dan melakukan operasi umum terkait OSS-HDFS. Pengguna RAM dengan izin yang diperlukan telah dibuat. Jika Anda ingin menggunakan Pengguna RAM untuk menghubungkan kluster EMR ke OSS-HDFS, Pengguna RAM tersebut harus memiliki izin yang sesuai. Untuk informasi lebih lanjut, lihat Berikan izin kepada Pengguna RAM untuk menghubungkan kluster EMR ke OSS-HDFS.

Informasi latar belakang

OSS-HDFS adalah layanan penyimpanan data lake berbasis cloud-native. OSS-HDFS menyediakan kemampuan manajemen metadata terpadu dan sepenuhnya kompatibel dengan API HDFS. OSS-HDFS juga mendukung Antarmuka Sistem Operasi Portabel (POSIX). OSS-HDFS memungkinkan Anda mengelola data dalam berbagai skenario komputasi berbasis data lake di bidang data besar dan AI. Untuk informasi lebih lanjut, lihat Apa itu OSS-HDFS?.

Prosedur

Catatan Bagian ini menjelaskan cara menggunakan OSS-HDFS di EMR Hive. Anda juga dapat menggunakan OSS-HDFS di EMR Spark dengan mengikuti instruksi dalam topik ini.

Masuk ke kluster EMR. Untuk informasi lebih lanjut, lihat Masuk ke kluster.
Buat tabel Hive yang menunjuk ke OSS-HDFS.
1. Jalankan perintah berikut untuk membuka CLI Hive:
```
hive
```
2. Jalankan perintah berikut untuk membuat database yang menunjuk ke OSS-HDFS.
```
CREATE DATABASE if not exists dw LOCATION 'oss://{yourHdfsBucketDomain}/{path}';
```
  Deskripsi parameter:
  - dw: Nama database. Anda dapat menyesuaikan nama ini.
  - {path}: Jalur di OSS-HDFS untuk menyimpan database. Anda dapat menyesuaikan jalur ini.
  - {yourHdfsBucketDomain}: Nama domain bucket untuk layanan OSS-HDFS.
    - Untuk mengambil nama domain, masuk ke Konsol OSS. Arahkan ke bucket target. Pada tab Ikhtisar, di bagian Port Akses, salin nama domain bucket lengkap yang sesuai dengan HDFS Service.
  Catatan
  Contoh ini menggunakan nama domain OSS-HDFS sebagai awalan jalur. Jika Anda hanya ingin menggunakan nama bucket untuk menunjuk ke OSS-HDFS, Anda dapat mengonfigurasi endpoint tingkat bucket atau endpoint global. Untuk informasi lebih lanjut, lihat Lampiran 1: Cara lain untuk mengonfigurasi endpoint.
3. Jalankan perintah berikut untuk menggunakan database baru:
```
use dw;
```
4. Jalankan perintah berikut untuk membuat tabel Hive di database baru:
```
CREATE TABLE IF NOT EXISTS employee(eid int, name String,salary String,destination String)
COMMENT 'Detail karyawan';
```
Masukkan data ke tabel Hive.
Jalankan pernyataan SQL berikut untuk menulis data ke tabel Hive. Pekerjaan EMR akan dihasilkan.
```
INSERT INTO employee(eid, name, salary, destination) values(1, 'liu hua', '100.0', '');
```

Verifikasi data di tabel Hive.

SELECT * FROM employee WHERE eid = 1;

Informasi yang dikembalikan berisi data yang dimasukkan.

OK
1       liu hua 100.0
Waktu yang dibutuhkan: 12,379 detik, Diambil: 1 baris