Bangun Data Lake Skalabel dengan EMR dan DLF - Data Lake Formation

Kombinasi E-MapReduce (EMR) dan Data Lake Formation (DLF) menyediakan lapisan metadata dan izin terpusat yang sepenuhnya dikelola untuk data lake Anda di Alibaba Cloud. Dengan solusi ini, Anda dapat mengimpor data dari berbagai sumber dan menjalankan kueri lintas mesin komputasi tanpa perlu mengelola penyimpanan metadata terpisah.

Setelah menyelesaikan panduan ini, Anda akan memiliki:

Kluster EMR DataLake yang sedang berjalan dengan dukungan DLF Unified Metadata
Metadata dan data yang telah diinisialisasi di data lake Anda
Kemampuan menjalankan kueri data menggunakan Spark SQL atau Presto
(Opsional) Pengelolaan izin detail halus dan aturan siklus hidup yang telah dikonfigurasi

Sebelum memulai: Langkah 2 dan 3 masing-masing memiliki beberapa jalur tergantung pada apakah Anda sudah memiliki kluster EMR atau memulai dari awal. Tentukan titik awal Anda sebelum melanjutkan.

Prasyarat

Sebelum memulai, pastikan Anda telah memiliki:

Akun Alibaba Cloud dengan EMR dan DLF yang telah diaktifkan
Object Storage Service (OSS) yang telah diaktifkan di wilayah target Anda
Izin yang cukup untuk membuat kluster EMR dan katalog DLF

Untuk daftar wilayah yang didukung, lihat Wilayah dan titik akhir yang didukung. Untuk detail penagihan, lihat Penagihan.

Cara kerja

DLF menyediakan layanan metadata lintas mesin yang sepenuhnya dikelola, menggantikan Hive metastore per kluster yang digunakan dalam penerapan EMR tradisional. Kemampuan utamanya meliputi:

Kemampuan	Deskripsi
Manajemen metadata	Manajemen tervisualisasi dengan riwayat multi-versi dan kemampuan rollback
Migrasi metadata	Migrasi metadata dari kluster EMR yang sudah ada
Pencarian teks penuh	Pencarian di seluruh metadata
Profil data	Ukuran file, jumlah baris, frekuensi akses, jumlah small-file, popularitas file, jumlah file valid, dan lainnya
Dukungan lintas mesin	Berfungsi dengan MaxCompute, Flink, dan Hologres selain stack EMR open-source
Pengelolaan izin	Kontrol detail halus di tingkat katalog, database, kolom, dan fungsi; integrasi untuk Spark, Hive, Presto, dan Impala
Manajemen siklus hidup	Secara otomatis mengarsipkan data berdasarkan popularitas file dan waktu pembaruan, sehingga mengurangi biaya penyimpanan OSS
Optimisasi penyimpanan	Optimisasi otomatis untuk format Delta Lake guna mengurangi biaya penyimpanan

Langkah 1: Buat kluster EMR DataLake

Saat membuat kluster, pilih DLF Unified Metadata untuk parameter Metadata — ini akan menghubungkan kluster ke DLF.

Masuk ke Konsol EMR. Di panel navigasi kiri, klik EMR on ECS.

Pada halaman EMR on ECS, klik Create Cluster. Pada halaman E-MapReduce on ECS, konfigurasikan parameter berikut:

Parameter	Nilai
Business scenario	Data Lake
Optional services (select one at least)	Hive (wajib). Tambahkan layanan lain sesuai kebutuhan.
Metadata	DLF Unified Metadata
DLF catalog	Gunakan katalog default atau buat katalog baru. Jika DLF belum diaktifkan, Anda akan diminta untuk mengaktifkannya terlebih dahulu.

Selesaikan langkah-langkah tersisa sesuai petunjuk. Untuk detailnya, lihat Buat kluster.

Langkah 2: Inisialisasi metadata

Pilih jalur yang sesuai dengan kondisi awal Anda:

Kluster EMR yang sudah ada dengan metadata di MySQL bawaan atau ApsaraDB RDS — Migrasi metadata ke DLF sebelum melanjutkan. Lihat Migrasi metadata EMR ke DLF.
Kluster EMR baru tanpa metadata historis — Buat metadata menggunakan salah satu metode berikut:
- Konsol DLF (disarankan): Alternatifnya, buat database dan tabel menggunakan Hive atau Spark SQL.
  1. Masuk ke Konsol DLF. Di bilah navigasi atas, pilih wilayah tempat OSS diaktifkan, misalnya China (Hangzhou).
  2. Di panel navigasi kiri, pilih Metadata > Metadata.
  3. Pada tab Database, klik Create Database.
  4. Konfigurasikan parameter dan klik OK.
- Penemuan metadata (jika data Anda sudah berada di OSS) — Gunakan fitur penemuan metadata untuk memindai OSS dan secara otomatis mendaftarkan metadata di DLF. Untuk contoh langkah demi langkah, lihat Eksplorasi data DLF - analisis perilaku pengguna Taobao.

Langkah 3: Inisialisasi data

Pilih jalur yang sesuai dengan sumber data Anda:

Sumber data	Metode
Kluster EMR yang sudah ada (data HDFS)	Gunakan Jindo DistCp untuk memigrasi data dari kluster ke OSS.
Sistem layanan (RDS, MySQL, atau Apache Kafka)	Gunakan Realtime Compute for Apache Flink untuk mengalirkan data ke DLF. Lihat Kelola katalog DLF.

Langkah 4: Jalankan kueri data menggunakan Spark SQL atau Presto

Hubungkan ke node master kluster EMR Anda melalui SSH. Lihat Masuk ke kluster untuk instruksinya.

Jalankan kueri dengan Spark SQL

Jalankan Spark SQL:
```
spark-sql
```
Jalankan kueri:
```
SELECT * FROM <database>.<table>;
```

Jalankan kueri dengan Presto

DLF menggunakan namespace tiga tingkat: <catalog>.<database>.<table>. Katalog mengidentifikasi sumber data. Untuk melihat katalog yang tersedia, jalankan show catalogs; di Presto, atau periksa tab Configure pada halaman layanan Presto di Konsol EMR.

Jalankan CLI Presto, ganti master-1-1 dengan hostname node master Anda:
```
presto --server master-1-1:8889
```
Jalankan kueri:
```
SELECT * FROM <catalog>.<database>.<table>;
```
Sebagai contoh, untuk menjalankan kueri pada tabel test di database default Hive:
```
SELECT * FROM hive.default.test;
```

(Opsional) Langkah 5: Aktifkan pengelolaan izin

Untuk data lake dengan persyaratan kontrol akses ketat, aktifkan pengelolaan izin DLF untuk menerapkan izin detail halus di seluruh data di kluster EMR Anda. Setelah diaktifkan, pengguna harus diberikan izin eksplisit sebelum dapat mengakses data apa pun.

Aktifkan pengelolaan izin DLF untuk kluster EMR Anda. Lihat DLF-Auth.
Konfigurasikan izin untuk katalog data Anda di DLF. Lihat Konfigurasikan izin.

Untuk memberikan izin kepada pengguna, lihat Otorisasi data. Untuk panduan lengkap dari awal hingga akhir, lihat Gunakan DLF dan EMR untuk mengelola izin.

(Opsional) Langkah 6: Konfigurasikan manajemen siklus hidup

Manajemen siklus hidup memungkinkan Anda menetapkan aturan retensi data untuk database dan tabel di data lake Anda. DLF mengubah kelas penyimpanan OSS untuk data yang memenuhi syarat berdasarkan tiga jenis aturan:

Jenis aturan	Deskripsi
Waktu pembuatan	Berdasarkan waktu pembuatan partisi dan tabel
Waktu modifikasi terakhir	Berdasarkan waktu modifikasi terakhir partisi dan tabel
Nilai partisi	Berdasarkan nilai kunci partisi

Hal ini mengurangi biaya penyimpanan jangka panjang tanpa intervensi manual. Untuk instruksi penyiapan, lihat Manajemen siklus hidup.

Langkah selanjutnya

Jelajahi fitur penemuan metadata untuk mendaftarkan data OSS secara otomatis di DLF: Eksplorasi data DLF - analisis perilaku pengguna Taobao
Pelajari cara mengelola izin dengan DLF dan EMR: Gunakan DLF dan EMR untuk mengelola izin
Tinjau detail penagihan untuk DLF: Penagihan