Kombinasi E-MapReduce (EMR) dan Data Lake Formation (DLF) menyediakan lapisan metadata dan izin terpusat yang sepenuhnya dikelola untuk data lake Anda di Alibaba Cloud. Dengan solusi ini, Anda dapat mengimpor data dari berbagai sumber dan menjalankan kueri lintas mesin komputasi tanpa perlu mengelola penyimpanan metadata terpisah.
Setelah menyelesaikan panduan ini, Anda akan memiliki:
Kluster EMR DataLake yang sedang berjalan dengan dukungan DLF Unified Metadata
Metadata dan data yang telah diinisialisasi di data lake Anda
Kemampuan menjalankan kueri data menggunakan Spark SQL atau Presto
(Opsional) Pengelolaan izin detail halus dan aturan siklus hidup yang telah dikonfigurasi
Sebelum memulai: Langkah 2 dan 3 masing-masing memiliki beberapa jalur tergantung pada apakah Anda sudah memiliki kluster EMR atau memulai dari awal. Tentukan titik awal Anda sebelum melanjutkan.
Prasyarat
Sebelum memulai, pastikan Anda telah memiliki:
Akun Alibaba Cloud dengan EMR dan DLF yang telah diaktifkan
Object Storage Service (OSS) yang telah diaktifkan di wilayah target Anda
Izin yang cukup untuk membuat kluster EMR dan katalog DLF
Untuk daftar wilayah yang didukung, lihat Wilayah dan titik akhir yang didukung. Untuk detail penagihan, lihat Penagihan.
Cara kerja
DLF menyediakan layanan metadata lintas mesin yang sepenuhnya dikelola, menggantikan Hive metastore per kluster yang digunakan dalam penerapan EMR tradisional. Kemampuan utamanya meliputi:
| Kemampuan | Deskripsi |
|---|---|
| Manajemen metadata | Manajemen tervisualisasi dengan riwayat multi-versi dan kemampuan rollback |
| Migrasi metadata | Migrasi metadata dari kluster EMR yang sudah ada |
| Pencarian teks penuh | Pencarian di seluruh metadata |
| Profil data | Ukuran file, jumlah baris, frekuensi akses, jumlah small-file, popularitas file, jumlah file valid, dan lainnya |
| Dukungan lintas mesin | Berfungsi dengan MaxCompute, Flink, dan Hologres selain stack EMR open-source |
| Pengelolaan izin | Kontrol detail halus di tingkat katalog, database, kolom, dan fungsi; integrasi untuk Spark, Hive, Presto, dan Impala |
| Manajemen siklus hidup | Secara otomatis mengarsipkan data berdasarkan popularitas file dan waktu pembaruan, sehingga mengurangi biaya penyimpanan OSS |
| Optimisasi penyimpanan | Optimisasi otomatis untuk format Delta Lake guna mengurangi biaya penyimpanan |
Langkah 1: Buat kluster EMR DataLake
Saat membuat kluster, pilih DLF Unified Metadata untuk parameter Metadata — ini akan menghubungkan kluster ke DLF.
Masuk ke Konsol EMR. Di panel navigasi kiri, klik EMR on ECS.
Pada halaman EMR on ECS, klik Create Cluster. Pada halaman E-MapReduce on ECS, konfigurasikan parameter berikut:
Parameter Nilai Business scenario Data Lake Optional services (select one at least) Hive (wajib). Tambahkan layanan lain sesuai kebutuhan. Metadata DLF Unified Metadata DLF catalog Gunakan katalog default atau buat katalog baru. Jika DLF belum diaktifkan, Anda akan diminta untuk mengaktifkannya terlebih dahulu. Selesaikan langkah-langkah tersisa sesuai petunjuk. Untuk detailnya, lihat Buat kluster.
Langkah 2: Inisialisasi metadata
Pilih jalur yang sesuai dengan kondisi awal Anda:
Kluster EMR yang sudah ada dengan metadata di MySQL bawaan atau ApsaraDB RDS — Migrasi metadata ke DLF sebelum melanjutkan. Lihat Migrasi metadata EMR ke DLF.
Kluster EMR baru tanpa metadata historis — Buat metadata menggunakan salah satu metode berikut:
Konsol DLF (disarankan): Alternatifnya, buat database dan tabel menggunakan Hive atau Spark SQL.
Masuk ke Konsol DLF. Di bilah navigasi atas, pilih wilayah tempat OSS diaktifkan, misalnya China (Hangzhou).
Di panel navigasi kiri, pilih Metadata > Metadata.
Pada tab Database, klik Create Database.
Konfigurasikan parameter dan klik OK.
Penemuan metadata (jika data Anda sudah berada di OSS) — Gunakan fitur penemuan metadata untuk memindai OSS dan secara otomatis mendaftarkan metadata di DLF. Untuk contoh langkah demi langkah, lihat Eksplorasi data DLF - analisis perilaku pengguna Taobao.
Langkah 3: Inisialisasi data
Pilih jalur yang sesuai dengan sumber data Anda:
| Sumber data | Metode |
|---|---|
| Kluster EMR yang sudah ada (data HDFS) | Gunakan Jindo DistCp untuk memigrasi data dari kluster ke OSS. |
| Sistem layanan (RDS, MySQL, atau Apache Kafka) | Gunakan Realtime Compute for Apache Flink untuk mengalirkan data ke DLF. Lihat Kelola katalog DLF. |
Langkah 4: Jalankan kueri data menggunakan Spark SQL atau Presto
Hubungkan ke node master kluster EMR Anda melalui SSH. Lihat Masuk ke kluster untuk instruksinya.
Jalankan kueri dengan Spark SQL
Jalankan Spark SQL:
spark-sqlJalankan kueri:
SELECT * FROM <database>.<table>;
Jalankan kueri dengan Presto
DLF menggunakan namespace tiga tingkat: <catalog>.<database>.<table>. Katalog mengidentifikasi sumber data. Untuk melihat katalog yang tersedia, jalankan show catalogs; di Presto, atau periksa tab Configure pada halaman layanan Presto di Konsol EMR.
Jalankan CLI Presto, ganti
master-1-1dengan hostname node master Anda:presto --server master-1-1:8889Jalankan kueri:
SELECT * FROM <catalog>.<database>.<table>;Sebagai contoh, untuk menjalankan kueri pada tabel
testdi databasedefaultHive:SELECT * FROM hive.default.test;
(Opsional) Langkah 5: Aktifkan pengelolaan izin
Untuk data lake dengan persyaratan kontrol akses ketat, aktifkan pengelolaan izin DLF untuk menerapkan izin detail halus di seluruh data di kluster EMR Anda. Setelah diaktifkan, pengguna harus diberikan izin eksplisit sebelum dapat mengakses data apa pun.
Aktifkan pengelolaan izin DLF untuk kluster EMR Anda. Lihat DLF-Auth.
Konfigurasikan izin untuk katalog data Anda di DLF. Lihat Konfigurasikan izin.
Untuk memberikan izin kepada pengguna, lihat Otorisasi data. Untuk panduan lengkap dari awal hingga akhir, lihat Gunakan DLF dan EMR untuk mengelola izin.
(Opsional) Langkah 6: Konfigurasikan manajemen siklus hidup
Manajemen siklus hidup memungkinkan Anda menetapkan aturan retensi data untuk database dan tabel di data lake Anda. DLF mengubah kelas penyimpanan OSS untuk data yang memenuhi syarat berdasarkan tiga jenis aturan:
| Jenis aturan | Deskripsi |
|---|---|
| Waktu pembuatan | Berdasarkan waktu pembuatan partisi dan tabel |
| Waktu modifikasi terakhir | Berdasarkan waktu modifikasi terakhir partisi dan tabel |
| Nilai partisi | Berdasarkan nilai kunci partisi |
Hal ini mengurangi biaya penyimpanan jangka panjang tanpa intervensi manual. Untuk instruksi penyiapan, lihat Manajemen siklus hidup.
Langkah selanjutnya
Jelajahi fitur penemuan metadata untuk mendaftarkan data OSS secara otomatis di DLF: Eksplorasi data DLF - analisis perilaku pengguna Taobao
Pelajari cara mengelola izin dengan DLF dan EMR: Gunakan DLF dan EMR untuk mengelola izin
Tinjau detail penagihan untuk DLF: Penagihan