All Products
Search
Document Center

Data Lake Formation:Gunakan solusi data lake EMR+DLF

Last Updated:Mar 26, 2026

Kombinasi E-MapReduce (EMR) dan Data Lake Formation (DLF) menyediakan lapisan metadata dan izin terpusat yang sepenuhnya dikelola untuk data lake Anda di Alibaba Cloud. Dengan solusi ini, Anda dapat mengimpor data dari berbagai sumber dan menjalankan kueri lintas mesin komputasi tanpa perlu mengelola penyimpanan metadata terpisah.

Setelah menyelesaikan panduan ini, Anda akan memiliki:

  • Kluster EMR DataLake yang sedang berjalan dengan dukungan DLF Unified Metadata

  • Metadata dan data yang telah diinisialisasi di data lake Anda

  • Kemampuan menjalankan kueri data menggunakan Spark SQL atau Presto

  • (Opsional) Pengelolaan izin detail halus dan aturan siklus hidup yang telah dikonfigurasi

Sebelum memulai: Langkah 2 dan 3 masing-masing memiliki beberapa jalur tergantung pada apakah Anda sudah memiliki kluster EMR atau memulai dari awal. Tentukan titik awal Anda sebelum melanjutkan.

Prasyarat

Sebelum memulai, pastikan Anda telah memiliki:

  • Akun Alibaba Cloud dengan EMR dan DLF yang telah diaktifkan

  • Object Storage Service (OSS) yang telah diaktifkan di wilayah target Anda

  • Izin yang cukup untuk membuat kluster EMR dan katalog DLF

Untuk daftar wilayah yang didukung, lihat Wilayah dan titik akhir yang didukung. Untuk detail penagihan, lihat Penagihan.

Cara kerja

DLF menyediakan layanan metadata lintas mesin yang sepenuhnya dikelola, menggantikan Hive metastore per kluster yang digunakan dalam penerapan EMR tradisional. Kemampuan utamanya meliputi:

KemampuanDeskripsi
Manajemen metadataManajemen tervisualisasi dengan riwayat multi-versi dan kemampuan rollback
Migrasi metadataMigrasi metadata dari kluster EMR yang sudah ada
Pencarian teks penuhPencarian di seluruh metadata
Profil dataUkuran file, jumlah baris, frekuensi akses, jumlah small-file, popularitas file, jumlah file valid, dan lainnya
Dukungan lintas mesinBerfungsi dengan MaxCompute, Flink, dan Hologres selain stack EMR open-source
Pengelolaan izinKontrol detail halus di tingkat katalog, database, kolom, dan fungsi; integrasi untuk Spark, Hive, Presto, dan Impala
Manajemen siklus hidupSecara otomatis mengarsipkan data berdasarkan popularitas file dan waktu pembaruan, sehingga mengurangi biaya penyimpanan OSS
Optimisasi penyimpananOptimisasi otomatis untuk format Delta Lake guna mengurangi biaya penyimpanan

Langkah 1: Buat kluster EMR DataLake

Saat membuat kluster, pilih DLF Unified Metadata untuk parameter Metadata — ini akan menghubungkan kluster ke DLF.

  1. Masuk ke Konsol EMR. Di panel navigasi kiri, klik EMR on ECS.

  2. Pada halaman EMR on ECS, klik Create Cluster. Pada halaman E-MapReduce on ECS, konfigurasikan parameter berikut:

    ParameterNilai
    Business scenarioData Lake
    Optional services (select one at least)Hive (wajib). Tambahkan layanan lain sesuai kebutuhan.
    MetadataDLF Unified Metadata
    DLF catalogGunakan katalog default atau buat katalog baru. Jika DLF belum diaktifkan, Anda akan diminta untuk mengaktifkannya terlebih dahulu.
  3. Selesaikan langkah-langkah tersisa sesuai petunjuk. Untuk detailnya, lihat Buat kluster.

Langkah 2: Inisialisasi metadata

Pilih jalur yang sesuai dengan kondisi awal Anda:

  • Kluster EMR yang sudah ada dengan metadata di MySQL bawaan atau ApsaraDB RDS — Migrasi metadata ke DLF sebelum melanjutkan. Lihat Migrasi metadata EMR ke DLF.

  • Kluster EMR baru tanpa metadata historis — Buat metadata menggunakan salah satu metode berikut:

    • Konsol DLF (disarankan): Alternatifnya, buat database dan tabel menggunakan Hive atau Spark SQL.

      1. Masuk ke Konsol DLF. Di bilah navigasi atas, pilih wilayah tempat OSS diaktifkan, misalnya China (Hangzhou).

      2. Di panel navigasi kiri, pilih Metadata > Metadata.

      3. Pada tab Database, klik Create Database.

      4. Konfigurasikan parameter dan klik OK.

    • Penemuan metadata (jika data Anda sudah berada di OSS) — Gunakan fitur penemuan metadata untuk memindai OSS dan secara otomatis mendaftarkan metadata di DLF. Untuk contoh langkah demi langkah, lihat Eksplorasi data DLF - analisis perilaku pengguna Taobao.

Langkah 3: Inisialisasi data

Pilih jalur yang sesuai dengan sumber data Anda:

Sumber dataMetode
Kluster EMR yang sudah ada (data HDFS)Gunakan Jindo DistCp untuk memigrasi data dari kluster ke OSS.
Sistem layanan (RDS, MySQL, atau Apache Kafka)Gunakan Realtime Compute for Apache Flink untuk mengalirkan data ke DLF. Lihat Kelola katalog DLF.

Langkah 4: Jalankan kueri data menggunakan Spark SQL atau Presto

Hubungkan ke node master kluster EMR Anda melalui SSH. Lihat Masuk ke kluster untuk instruksinya.

Jalankan kueri dengan Spark SQL

  1. Jalankan Spark SQL:

    spark-sql
  2. Jalankan kueri:

    SELECT * FROM <database>.<table>;

Jalankan kueri dengan Presto

DLF menggunakan namespace tiga tingkat: <catalog>.<database>.<table>. Katalog mengidentifikasi sumber data. Untuk melihat katalog yang tersedia, jalankan show catalogs; di Presto, atau periksa tab Configure pada halaman layanan Presto di Konsol EMR.

  1. Jalankan CLI Presto, ganti master-1-1 dengan hostname node master Anda:

    presto --server master-1-1:8889
  2. Jalankan kueri:

    SELECT * FROM <catalog>.<database>.<table>;

    Sebagai contoh, untuk menjalankan kueri pada tabel test di database default Hive:

    SELECT * FROM hive.default.test;

(Opsional) Langkah 5: Aktifkan pengelolaan izin

Untuk data lake dengan persyaratan kontrol akses ketat, aktifkan pengelolaan izin DLF untuk menerapkan izin detail halus di seluruh data di kluster EMR Anda. Setelah diaktifkan, pengguna harus diberikan izin eksplisit sebelum dapat mengakses data apa pun.

  1. Aktifkan pengelolaan izin DLF untuk kluster EMR Anda. Lihat DLF-Auth.

  2. Konfigurasikan izin untuk katalog data Anda di DLF. Lihat Konfigurasikan izin.

Untuk memberikan izin kepada pengguna, lihat Otorisasi data. Untuk panduan lengkap dari awal hingga akhir, lihat Gunakan DLF dan EMR untuk mengelola izin.

(Opsional) Langkah 6: Konfigurasikan manajemen siklus hidup

Manajemen siklus hidup memungkinkan Anda menetapkan aturan retensi data untuk database dan tabel di data lake Anda. DLF mengubah kelas penyimpanan OSS untuk data yang memenuhi syarat berdasarkan tiga jenis aturan:

Jenis aturanDeskripsi
Waktu pembuatanBerdasarkan waktu pembuatan partisi dan tabel
Waktu modifikasi terakhirBerdasarkan waktu modifikasi terakhir partisi dan tabel
Nilai partisiBerdasarkan nilai kunci partisi

Hal ini mengurangi biaya penyimpanan jangka panjang tanpa intervensi manual. Untuk instruksi penyiapan, lihat Manajemen siklus hidup.

Langkah selanjutnya