全部产品
Search
文档中心

Data Lake Formation:Memulai

更新时间:Jul 06, 2025

Tema ini menjelaskan cara memulai menggunakan Data Lake Formation (DLF).

Prasyarat

Semua data dalam danau data yang dibuat menggunakan DLF disimpan di Object Storage Service (OSS). Anda harus menentukan Bucket OSS atau jalur OSS untuk menyimpan data danau. Untuk informasi lebih lanjut, lihat Buat bucket.

Beranda

Beranda dari konsol DLF terdiri dari panel navigasi sisi kiri dan bagian informasi DLF. Konsol DLF menyediakan tautan cepat untuk menggunakan fitur utama DLF, membantu Anda memulai dengan mudah.

Pengenalan Fitur

DLF terintegrasi dengan layanan metadata, manajemen izin, manajemen danau, dan fitur eksplorasi data untuk menyediakan metadata terpadu, manajemen izin, manajemen keamanan, serta kemampuan eksplorasi data satu klik.

Manajemen Metadata

Manajemen metadata adalah fitur kunci untuk membangun danau data secara efisien. Anda dapat mengelola metadata secara terpusat dan sistematis. Hal ini dapat meningkatkan nilai dan ketersediaan aset data secara signifikan. Anda dapat menggunakan fitur manajemen metadata untuk mengelola katalog, database, dan tabel di danau data.

Buat katalog

  1. Masuk ke konsol DLF.

  2. Di panel navigasi sisi kiri, pilih Metadata > Metadata.

  3. Klik tab Catalog List, kemudian klik New Catalog.

  4. Masukkan informasi berikut ke dalam kotak input, lalu klik OK.

    • Catalog ID: Wajib. Ini adalah pengenal unik dan tidak boleh diduplikasi.

    • Description: Opsional. Masukkan deskripsi jika diperlukan.

    • Location: Opsional. Masukkan jalur penyimpanan default. Hanya jalur Object Storage Service (OSS) yang didukung.

Untuk informasi lebih lanjut tentang operasi yang dapat Anda lakukan pada katalog, lihat Data Catalog.

Buat database

  1. Masuk ke konsol Data Lake Formation.

  2. Di panel navigasi sisi kiri, pilih Metadata > Metadata.

  3. Klik tab Database, pilih Catalog List target, lalu klik Create Database.

  4. Konfigurasikan informasi database berikut, lalu klik OK.

    Parameter

    Deskripsi

    Catalog

    Pilih katalog data.

    Database Name

    Masukkan nama database.

    Database Description

    Opsional. Masukkan deskripsi database.

    Select Path

    Tentukan jalur Object Storage Service (OSS). Anda dapat menyimpan metadata di OSS untuk memastikan keamanan dan keandalan metadata. Ini memungkinkan Anda mengelola dan memelihara metadata secara terpusat.

    Catatan

    Hanya bucket OSS dari kelas penyimpanan Standar yang didukung. Jika bucket OSS dari kelas penyimpanan Standar belum dibuat di wilayah saat ini, buat bucket OSS di konsol OSS.

Buat tabel

  1. Setelah membuat database, klik tab Table, pilih Catalog List target dan Database Name, lalu klik Create Table.

  2. Konfigurasikan informasi tabel data berikut, lalu klik OK.

    Parameter

    Deskripsi

    Table Name

    Masukkan nama tabel.

    Catalog

    Pilih katalog data.

    Database

    Pilih database di bawah katalog data.

    Table Description

    Opsional. Masukkan deskripsi tabel.

    Data Storage Location

    Pilih lokasi tempat data dalam tabel disimpan.

    Kami merekomendasikan lokasi penyimpanan default adalah oss://[Lokasi Penyimpanan Database]/[Nama Tabel].

    Format and Serialization

    Pilih format data tabel. Format Avro, CSV, JSON, Parquet, dan ORC didukung.

    Delimiter

    Opsional. Saat format data adalah CSV, pilih pemisah untuk tabel.

    Common Column

    Tentukan kolom umum dan kolom kunci partisi tabel secara manual. Tentukan informasi kolom, termasuk nama kolom, tipe data, dan deskripsi.

    Partition Key Column

Untuk informasi lebih lanjut tentang operasi yang dapat Anda lakukan pada database dan tabel, lihat Tabel database dan fungsi.

Ekstraksi metadata

Ekstraksi metadata membantu Anda menganalisis data di danau data dalam format tertentu dan secara otomatis menghasilkan informasi metadata. Untuk informasi lebih lanjut, lihat Penemuan metadata.

Migrasi metadata

DLF memungkinkan Anda memigrasi metadata dari Hive metastore ke danau data dengan cepat. Untuk informasi lebih lanjut, lihat Migrasi metadata.

Manajemen Izin

Izin DLF dibagi menjadi dua kategori utama: izin RAM dan izin data DLF. Anda perlu melewati dua tingkat verifikasi izin sebelum dapat mengakses halaman atau data.

  • Izin RAM: mengontrol akses ke semua Operasi API DLF dan menentukan apakah pengguna RAM dapat mengakses Operasi API DLF atau halaman tertentu. Untuk informasi lebih lanjut, lihat Deskripsi izin.

  • Izin data DLF: Mengontrol akses dan penggunaan sumber daya internal DLF, termasuk database, tabel, kolom, fungsi, dan katalog.

    • Untuk informasi lebih lanjut tentang izin data, lihat Izin data.

    • Untuk informasi lebih lanjut tentang otorisasi, lihat Otorisasi data.

Manajemen Danau

Kemampuan manajemen danau mencakup hosting lokasi, gambaran penyimpanan, manajemen siklus hidup, manajemen format danau, dan izin penyimpanan. Setelah implementasi hosting lokasi, Anda dapat menggunakan DLF untuk melakukan manajemen danau data secara komprehensif.

  • Hosting lokasi memungkinkan Anda mengelola dan menganalisis data yang disimpan di OSS. Untuk informasi lebih lanjut, lihat Hosting lokasi.

  • Gambaran penyimpanan memungkinkan Anda melakukan analisis data sumber dan analisis lokasi, membantu Anda mendapatkan penggunaan saat ini dari sumber daya penyimpanan, mengidentifikasi masalah potensial, dan mengambil langkah optimasi sedini mungkin. Untuk informasi lebih lanjut, lihat Gambaran penyimpanan.

  • Manajemen siklus hidup memungkinkan Anda mengonfigurasi aturan untuk mengelola data di danau data. Untuk informasi lebih lanjut, lihat Manajemen siklus hidup.

  • Manajemen format danau memungkinkan Anda mengonfigurasi kebijakan untuk mengoptimalkan format danau. Untuk informasi lebih lanjut, lihat Manajemen format danau.

Praktik Terbaik

DLF memungkinkan Anda mengelola metadata dan izin di danau data. DLF dapat bekerja sama dengan E-MapReduce (EMR), Realtime Compute for Apache Flink, dan MaxCompute untuk mengekstrak dan memigrasi metadata secara efisien, serta mengimpor data ke danau data.