Tema ini menjelaskan cara memulai menggunakan Data Lake Formation (DLF).
Prasyarat
Semua data dalam danau data yang dibuat menggunakan DLF disimpan di Object Storage Service (OSS). Anda harus menentukan Bucket OSS atau jalur OSS untuk menyimpan data danau. Untuk informasi lebih lanjut, lihat Buat bucket.
Beranda
Beranda dari konsol DLF terdiri dari panel navigasi sisi kiri dan bagian informasi DLF. Konsol DLF menyediakan tautan cepat untuk menggunakan fitur utama DLF, membantu Anda memulai dengan mudah.
Pengenalan Fitur
DLF terintegrasi dengan layanan metadata, manajemen izin, manajemen danau, dan fitur eksplorasi data untuk menyediakan metadata terpadu, manajemen izin, manajemen keamanan, serta kemampuan eksplorasi data satu klik.
Manajemen Metadata
Manajemen metadata adalah fitur kunci untuk membangun danau data secara efisien. Anda dapat mengelola metadata secara terpusat dan sistematis. Hal ini dapat meningkatkan nilai dan ketersediaan aset data secara signifikan. Anda dapat menggunakan fitur manajemen metadata untuk mengelola katalog, database, dan tabel di danau data.
Buat katalog
Masuk ke konsol DLF.
Di panel navigasi sisi kiri, pilih .
Klik tab Catalog List, kemudian klik New Catalog.
Masukkan informasi berikut ke dalam kotak input, lalu klik OK.
Catalog ID: Wajib. Ini adalah pengenal unik dan tidak boleh diduplikasi.
Description: Opsional. Masukkan deskripsi jika diperlukan.
Location: Opsional. Masukkan jalur penyimpanan default. Hanya jalur Object Storage Service (OSS) yang didukung.
Untuk informasi lebih lanjut tentang operasi yang dapat Anda lakukan pada katalog, lihat Data Catalog.
Buat database
Masuk ke konsol Data Lake Formation.
Di panel navigasi sisi kiri, pilih .
Klik tab Database, pilih Catalog List target, lalu klik Create Database.
Konfigurasikan informasi database berikut, lalu klik OK.
Parameter
Deskripsi
Catalog
Pilih katalog data.
Database Name
Masukkan nama database.
Database Description
Opsional. Masukkan deskripsi database.
Select Path
Tentukan jalur Object Storage Service (OSS). Anda dapat menyimpan metadata di OSS untuk memastikan keamanan dan keandalan metadata. Ini memungkinkan Anda mengelola dan memelihara metadata secara terpusat.
CatatanHanya bucket OSS dari kelas penyimpanan Standar yang didukung. Jika bucket OSS dari kelas penyimpanan Standar belum dibuat di wilayah saat ini, buat bucket OSS di konsol OSS.
Buat tabel
Setelah membuat database, klik tab Table, pilih Catalog List target dan Database Name, lalu klik Create Table.
Konfigurasikan informasi tabel data berikut, lalu klik OK.
Parameter
Deskripsi
Table Name
Masukkan nama tabel.
Catalog
Pilih katalog data.
Database
Pilih database di bawah katalog data.
Table Description
Opsional. Masukkan deskripsi tabel.
Data Storage Location
Pilih lokasi tempat data dalam tabel disimpan.
Kami merekomendasikan lokasi penyimpanan default adalah
oss://[Lokasi Penyimpanan Database]/[Nama Tabel].Format and Serialization
Pilih format data tabel. Format Avro, CSV, JSON, Parquet, dan ORC didukung.
Delimiter
Opsional. Saat format data adalah CSV, pilih pemisah untuk tabel.
Common Column
Tentukan kolom umum dan kolom kunci partisi tabel secara manual. Tentukan informasi kolom, termasuk nama kolom, tipe data, dan deskripsi.
Partition Key Column
Untuk informasi lebih lanjut tentang operasi yang dapat Anda lakukan pada database dan tabel, lihat Tabel database dan fungsi.
Ekstraksi metadata
Ekstraksi metadata membantu Anda menganalisis data di danau data dalam format tertentu dan secara otomatis menghasilkan informasi metadata. Untuk informasi lebih lanjut, lihat Penemuan metadata.
Migrasi metadata
DLF memungkinkan Anda memigrasi metadata dari Hive metastore ke danau data dengan cepat. Untuk informasi lebih lanjut, lihat Migrasi metadata.
Manajemen Izin
Izin DLF dibagi menjadi dua kategori utama: izin RAM dan izin data DLF. Anda perlu melewati dua tingkat verifikasi izin sebelum dapat mengakses halaman atau data.
Izin RAM: mengontrol akses ke semua Operasi API DLF dan menentukan apakah pengguna RAM dapat mengakses Operasi API DLF atau halaman tertentu. Untuk informasi lebih lanjut, lihat Deskripsi izin.
Izin data DLF: Mengontrol akses dan penggunaan sumber daya internal DLF, termasuk database, tabel, kolom, fungsi, dan katalog.
Untuk informasi lebih lanjut tentang izin data, lihat Izin data.
Untuk informasi lebih lanjut tentang otorisasi, lihat Otorisasi data.
Manajemen Danau
Kemampuan manajemen danau mencakup hosting lokasi, gambaran penyimpanan, manajemen siklus hidup, manajemen format danau, dan izin penyimpanan. Setelah implementasi hosting lokasi, Anda dapat menggunakan DLF untuk melakukan manajemen danau data secara komprehensif.
Hosting lokasi memungkinkan Anda mengelola dan menganalisis data yang disimpan di OSS. Untuk informasi lebih lanjut, lihat Hosting lokasi.
Gambaran penyimpanan memungkinkan Anda melakukan analisis data sumber dan analisis lokasi, membantu Anda mendapatkan penggunaan saat ini dari sumber daya penyimpanan, mengidentifikasi masalah potensial, dan mengambil langkah optimasi sedini mungkin. Untuk informasi lebih lanjut, lihat Gambaran penyimpanan.
Manajemen siklus hidup memungkinkan Anda mengonfigurasi aturan untuk mengelola data di danau data. Untuk informasi lebih lanjut, lihat Manajemen siklus hidup.
Manajemen format danau memungkinkan Anda mengonfigurasi kebijakan untuk mengoptimalkan format danau. Untuk informasi lebih lanjut, lihat Manajemen format danau.
Praktik Terbaik
DLF memungkinkan Anda mengelola metadata dan izin di danau data. DLF dapat bekerja sama dengan E-MapReduce (EMR), Realtime Compute for Apache Flink, dan MaxCompute untuk mengekstrak dan memigrasi metadata secara efisien, serta mengimpor data ke danau data.