Bangun Katalog DLF dan Ingest Data dengan Flink CDC - Data Lake Formation

Topik ini menjelaskan cara memulai dengan Data Lake Formation (DLF).

Prasyarat

Anda telah Mengatur DLF.
Catatan
Aktivasi dan otorisasi dilakukan hanya sekali saat Anda pertama kali mengatur lingkungan DLF.
Untuk mengelola katalog sebagai Pengguna RAM, Anda memerlukan izin berikut:
- Izin API: Anda telah diberikan kebijakan izin AliyunDLFFullAccess atau kebijakan yang berisi aksi otorisasi terkait katalog. Untuk informasi lebih lanjut, lihat Referensi aksi otorisasi RAM.
- Izin data: Anda harus diberi peran sistem super_administrator atau admin atau peran kustom yang memiliki izin terkait katalog. Untuk informasi lebih lanjut, lihat Konfigurasi izin data.

Buat katalog

Buat katalog berdasarkan kasus penggunaan, volume data, keandalan layanan, dan persyaratan anggaran Anda.

Masuk ke Konsol DLF.

Di halaman Catalogs, klik Create Catalog dan konfigurasikan parameter berikut.

Item Konfigurasi	Deskripsi
Catalog Name	Masukkan nama unik untuk katalog.
Description	Masukkan deskripsi untuk katalog.
Storage Type	Tetap pada Standard Storage.
Storage Redundancy Type	Pilih kebijakan redundansi untuk data Anda: LRS (Penyimpanan Redundan Lokal): (Default) Menyimpan data di zona tunggal. Jika zona tidak tersedia, data menjadi tidak dapat diakses. ZRS (Penyimpanan Redundan Zona): Mereplikasi data di beberapa zona dalam satu wilayah untuk ketersediaan yang lebih tinggi. Catatan Anda tidak dapat mengubah jenis redundansi dari ZRS ke LRS setelah katalog dibuat. ZRS menyediakan ketersediaan data yang lebih tinggi tetapi juga menimbulkan biaya yang lebih tinggi.

Baca dan pilih Terms of Service, lalu klik Create Catalog.

Untuk informasi lebih lanjut, lihat Kelola katalog.

Ingest data ke dalam danau data terpadu

Gunakan alat seperti Flink CDC dan Data Integration dari DataWorks untuk menyinkronkan data mentah ke danau data terpadu Anda.

Analisis data dalam danau data terpadu

Gunakan EMR Serverless Spark untuk menjalankan operasi baca dan tulis batch, Realtime Compute for Apache Flink untuk membaca dan menulis data streaming, dan EMR Serverless StarRocks untuk mengekstraksi wawasan dari data.