Topik ini menjelaskan pembaruan utama versi Realtime Compute for Apache Flink yang dirilis pada 20 Desember 2024.
Peningkatan versi diluncurkan secara bertahap di seluruh jaringan menggunakan rencana rilis canary. Anda dapat menggunakan fitur baru dalam versi ini hanya setelah peningkatan selesai untuk akun Anda. Untuk mengajukan peningkatan sesegera mungkin, ajukan tiket.
Ikhtisar
Rilis ini memperkenalkan fitur tabel materialized. Tabel materialized dirancang untuk menyederhanakan pipeline data batch dan streaming, memberikan pengalaman pengembangan yang konsisten.
Dalam pasar yang kompleks saat ini, tim bisnis bergantung pada data untuk pengambilan keputusan. Oleh karena itu, penting bagi tim data untuk menyediakan data yang akurat guna mendukung upaya tim bisnis. Berbagai skenario bisnis memiliki persyaratan berbeda terhadap data:
Skenario pengendalian risiko membutuhkan kesegaran data tinggi, biasanya dengan latensi dari detik hingga milidetik.
Profil pengguna dan rekomendasi waktu nyata umumnya memerlukan pembaruan data dalam hitungan menit.
Laporan BI dan analitik data historis, seperti perbandingan tahunan dan bulanan, dapat mentolerir kesegaran data yang lebih rendah, biasanya pada level hari.
Gudang data tradisional biasanya mengandalkan dua arsitektur, Kappa dan Lambda. Keduanya memenuhi kebutuhan bisnis sampai batas tertentu, meskipun dengan keterbatasan yang signifikan. Oleh karena itu, penting untuk memiliki arsitektur terpadu yang dapat memenuhi berbagai kebutuhan kesegaran data dalam skenario bisnis yang berbeda.
Realtime Compute for Apache Flink berfungsi sebagai platform pemrosesan aliran dan batch terpadu, menyediakan solusi teknis komprehensif yang memenuhi kebutuhan ketepatan waktu data bisnis yang beragam. Untuk tujuan ini, tabel materialized diperkenalkan. Fitur ini didasarkan pada Apache Paimon, yang mendukung penyimpanan terintegrasi aliran-batch. Berbeda dengan cara tradisional yang secara terpisah mendefinisikan logika pekerjaan aliran dan batch, tabel materialized memungkinkan Anda mendefinisikan kesegaran data menggunakan Flink SQL. Dengan cara ini, Flink dapat mencoba menyegarkan data pada interval yang ditentukan. Pendekatan ini menyederhanakan proses ETL, beralih antara mode aliran dan batch secara mulus, menawarkan kemampuan pembaruan berjenjang, dan secara signifikan meningkatkan efisiensi pembaruan data.
Tabel materialized sangat ideal untuk skenario di mana arsitektur Lambda tidak dapat menjamin konsistensi logika pemrosesan data, statistik waktu nyata diperlukan untuk laporan offline, dan aplikasi dasbor waktu nyata bergantung pada data historis untuk akurasi.