Gunakan Apache Paimon untuk membangun solusi danau data terpadu berbasis streaming - Realtime Compute for Apache Flink

Apache Paimon (Paimon) menyediakan format penyimpanan terpadu untuk berbagai jenis data. Paimon dapat bekerja dengan Apache Flink dan Apache Spark untuk mengimplementasikan arsitektur lakehouse real-time yang mendukung operasi streaming dan batch. Paimon secara inovatif menggabungkan format lake dan struktur log-structured merge-tree (LSM) untuk mendukung pembaruan streaming real-time dalam arsitektur lake. Anda dapat menggunakan tabel Paimon di Realtime Compute for Apache Flink untuk dengan cepat membangun data lake berdasarkan layanan penyimpanan cloud, seperti Object Storage Service (OSS).

Paimon menyediakan kemampuan berikut:

Ingesti Data Real-Time yang Ditingkatkan: Paimon dapat bekerja dengan Realtime Compute for Apache Flink untuk mengambil berbagai jenis data ke dalam data lake yang mendukung sinkronisasi perubahan skema otomatis dan pembaruan real-time dari berbagai sistem database, seperti MySQL. Jutaan catatan data dapat diolah secara efisien dengan latensi rendah.
Pemrosesan Aliran dan Batch Terpadu: Paimon dapat bekerja dengan Apache Flink untuk memfasilitasi pemrosesan aliran dan Apache Spark untuk memfasilitasi pemrosesan batch. Paimon menyediakan format terpadu untuk penyimpanan data lake guna meningkatkan kemudahan penggunaan dan mengurangi biaya.
Integrasi Ekosistem yang Luas: Paimon dapat berintegrasi mulus dengan berbagai layanan komputasi Alibaba Cloud, seperti Realtime Compute for Apache Flink, E-MapReduce (Spark, StarRocks, Hive, dan Trino), serta MaxCompute.
Penyimpanan Lakehouse Inovatif: Paimon menggunakan vektor penghapusan dan indeks untuk memastikan latensi tingkat menit untuk streaming, batch, dan pemrosesan analitik online (OLAP).

Untuk informasi lebih lanjut, lihat Apache Paimon.

Penggunaan

Biasakan diri Anda dengan Paimon

Jika Anda baru pertama kali menggunakan Paimon, disarankan untuk memulai dengan fitur dasar. Untuk informasi lebih lanjut, lihat Memulai dengan Fitur Dasar Apache Paimon.
Pelajari fitur tabel Paimon. Jika data Anda memerlukan pembaruan streaming, gunakan tabel kunci utama. Sebaliknya, gunakan tabel append-only (tanpa kunci utama).
Untuk informasi tentang bagaimana Paimon memastikan kesegaran dan konsistensi data, lihat Latensi Data dan Konsistensi.
Untuk panduan langkah demi langkah membangun lakehouse streaming, lihat Bangun Lakehouse Data Streaming dengan Menggunakan Realtime Compute for Apache Flink, Apache Paimon, dan StarRocks.

Buat katalog Paimon

Katalog Paimon memberikan akses ke tabel Paimon yang disimpan di sistem eksternal. Ini memungkinkan Anda mengelola tabel Paimon secara terpusat dan dapat diakses oleh layanan Alibaba Cloud lainnya. Anda dapat menggunakan katalog Paimon dengan cara berikut:

Buat dan gunakan katalog Paimon. Untuk informasi lebih lanjut, lihat Kelola Katalog Apache Paimon.
Sinkronkan metadata tabel Paimon ke Data Lake Formation (DLF). Untuk informasi selengkapnya, lihat Buat katalog DLF Apache Paimon.
Buat tabel eksternal Paimon di MaxCompute untuk mengakses tabel Paimon terkait. Untuk informasi selengkapnya, lihat Buat katalog MaxCompute Apache Paimon.
Sinkronkan metadata tabel Paimon ke DLF dan buat tabel eksternal Paimon di MaxCompute. Untuk informasi lebih lanjut, lihat Buat Katalog Sinkronisasi Paimon.

Buat tabel Paimon

Buat langsung tabel Paimon di katalog Paimon. Untuk informasi selengkapnya, lihat Kelola tabel Apache Paimon.
Sinkronkan data dari sumber eksternal, seperti MySQL dan Apache Kafka, untuk membuat tabel Paimon dengan menggunakan pernyataan CREATE TABLE AS (CTAS) atau pernyataan CREATE DATABASE AS (CDAS). Untuk informasi selengkapnya, lihat Buat tabel menggunakan CTAS atau CDAS.

Tulis data ke tabel Paimon

Masukkan data baru atau perbarui data di tabel Paimon. Untuk informasi lebih lanjut, lihat Tulis Data ke Tabel Paimon.
Gabungkan tabel Paimon dengan tabel lain dan terapkan fungsi agregat. Untuk informasi lebih lanjut, lihat Mesin Penggabungan.
Timpa sebagian atau seluruh tabel Paimon. Untuk informasi lebih lanjut, lihat Gunakan Pernyataan INSERT OVERWRITE untuk Menimpa Data.
Hapus data dari tabel Paimon. Untuk informasi lebih lanjut, lihat Gunakan Pernyataan DELETE untuk Menghapus Data.
Hapus partisi dari tabel Paimon. Untuk informasi lebih lanjut, lihat Modifikasi Skema Tabel Apache Paimon.

Konsumsi data dari tabel Paimon

Kueri atau konsumsi data dari tabel Paimon. Untuk informasi lebih lanjut, lihat Konsumsi Data dari Tabel Paimon. Jika Anda ingin mengonsumsi data dari tabel kunci utama dalam mode streaming, pastikan Anda menyelesaikan konfigurasi produsen changelog.
Konfigurasikan offset konsumen tabel Paimon. Untuk informasi lebih lanjut, lihat Konfigurasikan Offset Konsumen.
Simpan offset konsumen tabel Paimon atau pertahankan file snapshot yang sudah kedaluwarsa tetapi masih digunakan. Untuk informasi lebih lanjut, lihat Tentukan ID Konsumen.
Jalankan penyebaran batch untuk membaca status historis tabel Paimon. Untuk informasi lebih lanjut, lihat Batch Time Travel.

Pelihara tabel Paimon

Pelajari cara menangani masalah umum terkait Paimon. Untuk informasi lebih lanjut, lihat FAQ tentang Konektor.
Optimalkan kinerja baca dan tulis tabel Paimon. Untuk informasi lebih lanjut, lihat Optimasi Kinerja.
Kueri metadata tabel Paimon, seperti partisi dan ukuran total file di setiap partisi. Untuk informasi lebih lanjut, lihat Tabel Sistem.
Modifikasi skema tabel di Katalog Paimon. Untuk informasi lebih lanjut, lihat Modifikasi Skema Tabel Apache Paimon.
Hapus tabel dari katalog Paimon. Untuk informasi lebih lanjut, lihat Hapus Tabel Apache Paimon.
Ubah jumlah bucket untuk tabel Paimon yang menggunakan mode bucket tetap. Untuk informasi lebih lanjut, lihat Ubah Jumlah Bucket dalam Mode Bucket Tetap.
Bersihkan file usang di direktori tabel Paimon. Untuk informasi lebih lanjut, lihat Bersihkan Data Kedaluwarsa.