全部产品
Search
文档中心

Realtime Compute for Apache Flink:Gunakan Apache Paimon untuk membangun danau data terpadu berbasis streaming

更新时间:Nov 10, 2025

Apache Paimon (Paimon) menyediakan format penyimpanan terpadu untuk berbagai jenis data. Paimon dapat bekerja dengan Apache Flink dan Apache Spark untuk mengimplementasikan arsitektur lakehouse real-time yang mendukung operasi streaming dan batch. Paimon secara inovatif menggabungkan format lake dan struktur log-structured merge-tree (LSM) untuk mendukung pembaruan streaming real-time dalam arsitektur lake. Anda dapat menggunakan tabel Paimon di Realtime Compute for Apache Flink untuk dengan cepat membangun data lake berdasarkan layanan penyimpanan cloud, seperti Object Storage Service (OSS).

Paimon menyediakan kemampuan berikut:

  • Ingesti Data Real-Time yang Ditingkatkan: Paimon dapat bekerja dengan Realtime Compute for Apache Flink untuk mengambil berbagai jenis data ke dalam data lake yang mendukung sinkronisasi perubahan skema otomatis dan pembaruan real-time dari berbagai sistem database, seperti MySQL. Jutaan catatan data dapat diolah secara efisien dengan latensi rendah.

  • Pemrosesan Aliran dan Batch Terpadu: Paimon dapat bekerja dengan Apache Flink untuk memfasilitasi pemrosesan aliran dan Apache Spark untuk memfasilitasi pemrosesan batch. Paimon menyediakan format terpadu untuk penyimpanan data lake guna meningkatkan kemudahan penggunaan dan mengurangi biaya.

  • Integrasi Ekosistem yang Luas: Paimon dapat berintegrasi mulus dengan berbagai layanan komputasi Alibaba Cloud, seperti Realtime Compute for Apache Flink, E-MapReduce (Spark, StarRocks, Hive, dan Trino), serta MaxCompute.

  • Penyimpanan Lakehouse Inovatif: Paimon menggunakan vektor penghapusan dan indeks untuk memastikan latensi tingkat menit untuk streaming, batch, dan pemrosesan analitik online (OLAP).

Untuk informasi lebih lanjut, lihat Apache Paimon.

Penggunaan

Biasakan diri Anda dengan Paimon

Buat katalog Paimon

Katalog Paimon memberikan akses ke tabel Paimon yang disimpan di sistem eksternal. Ini memungkinkan Anda mengelola tabel Paimon secara terpusat dan dapat diakses oleh layanan Alibaba Cloud lainnya. Anda dapat menggunakan katalog Paimon dengan cara berikut:

Buat tabel Paimon

Tulis data ke tabel Paimon

Konsumsi data dari tabel Paimon

  • Kueri atau konsumsi data dari tabel Paimon. Untuk informasi lebih lanjut, lihat Konsumsi Data dari Tabel Paimon. Jika Anda ingin mengonsumsi data dari tabel kunci utama dalam mode streaming, pastikan Anda menyelesaikan konfigurasi produsen changelog.

  • Konfigurasikan offset konsumen tabel Paimon. Untuk informasi lebih lanjut, lihat Konfigurasikan Offset Konsumen.

  • Simpan offset konsumen tabel Paimon atau pertahankan file snapshot yang sudah kedaluwarsa tetapi masih digunakan. Untuk informasi lebih lanjut, lihat Tentukan ID Konsumen.

  • Jalankan penyebaran batch untuk membaca status historis tabel Paimon. Untuk informasi lebih lanjut, lihat Batch Time Travel.

Pelihara tabel Paimon