Sebagai fondasi data lake terpadu Alibaba Cloud, Data Lake Formation (DLF) terintegrasi dengan berbagai mesin komputasi data besar utama, memberikan dukungan kuat untuk beragam skenario bisnis—termasuk data lakehouse real-time dan offline serta Pemrosesan Analitik Online (OLAP). DLF terintegrasi secara mendalam dengan mesin inti seperti Flink komputasi real-time (VVP), EMR Serverless Spark, EMR Serverless StarRocks, dan EMR on ECS, serta terus memperluas kompatibilitas ekosistemnya.
Integration methods
DLF menyediakan tiga metode integrasi standar berikut untuk memberikan akses data yang fleksibel bagi berbagai mesin dan pengguna:
Paimon REST: Untuk mesin komputasi yang dibangun di atas Apache Paimon, metode ini menyediakan antarmuka layanan metadata RESTful yang sesuai dengan standar komunitas Paimon dan mendukung operasi inti seperti manajemen skema tabel dan kueri Snapshot.
Iceberg REST: Untuk mesin komputasi yang dibangun di atas Apache Iceberg, metode ini menyediakan antarmuka layanan metadata RESTful yang sesuai dengan standar komunitas Iceberg dan mendukung operasi inti seperti manajemen skema tabel dan kueri Snapshot.
File access: Metode ini menggunakan Paimon Virtual File System (PVFS) untuk mengabstraksi data tabel menjadi path file standar, memungkinkan pembacaan langsung file data dan metadata dasar tanpa memerlukan mesin komputasi lengkap. Metode ini cocok untuk eksplorasi berbasis skrip, debugging, dan pemrosesan data ringan.
Ketiga metode ini memungkinkan Anda memilih jalur akses yang paling sesuai berdasarkan tumpukan teknologi dan preferensi arsitektur mesin Anda, sehingga menjamin integrasi yang efisien dengan data lake DLF.