Anda dapat mengonfigurasi sumber data Paimon Catalog di DataWorks. Sumber data ini digunakan untuk memperoleh dan mengelola metadata tabel Paimon yang tidak dikelola oleh Data Lake Formation (DLF). Sebagai jenis khusus sumber data metadata, sumber data ini memungkinkan Anda mengelola aset data lake Paimon secara terpadu di Data Map. Topik ini menjelaskan cara mengonfigurasi sumber data tersebut.
Fitur
Arsitektur data lakehouse banyak digunakan di perusahaan. Format tabel terbuka seperti Paimon, Iceberg, dan Delta Lake menjadi fondasi utama dalam membangun gudang data real-time serta skenario pemrosesan aliran-batch terpadu. Paimon Catalog sangat populer dalam ekosistem pemrosesan aliran Flink karena kompatibilitas natifnya.
DataWorks terintegrasi secara mendalam dengan Data Lake Formation, sehingga Anda dapat menggunakan sumber data DLF untuk mengelola dan memanggil tabel data lake secara terpadu. Namun, banyak skenario dunia nyata melibatkan catalog yang dideklarasikan sendiri. Misalnya, pengguna mungkin mendeklarasikan dan mendefinisikan Paimon Catalog menggunakan mesin Flink, dengan metadata dan data aktualnya disimpan di Object Storage Service (OSS) Alibaba Cloud.
Sistem sumber data yang ada tidak dapat secara efektif menemukan atau mengelola metadata format lake native semacam ini jika tidak dikelola oleh DLF. Untuk mengatasi masalah tersebut, DataWorks memperkenalkan sumber data Paimon Catalog, yang mendukung akuisisi dan tata kelola metadata untuk format data lake native. Fitur ini menutup celah pengelolaan pada catalog yang dideklarasikan sendiri, sehingga data di seluruh jalur data lakehouse menjadi terlihat, dapat dikelola, dan siap digunakan.
Batasan
Konektivitas jaringan: Hanya kelompok sumber daya arsitektur tanpa server yang didukung.
Skenario: Sumber data Paimon Catalog hanya digunakan untuk Collect Metadata dan tata kelola. Sumber data ini tidak mendukung tugas sinkronisasi integrasi data. Untuk membaca dari atau menulis ke tabel Paimon dalam tugas sinkronisasi data, Anda harus menggunakan sumber data lain, seperti DLF atau OSS.
Prosedur
1. Buka halaman Data Source
Masuk ke Konsol DataWorks dan pilih wilayah tujuan. Di panel navigasi sebelah kiri, klik Workspace. Temukan workspace target dan klik Manage di kolom Actions untuk membuka halaman manajemennya.
Di halaman Management Center, klik Data Sources di panel navigasi sebelah kiri untuk membuka halaman Data Source.
2. Buat sumber data Paimon Catalog
Di halaman Data Sources, klik Add Data Source.
Pada kotak dialog yang muncul, cari dan pilih Paimon Catalog.
3. Konfigurasikan parameter
Konfigurasikan parameter inti pada antarmuka:
Field | Description |
Data Source Name | Nama kustom untuk sumber data, misalnya |
Catalog | Nama catalog yang digunakan untuk koneksi, misalnya |
MetaStore | Jenis penyimpanan catalog. Saat ini, hanya Filesystem yang didukung. |
Filesystem | Jenis penyimpanan file. Saat ini, hanya OSS yang didukung. |
Access Identity |
|
Region | Pilih bucket di wilayah yang sama dengan workspace saat ini jika memungkinkan. Untuk membuat sumber data cross-region, buat koneksi peering VPC. Untuk informasi selengkapnya, lihat Connect to a data source in a different region under the same Alibaba Cloud account. Atau, lakukan koneksi menggunakan titik akhir publik. |
Endpoint | Untuk informasi tentang cara mengonfigurasi nama domain, lihat Overview of endpoints and network connectivity. |
Warehouse | Warehouse path: Alamat penyimpanan Paimon Catalog di OSS.
|
4. Uji konektivitas
Setelah mengonfigurasi sumber data, uji konektivitasnya untuk memastikan koneksi jaringan antara sumber data dan kelompok sumber daya berfungsi dengan baik.
Jika status Connected ditampilkan, konfigurasi sudah benar.
Jika status Connection failed. ditampilkan, alat diagnostik akan muncul untuk membantu Anda memecahkan masalah. Penyebab umum meliputi kredensial salah, masalah jaringan (seperti daftar putih alamat IP yang belum dikonfigurasi), atau Gateway NAT yang tidak tersedia.
Dalam mode standar, pastikan lingkungan pengembangan dan lingkungan produksi keduanya memiliki status Connected. Jika tidak, operasi selanjutnya seperti akuisisi metadata akan gagal.
Langkah selanjutnya
Setelah mengonfigurasi sumber data, Anda dapat membuka modul Data Map untuk acquire metadata. Anda kemudian dapat melihat dan mengelola metadata yang telah dikumpulkan.
di sebelah kanan kotak input untuk memilih path secara visual.