DataWorks Data Map menggunakan data collector untuk mengekstrak metadata teknis dan alur data dari berbagai sumber data. Hal ini mendukung manajemen terpadu, pencarian, analisis alur data, dan tata kelola data. - OpenLake

Pengumpulan metadata di DataWorks Data Map memungkinkan Anda mengelola metadata dari berbagai sumber data secara terpusat. Metadata yang dikumpulkan akan terlihat di Data Map. Topik ini menjelaskan cara membuat crawler untuk mengumpulkan metadata.

Ikhtisar fungsi

Akuisisi metadata merupakan fitur inti untuk membangun peta data tingkat perusahaan dan mengelola aset data. Fitur ini menjalankan data collector—juga dikenal sebagai crawler—untuk secara otomatis mengekstrak metadata teknis, alur data, dan informasi partisi dari sumber data DataWorks. Sumber-sumber tersebut, seperti DLF, MySQL, dan CDH Hive, dapat berada di ruang kerja berbeda dalam wilayah yang sama. Fitur ini mengimpor informasi tersebut ke DataWorks Data Map guna menyediakan tampilan data terpadu.

Dengan akuisisi metadata, Anda dapat:

Membangun tampilan data terpadu: Menghilangkan silodata dan mengelola metadata dari berbagai sumber heterogen secara terpusat.
Mendukung penemuan dan pencarian data: Memungkinkan konsumen data menemukan data yang dibutuhkan dengan cepat dan akurat.
Menjalankan analisis alur data end-to-end: Melacak asal dan aliran data secara jelas untuk analisis dampak dan troubleshooting.
Mengaktifkan tata kelola data: Melakukan klasifikasi data, kontrol izin, pemantauan kualitas, dan manajemen siklus hidup berdasarkan metadata yang lengkap.

Penagihan

Secara default, setiap tugas pengumpulan mengonsumsi 0,25 CU × waktu proses tugas. Untuk informasi selengkapnya, lihat Biaya kelompok sumber daya. Setiap pengumpulan yang berhasil menghasilkan sebuah instans penjadwalan. Untuk informasi selengkapnya, lihat Biaya instans penjadwalan.

Batasan

Jika sumber data menggunakan kontrol akses daftar putih, Anda harus mengonfigurasi daftar putih database. Untuk informasi selengkapnya, lihat Daftar Putih Pengumpulan Metadata.
Pengumpulan metadata lintas wilayah tidak disarankan. Pastikan DataWorks dan sumber data berada di wilayah yang sama. Untuk mengumpulkan metadata lintas wilayah, gunakan Alamat IP publik saat membuat sumber data. Untuk informasi selengkapnya, lihat Manajemen Sumber Data.
Crawler metadata MySQL tidak mendukung sumber data OceanBase.
Pengumpulan metadata tidak didukung untuk sumber data AnalyticDB for MySQL yang telah mengaktifkan SSL.

Titik masuk

Login ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi kiri, pilih Data Governance > Data Map. Pada halaman yang muncul, klik Go to Data Map.
Di panel navigasi kiri, klik untuk menuju halaman pengumpulan metadata.

Crawler bawaan

Crawler bawaan telah dikonfigurasi sebelumnya dan dijalankan secara otomatis oleh DataWorks hampir secara real-time. Crawler ini mengumpulkan metadata inti yang terintegrasi dengan DataWorks. Anda tidak perlu membuatnya; cukup mengelola cakupannya saja.

Penting

Jika Anda tidak dapat menemukan tabel target di Data Map, buka My Data > My Tools > Refresh Table Metadata untuk melakukan sinkronisasi manual tabel tersebut.

DLF Default Crawler

Penting

Untuk mendukung pengumpulan metadata DLF secara real-time, Anda harus memberikan izin Data Reader kepada Service Linked Role AliyunServiceRoleForDataworksOnEmr di konsol DLF.

DLF Default Crawler mengumpulkan metadata dari Data Lake Formation (DLF) dalam akun Anda.

Di bagian Built-in pada halaman pengumpulan metadata, temukan kartu DLF Default Crawler dan klik Details untuk melihat informasi dasar.
Klik tab Data Scope untuk melihat daftar Katalog DLF yang termasuk dalam cakupan pengumpulan beserta jumlah tabelnya.
Secara default, semua Katalog yang dapat diakses (termasuk versi DLF dan DLF-Legacy) dikumpulkan.

Crawler kustom

Crawler kustom menyediakan manajemen metadata terpadu lintas lingkungan dan mesin.

Untuk sumber data konvensional
Mendukung crawler kustom untuk sumber data terstruktur atau semi-terstruktur tradisional seperti Hologres, StarRocks, MySQL, Oracle, dan CDH Hive. Sistem mengurai struktur tabel database fisik untuk secara otomatis mengekstrak dan menyinkronkan metadata seperti atribut bidang, indeks, dan partisi.
Untuk sumber data bertipe metadata (Catalog)
Mendukung pengumpulan langsung sumber data bertipe metadata untuk metadata format lake native yang dideklarasikan sendiri dan tidak dikelola DLF, seperti Paimon Catalog.

Buat crawler kustom

Di bagian daftar crawler kustom pada halaman pengumpulan metadata, klik Create Metadata Collection.
Pilih jenis pengumpulan: Pada halaman pemilihan jenis, pilih jenis sumber data target yang akan dikumpulkan, misalnya Hologres atau StarRocks.
Konfigurasikan informasi dasar dan kelompok sumber daya:
- Basic Configurations:
  - Select Workspace: Pilih ruang kerja yang berisi sumber data.
  - Select Data Source: Pilih sumber data target yang telah dibuat dari daftar drop-down. Setelah dipilih, sistem akan menampilkan detail sumber data secara otomatis.
  - Name: Masukkan nama crawler untuk identifikasi di masa depan. Nama default sama dengan nama sumber data.
- Resource Group Configuration:
  - Resource Group: Pilih kelompok sumber daya untuk menjalankan tugas pengumpulan.
  - Test Network Connectivity: Langkah ini sangat penting. Klik Test Network Connectivity untuk memastikan kelompok sumber daya dapat mengakses sumber data dengan sukses.
    Penting
    Periksa apakah sumber data memiliki pembatasan daftar putih. Jika Anda perlu mengumpulkan metadata dengan kontrol akses daftar putih yang diaktifkan, lihat Overview of network connectivity solutions dan Configure a whitelist untuk mengonfigurasi izin daftar putih.
    Jika sumber data tidak memiliki pembatasan daftar putih, lihat Network connectivity and operations on resource groups untuk konfigurasi konektivitas jaringan.
    Jika uji konektivitas gagal dengan error: backend service call failed: test connectivity failed.not support data type, hubungi dukungan teknis untuk meningkatkan kelompok sumber daya.
Konfigurasikan pengumpulan metadata:
- Collection Scope: Tentukan database (Database/Schema) yang akan dikumpulkan. Jika sumber data bersifat granular berbasis database, database yang sesuai akan dipilih secara default. Anda dapat memilih database tambahan di luar sumber data tersebut.
  Penting
  - Satu database hanya dapat dikonfigurasi dalam satu crawler. Jika database tidak dapat dipilih, artinya database tersebut sedang dikumpulkan oleh crawler lain.
  - Jika Anda mempersempit cakupan pengumpulan, metadata di luar cakupan tersebut tidak dapat dicari di Data Map.
Konfigurasikan Pengaturan Peningkatan Cerdas dan Rencana Pengumpulan:
- Intelligent Enhancement Settings (Beta):
  - AI Collection Description: Saat diaktifkan, sistem menggunakan LLM untuk secara otomatis menghasilkan deskripsi bisnis untuk tabel dan bidang Anda setelah pengumpulan metadata, sehingga sangat meningkatkan keterbacaan dan kegunaan metadata. Setelah pengumpulan selesai, Anda dapat melihat informasi yang dihasilkan AI (seperti keterangan tabel dan deskripsi bidang) pada halaman detail objek tabel di Data Map.
- Collection Plan:
  - Trigger Mode: Pilih Manual atau Periodic.
    - Manual: Crawler hanya berjalan saat dipicu secara manual. Cocok untuk pengumpulan satu kali atau sesuai permintaan.
    - Periodic: Konfigurasikan tugas terjadwal (misalnya bulanan, harian, mingguan, atau per jam). Sistem akan secara otomatis memperbarui metadata secara berkala.
      Untuk mengonfigurasi tugas terjadwal dengan interval per menit, pilih pengumpulan per jam dan centang semua opsi menit untuk mencapai interval tugas 5 menit.
      Penting
      Pengumpulan periodik hanya didukung untuk sumber data di lingkungan produksi.
Simpan konfigurasi: Klik Save atau Save and Run untuk menyelesaikan pembuatan crawler.

Kelola crawler kustom

Setelah crawler dibuat, crawler tersebut akan muncul di daftar kustom. Anda dapat melakukan operasi manajemen berikut:

Operasi daftar: Di daftar, Anda dapat langsung Run, Stop, atau Delete crawler tersebut. Gunakan fitur Filter dan Search di bagian atas untuk menemukan crawler target dengan cepat.
Penting
Menghapus crawler metadata akan menghapus objek metadata yang telah dikumpulkannya dari Data Map. Pengguna tidak dapat mencari atau melihat objek-objek tersebut. Peringatan: Tindakan ini tidak dapat dikembalikan.
Lihat detail dan log: Klik nama crawler untuk melihat detailnya.
- Basic Information: Lihat semua item konfigurasi crawler.
- Data Scope: Lihat atau Modify Data Scope.
  Jika dilihat sebelum pengumpulan, jumlah tabel dan waktu pembaruan terakhir akan kosong.
  Sumber data berikut tidak mendukung modifikasi cakupan: EMR Hive, CDH Hive, Lindorm, ElasticSearch, Tablestore (OTS), MongoDB, dan AnalyticDB for Spark dalam AnalyticDB for MySQL.
- Run Logs: Lacak riwayat eksekusi setiap tugas pengumpulan. Anda dapat melihat waktu mulai, durasi, status, dan volume data yang dikumpulkan. Saat tugas gagal, klik View Logs sebagai titik masuk utama untuk menemukan dan menyelesaikan masalah.
Jalankan pengumpulan secara manual: Di pojok kanan atas, klik Collect Metadata untuk segera memicu tugas pengumpulan. Gunakan ini untuk segera melihat tabel baru yang dibuat di Data Map.

Langkah selanjutnya

Setelah metadata dikumpulkan, Anda dapat menggunakan Data Map untuk:

Mencari tabel yang telah dikumpulkan di Data Map dan melihat detailnya, informasi bidang, partisi, serta pratinjau data. Untuk informasi selengkapnya, lihat Detail metadata.
Menganalisis hubungan alur hulu dan hilir tabel untuk memahami seluruh rantai pemrosesan data. Untuk informasi selengkapnya, lihat Lihat alur data.
Menambahkan aset ke album data untuk mengorganisasi dan mengelola data Anda dari perspektif bisnis. Untuk informasi selengkapnya, lihat Album data.

FAQ

T: Waktu pengumpulan habis atau gagal untuk sumber data database seperti MySQL?
J: Pastikan vSwitch CIDR Block dari kelompok sumber daya telah ditambahkan ke daftar putih.