Pengumpulan metadata di DataWorks Data Map memungkinkan Anda mengelola metadata dari berbagai sumber data secara terpusat. Metadata yang dikumpulkan akan terlihat di Data Map. Topik ini menjelaskan cara membuat crawler untuk mengumpulkan metadata.
Ikhtisar
Pengumpulan metadata sangat penting untuk membangun peta data tingkat enterprise dan mengelola aset data. Fitur ini menggunakan crawler untuk mengekstraksi metadata teknis (database, tabel, kolom), alur data, dan informasi partisi dari sumber data DataWorks (seperti MaxCompute, Hologres, MySQL, dan CDH Hive) di seluruh ruang kerja dalam wilayah yang sama. Metadata tersebut kemudian diagregasi ke dalam DataWorks Data Map guna menyediakan tampilan data terpadu.
Pengumpulan metadata memungkinkan Anda:
Membangun tampilan data terpadu: Menghilangkan silodata dan mengelola metadata heterogen multi-sumber secara terpusat.
Mendukung penemuan dan pencarian data: Memungkinkan konsumen data menemukan data yang dibutuhkan secara cepat dan akurat.
Menganalisis alur data end-to-end: Melacak asal dan tujuan data untuk memfasilitasi analisis dampak dan troubleshooting.
Memperkuat tata kelola data: Melakukan klasifikasi data, grading, kontrol akses, pemantauan kualitas, serta manajemen siklus hidup berdasarkan metadata yang lengkap.
Penagihan
Secara default, setiap tugas pengumpulan mengonsumsi 0,25 CU × waktu proses tugas. Untuk informasi lebih lanjut, lihat Biaya kelompok sumber daya. Setiap pengumpulan yang berhasil akan menghasilkan satu instans penjadwalan. Untuk informasi lebih lanjut, lihat Biaya instans penjadwalan.
Batasan
Jika sumber data menggunakan kontrol akses daftar putih, Anda harus mengonfigurasi daftar putih database. Untuk informasi lebih lanjut, lihat Daftar Putih Pengumpulan Metadata.
Pengumpulan metadata lintas wilayah tidak disarankan. Pastikan DataWorks dan sumber data berada dalam wilayah yang sama. Untuk mengumpulkan metadata lintas wilayah, gunakan Alamat IP publik saat membuat sumber data. Untuk informasi lebih lanjut, lihat Manajemen Sumber Data.
Crawler metadata MySQL tidak mendukung sumber data OceanBase.
Pengumpulan metadata tidak didukung untuk sumber data AnalyticDB for MySQL yang telah mengaktifkan SSL.
Titik masuk
Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi kiri, pilih . Pada halaman yang muncul, klik Go to Data Map.
Di panel navigasi kiri, klik
untuk menuju halaman pengumpulan metadata.
Crawler bawaan
Crawler bawaan telah dikonfigurasi sebelumnya dan dijalankan secara otomatis oleh DataWorks hampir secara real-time. Crawler ini mengumpulkan metadata inti yang terintegrasi dengan DataWorks. Anda tidak perlu membuatnya; cukup kelola cakupannya saja.
Jika Anda tidak dapat menemukan tabel target di Data Map, buka untuk melakukan sinkronisasi manual tabel tersebut.
Crawler default MaxCompute
Crawler ini mengumpulkan metadata dari proyek MaxCompute dalam akun Anda. Di halaman detail, gunakan Modify Data Scope untuk memilih proyek dan Permission Configurations untuk mengatur visibilitas metadata dalam penyewa.
Di bagian Built-in pada halaman pengumpulan metadata, temukan kartu MaxCompute Default Crawler dan klik Details.
Halaman detail MaxCompute Default Crawler berisi tab Basic Information dan Data Scope.
Basic Information: Menampilkan atribut dasar crawler, seperti jenis dan mode pengumpulan. Informasi ini hanya bisa dibaca.
Data Scope: Mengelola proyek MaxCompute mana yang akan dikumpulkan.
Ubah cakupan pengumpulan:
Klik Data Scope lalu klik Modify Data Scope.
Pada kotak dialog, pilih atau hapus centang proyek MaxCompute yang ingin dikumpulkan.
PentingCakupan default mencakup semua proyek MaxCompute yang terikat ke ruang kerja dalam wilayah saat ini di bawah penyewa saat ini. Setelah cakupan diubah, hanya objek metadata dalam cakupan tersebut yang akan terlihat di Data Map. Metadata yang tidak dipilih akan menjadi tidak terlihat.
Klik OK untuk menyimpan perubahan.
Konfigurasi visibilitas metadata:
Di daftar Data Scope, temukan proyek target dan klik Actions di kolom Permission Configurations.
Pilih kebijakan visibilitas sesuai kebutuhan tata kelola data Anda:
Public Within Tenant: Semua anggota dalam penyewa dapat mencari dan melihat metadata proyek ini.
Only members in the associated workspace can search and view.: Hanya anggota ruang kerja tertentu yang dapat mengakses metadata proyek ini, sehingga memastikan isolasi data.
DLF Default Crawler
Untuk mendukung pengumpulan metadata DLF secara real-time, Anda harus memberikan izin Data Reader kepada Service Linked Role AliyunServiceRoleForDataworksOnEmr di konsol DLF.
Crawler default DLF mengumpulkan metadata dari Data Lake Formation (DLF) dalam akun Anda.
Di bagian Built-in pada halaman pengumpulan metadata, temukan kartu DLF Default Crawler dan klik Details untuk melihat informasi dasar.
Klik tab Data Scope untuk melihat daftar Catalog DLF yang termasuk dalam cakupan pengumpulan beserta jumlah tabelnya.
Secara default, semua Catalog yang dapat diakses (termasuk versi DLF dan DLF-Legacy) akan dikumpulkan.
Crawler kustom
Crawler kustom menyediakan manajemen metadata terpadu lintas lingkungan dan mesin.
Untuk sumber data konvensional
Mendukung crawler kustom untuk sumber data terstruktur atau semi-terstruktur tradisional seperti Hologres, StarRocks, MySQL, Oracle, dan CDH Hive. Sistem mengurai struktur tabel database fisik untuk secara otomatis mengekstraksi dan menyinkronkan metadata seperti atribut field, indeks, dan partisi.
Untuk sumber data bertipe metadata (Catalog)
Mendukung pengumpulan langsung sumber data bertipe metadata untuk metadata format lake native yang dideklarasikan sendiri dan tidak dikelola DLF, seperti Paimon Catalog.
Buat crawler kustom
Di bagian daftar crawler kustom pada halaman pengumpulan metadata, klik Create Metadata Collection.
Pilih jenis pengumpulan: Di halaman pemilihan jenis, pilih jenis sumber data target yang ingin dikumpulkan, misalnya Hologres atau StarRocks.
Konfigurasi informasi dasar dan kelompok sumber daya:
Basic Configurations:
Select Workspace: Pilih ruang kerja yang berisi sumber data.
Select Data Source: Pilih sumber data target yang telah dibuat dari daftar drop-down. Setelah dipilih, sistem akan menampilkan detail sumber data secara otomatis.
Name: Masukkan nama crawler untuk identifikasi di masa depan. Nama default sama dengan nama sumber data.
Resource Group Configuration:
Resource Group: Pilih kelompok sumber daya untuk menjalankan tugas pengumpulan.
Test Network Connectivity: Langkah ini sangat penting. Klik Test Network Connectivity untuk memastikan kelompok sumber daya dapat mengakses sumber data dengan sukses.
PentingPeriksa apakah sumber data memiliki pembatasan daftar putih. Jika Anda perlu mengumpulkan metadata dengan kontrol akses daftar putih yang diaktifkan, lihat Overview of network connectivity solutions dan Configure a whitelist untuk mengonfigurasi izin daftar putih.
Jika sumber data tidak memiliki pembatasan daftar putih, lihat Network connectivity and operations on resource groups untuk konfigurasi konektivitas jaringan.
Jika uji konektivitas gagal dengan error:
backend service call failed: test connectivity failed.not support data type, hubungi dukungan teknis untuk meningkatkan kelompok sumber daya.
Konfigurasi pengumpulan metadata:
Collection Scope: Tentukan database (Database/Schema) yang akan dikumpulkan. Jika sumber data bersifat granular berbasis database, database yang sesuai akan dipilih secara default. Anda dapat memilih database tambahan di luar sumber data tersebut.
PentingSatu database hanya dapat dikonfigurasi dalam satu crawler. Jika database tidak dapat dipilih, artinya database tersebut sedang dikumpulkan oleh crawler lain.
Jika Anda mempersempit cakupan pengumpulan, metadata di luar cakupan tersebut tidak akan dapat dicari di Data Map.
Konfigurasi Pengaturan Peningkatan Cerdas dan Rencana Pengumpulan:
Intelligent Enhancement Settings (Beta):
AI Collection Description: Saat diaktifkan, sistem menggunakan LLM untuk secara otomatis menghasilkan deskripsi bisnis untuk tabel dan field Anda setelah pengumpulan metadata, sehingga sangat meningkatkan keterbacaan dan kegunaan metadata. Setelah pengumpulan selesai, Anda dapat melihat informasi yang dihasilkan AI (seperti keterangan tabel dan deskripsi field) di halaman detail objek tabel di Data Map.
Collection Plan:
Trigger Mode: Pilih Manual atau Periodic.
Manual: Crawler hanya berjalan saat dipicu secara manual. Ini berlaku untuk pengumpulan sekali pakai atau berdasarkan permintaan.
Periodic: Konfigurasikan tugas terjadwal (misalnya bulanan, harian, mingguan, atau per jam). Sistem akan memperbarui metadata secara berkala.
Untuk mengonfigurasi tugas terjadwal tingkat menit, pilih pengumpulan per jam dan centang semua opsi menit untuk mencapai interval tugas 5 menit.
PentingPengumpulan periodik hanya didukung untuk sumber data lingkungan produksi.
Simpan konfigurasi: Klik Save atau Save and Run untuk menyelesaikan pembuatan crawler.
Kelola crawler kustom
Setelah crawler dibuat, crawler tersebut akan muncul di daftar kustom. Anda dapat melakukan operasi manajemen berikut:
Operasi daftar: Di daftar, Anda dapat langsung Run, Stop, atau Delete crawler tersebut. Gunakan fitur Filter dan Search di bagian atas untuk menemukan crawler target dengan cepat.
PentingMenghapus crawler metadata akan menghapus objek metadata yang dikumpulkannya dari Data Map. Pengguna tidak dapat mencari atau melihat objek tersebut lagi. Peringatan: Tindakan ini tidak dapat dikembalikan.
Lihat detail dan log: Klik nama crawler untuk melihat detailnya.
Basic Information: Lihat semua item konfigurasi crawler.
Data Scope: Lihat atau Modify Data Scope.
Jika dilihat sebelum pengumpulan, jumlah tabel dan waktu pembaruan terakhir akan kosong.
Sumber data berikut tidak mendukung modifikasi cakupan: EMR Hive, CDH Hive, Lindorm, ElasticSearch, Tablestore (OTS), MongoDB, dan AnalyticDB for Spark dalam AnalyticDB for MySQL.
Run Logs: Lacak riwayat eksekusi setiap tugas pengumpulan. Anda dapat melihat waktu mulai, durasi, status, dan volume data yang dikumpulkan. Saat tugas gagal, mengklik View Logs merupakan titik masuk utama untuk menemukan dan menyelesaikan masalah.
Jalankan pengumpulan secara manual: Di pojok kanan atas, klik Collect Metadata untuk segera memicu tugas pengumpulan. Gunakan ini untuk segera melihat tabel yang baru dibuat di Data Map.
Langkah selanjutnya
Setelah metadata dikumpulkan, Anda dapat menggunakan Data Map untuk:
Mencari tabel yang telah dikumpulkan di Data Map dan melihat detailnya, informasi field, partisi, serta pratinjau data. Untuk informasi lebih lanjut, lihat Detail metadata.
Menganalisis hubungan alur data hulu dan hilir tabel untuk memahami seluruh rantai pemrosesan data. Untuk informasi lebih lanjut, lihat Lihat alur data.
Menambahkan aset ke album data untuk mengorganisasi dan mengelola data Anda dari perspektif bisnis. Untuk informasi lebih lanjut, lihat Album data.
FAQ
T: Pengumpulan data dari sumber database seperti MySQL mengalami waktu tunggu habis atau gagal?
J: Pastikan vSwitch CIDR Block kelompok sumber daya telah ditambahkan ke daftar putih.
Cakupan dan ketepatan waktu pengumpulan
Tabel data
Data Source Type | Collection Mode | Granularitas pengumpulan | Ketepatan waktu pembaruan | ||
Tabel/field | Partition | Silsilah | |||
MaxCompute | Pengumpulan otomatis default sistem | Instance | Proyek standar: Real-time Proyek eksternal: T+1 | Wilayah daratan Tiongkok: Real-time Wilayah luar negeri: T+1 | Real-time |
Data Lake Formation (DLF) | Instance | Real-time | Real-time | Alur data didukung untuk metadata DLF dari mesin Serverless Spark, Serverless StarRocks, dan Serverless Flink; mesin lain tidak didukung. Penting Untuk kluster EMR, Anda harus mengaktifkan EMR_HOOK. | |
Hologres | Buat crawler secara manual | Database | Bergantung pada jadwal | Real-time | |
EMR Hive | Instance | Bergantung pada jadwal | Bergantung pada jadwal | Real-time Penting Anda harus mengaktifkan EMR_HOOK untuk kluster tersebut. | |
CDH Hive | Instance | Bergantung pada jadwal | Real-time | Real-time | |
StarRocks | Database |
| Real-time Penting Pengumpulan alur data hanya didukung dalam Instance Mode. Alur data tidak dapat dikumpulkan dalam Connection String Mode. | ||
AnalyticDB for MySQL | Database | Bergantung pada jadwal | Real-time Catatan Anda perlu membuat tiket untuk mengaktifkan fitur alur data untuk instans AnalyticDB for MySQL. | ||
AnalyticDB for Spark | Instance | Real-time | Real-time | ||
AnalyticDB for PostgreSQL | Database | Bergantung pada jadwal | Real-time | ||
Lindorm | Instance | Bergantung pada jadwal | Real-time | ||
Tablestore (OTS) | Instans | Bergantung pada jadwal | |||
MongoDB | Instance | Bergantung pada jadwal | |||
ElasticSearch | Instance | Bergantung pada jadwal | Pembaruan T+1 | ||
Paimon Catalog | Catalog | Bergantung pada jadwal | Bergantung pada jadwal | ||
Jenis sumber data lainnya (MySQL, PostgreSQL, SQL Server, Oracle, ClickHouse, SelectDB, dll.) | Database | Bergantung pada jadwal | |||
AnalyticDB for Spark dan AnalyticDB for MySQL menggunakan titik masuk pengumpulan metadata yang sama.
Kode tugas
Data Map mendukung pencarian kode dan lokasi cepat. Tabel berikut menjelaskan cakupan yang didukung.
Sumber kode | Cakupan pengumpulan | Metode pemicu |
Data Studio | Data Studio - Buat node dan edit kode | Pengumpulan otomatis |
Data Studio (Legacy) | Data Studio (Legacy) - Buat node dan edit kode | |
Data Analysis | Data Analysis - Buat kueri SQL dan edit kode | |
DataService Studio | DataService Studio - Buat layanan dorong data API |
Aset API
Data Map mendukung penayangan metadata API DataService Studio:
API Type | Cakupan pengumpulan | Metode pemicu |
Generated API (Codeless UI) | DataService Studio - Create API via codeless UI | Pengumpulan otomatis |
Generated API (Code editor) | DataService Studio - Create API via code editor | |
Registered API | DataService Studio - Register API | |
Service Orchestration | DataService Studio - Create Service Orchestration |
Aset AI
Data Map mendukung penayangan dan pengelolaan aset AI, serta menyediakan alur data aset AI untuk melacak asal, penggunaan, dan evolusi data serta model. Tabel berikut menjelaskan dukungan untuk aset AI.
Jenis | Cakupan pengumpulan | Metode pemicu |
Dataset |
| Pengumpulan otomatis |
Model AI | PAI - Tugas pelatihan model/Daftarkan model/Terapkan layanan model | |
Tugas Algoritma | PAI - Tugas pelatihan/Tugas alur kerja/Tugas pelatihan terdistribusi | |
Layanan Model | PAI - Terapkan layanan model (penyebaran EAS) |
Workspace
Data Map mendukung penayangan metadata ruang kerja:
Proyek | Collection Mode | Metode pemicu |
Ruang Kerja | DataWorks - Buat ruang kerja | Pengumpulan otomatis |