DataWorks Data Map menyediakan fitur Metadata Acquisition yang membantu Anda mengelola metadata dari berbagai sumber data DataWorks secara terpusat. Anda dapat melihat semua metadata yang telah dikumpulkan di Data Map. Topik ini menjelaskan cara membuat crawler untuk mengumpulkan metadata dari sumber data Anda ke DataWorks.
Ikhtisar
Akuisisi metadata merupakan fitur inti untuk membangun peta data tingkat perusahaan dan mencapai manajemen aset data terpadu. Fitur ini menjalankan crawler untuk mengekstraksi metadata teknis secara otomatis, seperti database, tabel, dan bidang, beserta informasi alur data dan partisi. Crawler mengekstraksi informasi tersebut dari berbagai sumber data DataWorks—seperti MaxCompute, Hologres, MySQL, dan CDH Hive—yang tersebar di berbagai ruang kerja dalam wilayah yang sama. Metadata yang dikumpulkan kemudian dikonsolidasikan di DataWorks Data Map guna memberikan tampilan data terpadu.
Akuisisi metadata memungkinkan Anda:
Membangun tampilan data terpadu: Menghilangkan silodata dengan mengelola metadata heterogen dari berbagai sumber secara terpusat.
Mendukung penemuan dan pencarian data: Memungkinkan konsumen data menemukan data yang mereka butuhkan secara cepat dan akurat.
Mengaktifkan analisis alur data end-to-end: Melacak asal dan aliran data secara jelas untuk analisis dampak dan pemecahan masalah.
Memberdayakan tata kelola data: Melakukan klasifikasi data, kontrol izin, pemantauan kualitas, dan manajemen siklus hidup berdasarkan metadata lengkap.
Penagihan
Setiap tugas pengumpulan mengonsumsi 0,25 CU × waktu proses tugas secara default, yang dikenai biaya kelompok sumber daya. Setiap pengumpulan yang berhasil menghasilkan instance penjadwalan, yang dikenai biaya penjadwalan tugas.
Batasan
Saat Anda mengakuisisi metadata dari sumber data yang menggunakan daftar putih untuk kontrol akses, Anda harus mengonfigurasi daftar putih database terlebih dahulu. Untuk informasi selengkapnya, lihat Daftar putih pengumpulan metadata.
Akuisisi metadata lintas wilayah tidak disarankan. Wilayah DataWorks harus sama dengan wilayah sumber data. Untuk melakukan akuisisi metadata lintas wilayah, Anda harus menggunakan titik akhir publik saat membuat sumber data. Untuk informasi selengkapnya, lihat Manajemen Sumber Data.
Menggunakan Pengumpul Database MySQL untuk mengakuisisi metadata dari sumber data OceanBase tidak didukung.
Buka halaman fitur
Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi sebelah kiri, pilih . Pada halaman yang muncul, klik Go to Data Map.
Di panel navigasi sebelah kiri, klik
untuk menuju halaman akuisisi metadata.
Crawler bawaan sistem
Crawler bawaan sistem telah dikonfigurasi sebelumnya oleh platform DataWorks dan berjalan secara otomatis hampir real-time. Crawler ini terutama digunakan untuk mengumpulkan metadata inti yang terintegrasi erat dengan DataWorks. Anda tidak perlu membuatnya—cukup kelola cakupannya.
Jika Anda tidak dapat menemukan tabel target di Peta Data, buka untuk menyinkronkan tabel secara manual.
Crawler Default MaxCompute
Crawler ini mengumpulkan metadata dari proyek MaxCompute di bawah akun Anda. Anda dapat membuka halaman detail untuk memilih proyek yang akan dikumpulkan menggunakan opsi Ubah Cakupan Data dan mengatur visibilitas metadata dalam penyewa menggunakan opsi Konfigurasi Izin.
Di halaman akuisisi metadata, pada bagian Bawaan Sistem, temukan kartu Crawler Default MaxCompute dan klik Detail.
Halaman detail Crawler Default MaxCompute berisi tab Informasi Dasar dan Cakupan Data.
Informasi Dasar: Menampilkan properti dasar crawler, seperti jenis dan metode pengumpulan. Informasi ini hanya-baca.
Cakupan Data: Kelola proyek MaxCompute dari mana crawler mengumpulkan metadata.
Ubah cakupan pengumpulan:
Beralih ke tab Cakupan Data dan klik tombol Ubah Cakupan Data.
Pada kotak dialog yang muncul, pilih atau hapus centang pada proyek MaxCompute yang ingin dimasukkan ke dalam pengumpulan.
PentingCakupan default mencakup semua proyek MaxCompute di wilayah saat ini yang disambungkan ke ruang kerja di bawah penyewa saat ini. Setelah Anda mengubah cakupan data, objek metadata di Peta Data diperbarui agar sesuai dengan cakupan baru. Artinya, metadata untuk proyek yang tidak dipilih tidak akan terlihat.
Klik OK untuk menyimpan perubahan.
Konfigurasi visibilitas metadata:
Di daftar Cakupan Data, temukan proyek target dan klik Konfigurasi Izin di kolom Tindakan.
Pilih kebijakan visibilitas berdasarkan kebutuhan tata kelola data Anda:
Publik dalam penyewa: Semua anggota dalam penyewa dapat mencari dan melihat metadata proyek ini.
Hanya dapat dicari dan dilihat oleh anggota ruang kerja terkait: Hanya anggota ruang kerja tertentu yang dapat mengakses metadata proyek ini. Hal ini menjamin isolasi data.
DLF Perayap Bawaan
Untuk mendukung pengumpulan metadata DLF secara real-time, Anda harus memberikan izin Pembaca Data kepada peran terkait layanan AliyunServiceRoleForDataworksOnEmr di konsol DLF.
Crawler Default DLF mengumpulkan metadata dari Data Lake Formation (DLF) di bawah akun Anda.
Di halaman akuisisi metadata, pada bagian Bawaan Sistem, temukan kartu Crawler Default DLF dan klik Detail untuk melihat informasi dasarnya.
Beralih ke tab Cakupan Data untuk melihat daftar Katalog DLF yang termasuk dalam cakupan pengumpulan dan jumlah tabel yang dikandungnya.
Secara default, semua Katalog yang dapat diakses dikumpulkan, termasuk versi DLF dan DLF-Legacy.
Crawler kustom
Anda perlu membuat crawler kustom untuk mengumpulkan metadata dari sumber data seperti Hologres, StarRocks, MySQL, Oracle, dan CDH Hive.
Buat crawler kustom
Di halaman akuisisi metadata, pada bagian crawler kustom, klik Buat Pengumpulan Metadata.
Pilih jenis pengumpulan: Di halaman pemilihan jenis, pilih jenis sumber data target tempat Anda akan mengumpulkan metadata, seperti Hologres atau StarRocks.
Konfigurasi informasi dasar dan kelompok sumber daya:
Konfigurasi dasar:
Pilih Ruang Kerja: Pilih ruang kerja tempat sumber data berada.
Pilih Sumber Data: Pilih sumber data target yang sudah ada dari daftar tarik-turun. Setelah Anda memilih sumber data, sistem secara otomatis menampilkan detailnya.
Nama: Masukkan nama untuk crawler. Secara default, nama crawler sama dengan nama sumber data.
Konfigurasi kelompok sumber daya:
Kelompok Sumber Daya: Pilih kelompok sumber daya untuk menjalankan tugas pengumpulan.
Uji Konektivitas: Langkah ini sangat penting. Klik Uji Konektivitas untuk memastikan bahwa kelompok sumber daya dapat mengakses sumber data dengan sukses.
PentingJika sumber data memiliki kontrol akses berbasis daftar putih yang diaktifkan, Anda harus mengonfigurasi izin daftar putih. Untuk informasi selengkapnya, lihat Solusi konektivitas jaringan dan Konfigurasi umum: Tambahkan daftar putih.
Jika sumber data tidak menggunakan daftar putih, Anda harus membuat koneksi jaringan untuknya. Untuk informasi selengkapnya, lihat Operasi kelompok sumber daya dan konektivitas jaringan.
Konfigurasi pengumpulan metadata:
Cakupan pengumpulan: Tentukan database (Database/Skema) tempat Anda akan mengumpulkan metadata. Jika sumber data memiliki granularitas tingkat database, database yang terkait dengan sumber data dipilih secara default. Anda juga dapat memilih database lain.
PentingSebuah database hanya dapat dikonfigurasi dalam satu crawler. Jika database tidak dapat dipilih, berarti database tersebut sedang dikumpulkan oleh crawler lain.
Jika Anda mempersempit cakupan pengumpulan, metadata di luar cakupan baru tidak lagi dapat dicari di Peta Data.
Konfigurasi peningkatan cerdas dan jadwal pengumpulan:
Konfigurasi Peningkatan Cerdas (Beta):
Deskripsi yang dihasilkan AI: Jika Anda mengaktifkan fitur ini, sistem menggunakan model besar untuk secara otomatis menghasilkan deskripsi bisnis untuk tabel dan bidang Anda setelah mengumpulkan metadata. Hal ini sangat meningkatkan keterbacaan dan kegunaan metadata. Setelah pengumpulan selesai, Anda dapat membuka halaman detail objek tabel di Peta Data untuk melihat informasi yang dihasilkan AI, seperti deskripsi tabel dan deskripsi bidang.
Jadwal pengumpulan:
Metode pemicu: Pilih Manual atau Berkala.
Manual: Crawler hanya berjalan saat Anda memicunya secara manual. Ini cocok untuk skenario pengumpulan satu kali atau sesuai permintaan.
Berkala: Konfigurasikan tugas terjadwal (misalnya bulanan, harian, mingguan, atau per jam). Sistem akan memperbarui metadata secara berkala.
Untuk mengonfigurasi tugas dengan granularitas tingkat menit, atur jadwal menjadi per jam lalu pilih menit yang diinginkan. Misalnya, Anda dapat mengonfigurasi tugas untuk berjalan setiap 5 menit.
PentingHanya sumber data di lingkungan produksi yang mendukung pengumpulan berkala.
Simpan konfigurasi: Klik Simpan atau Simpan dan Jalankan untuk membuat crawler.
Kelola crawler kustom
Setelah crawler dibuat, crawler tersebut muncul di daftar crawler kustom. Anda dapat melakukan operasi manajemen berikut:
Operasi daftar: Di daftar, Anda dapat Jalankan, Hentikan, atau Hapus crawler. Gunakan fungsi Filter dan Cari di bagian atas untuk menemukan crawler target dengan cepat.
PentingSetelah crawler dihapus, objek metadata yang dikumpulkannya juga dihapus dari Peta Data. Objek-objek tersebut dan detailnya tidak lagi dapat dicari atau dilihat. Lakukan dengan hati-hati.
Lihat detail dan log: Klik nama crawler target untuk membuka halaman detailnya.
Informasi Dasar: Lihat semua item konfigurasi crawler.
Cakupan Data: Lihat atau Ubah Cakupan Data.
Jika dilihat sebelum pengumpulan dijalankan, jumlah tabel dan waktu pembaruan terakhir kosong.
Modifikasi cakupan tidak didukung untuk sumber data berikut: EMR Hive, CDH Hive, Lindorm, Elasticsearch, OTS, dan AnalyticDB for Spark di AnalyticDB for MySQL.
Log jalankan: Lacak riwayat eksekusi setiap tugas pengumpulan. Anda dapat melihat waktu mulai, durasi, status, dan volume data yang dikumpulkan tugas tersebut. Jika tugas gagal, klik Lihat Log untuk menemukan informasi guna memecahkan dan menyelesaikan masalah.
Jalankan tugas pengumpulan secara manual: Di pojok kanan atas halaman detail, klik tombol Kumpulkan Metadata untuk segera memicu tugas pengumpulan. Ini berguna jika Anda ingin segera melihat tabel yang baru dibuat di Peta Data.
Apa yang harus dilakukan selanjutnya
Setelah metadata berhasil dikumpulkan, Anda dapat memanfaatkan sepenuhnya fitur-fitur di Peta Data:
Cari tabel yang telah Anda kumpulkan di Peta Data untuk melihat detailnya, informasi bidang, partisi, dan pratinjau data. Untuk informasi selengkapnya, lihat Detail metadata.
Analisis alur data hulu dan hilir tabel untuk memahami seluruh alur pemrosesan data. Untuk informasi selengkapnya, lihat Analisis alur data.
Tambahkan aset ke koleksi data untuk mengatur dan mengelola data Anda dari perspektif bisnis. Untuk informasi selengkapnya, lihat Koleksi data.
Pertanyaan Umum
T: Mengapa tugas pengumpulan untuk database seperti MySQL mengalami timeout atau gagal?
J: Periksa apakah Anda telah menambahkan VSwitch CIDR Block kelompok sumber daya ke daftar putih.
Lampiran: Cakupan pengumpulan dan ketepatan waktu
Tabel data
Jenis sumber data | Metode pengumpulan | Granularitas pengumpulan | Ketepatan waktu pembaruan metadata | ||
Tabel/Bidang | Partisi | Lineage | |||
MaxCompute | Pengumpulan otomatis default sistem | Instance | Proyek Standar: Real-time Proyek Eksternal: T+1 | Wilayah di Daratan Tiongkok: Real-time Wilayah di luar Tiongkok: T+1 | Real-time |
Data Lake Formation (DLF) | Instance | Real-time | Real-time | Alur data didukung untuk metadata DLF dari mesin Serverless Spark, Serverless StarRocks, dan Serverless Flink. Tidak didukung untuk yang lainnya. Penting Untuk kluster EMR, Anda harus mengaktifkan EMR_HOOK. | |
Hologres | Buat crawler secara manual | Database | Bergantung pada jadwal pengumpulan | Real-time | |
EMR Hive | Instance | Bergantung pada jadwal pengumpulan | Bergantung pada jadwal pengumpulan | Real-time Penting Anda harus mengaktifkan EMR_HOOK untuk kluster tersebut. | |
CDH Hive | Instance | Bergantung pada jadwal pengumpulan | Real-time | Real-time | |
StarRocks | Database |
| Real-time Penting Hanya mode instans yang mendukung pengumpulan alur data. Mode string koneksi tidak dapat mengumpulkan alur data. | ||
AnalyticDB for MySQL | Database | Bergantung pada jadwal pengumpulan | Real-time Catatan Anda harus mengajukan tiket untuk mengaktifkan fitur alur data untuk instans AnalyticDB for MySQL Anda. | ||
AnalyticDB for Spark | Instance | Real-time | Real-time | ||
AnalyticDB for PostgreSQL | Database | Bergantung pada jadwal pengumpulan | Real-time | ||
Lindorm | Instance | Bergantung pada jadwal pengumpulan | Real-time | ||
OTS | Instance | Bergantung pada jadwal pengumpulan | |||
Jenis sumber data lainnya (MySQL, PostgreSQL, SQL Server, Oracle, ClickHouse, dll.) | Database | Bergantung pada jadwal pengumpulan | |||
AnalyticDB for Spark dan AnalyticDB for MySQL menggunakan titik masuk yang sama untuk pengumpulan metadata.
Kode tugas
Peta Data mendukung pencarian dan pelokasian cepat kode tugas. Tabel berikut menjelaskan cakupan yang didukung untuk pencarian kode.
Sumber kode | Cakupan pengumpulan | Metode pemicu |
Pengembangan Data | Pengembangan Data - Buat node dan edit kode | Pengumpulan otomatis |
Pengembangan Data (Lama) | Pengembangan Data (Lama) - Buat node dan edit kode | |
DataAnalysis | DataAnalysis - Buat kueri SQL dan edit kode | |
Studio Layanan Data | Studio Layanan Data - Buat layanan dorong data API |
Aset API
Peta Data mendukung melihat metadata API Studio Layanan Data, sebagaimana dijelaskan di bawah ini:
Jenis API | Cakupan pengumpulan | Metode pemicu |
API yang Dihasilkan (Antarmuka tanpa kode) | Studio Layanan Data - Buat API menggunakan antarmuka tanpa kode | Pengumpulan otomatis |
API yang Dihasilkan (editor kode) | Studio Layanan Data - Buat API menggunakan editor kode | |
API Terdaftar | Studio Layanan Data - Daftarkan API | |
Orkestrasi layanan | Studio Layanan Data - Buat orkestrasi layanan |
Aset AI
Peta Data mendukung melihat dan mengelola aset AI. Fitur ini juga menyediakan fitur alur aset AI untuk melacak sumber, penggunaan, dan evolusi data serta model. Tabel berikut menjelaskan dukungan untuk berbagai aset AI.
Jenis aset | Cakupan pengumpulan | Metode pemicu |
Set data |
| Pengumpulan otomatis |
Model AI | PAI - Tugas pelatihan model/Daftarkan model/Terapkan layanan model | |
Tugas algoritma | PAI - Tugas pelatihan/Tugas alur/Tugas pelatihan terdistribusi | |
Layanan model | PAI - Terapkan layanan model (penyebaran EAS) |
Ruang kerja
Peta Data mendukung melihat metadata ruang kerja, sebagaimana dijelaskan di bawah ini:
Item | Metode pengumpulan | Metode pemicu |
Ruang kerja | DataWorks - Buat ruang kerja | Pengumpulan otomatis |