全部产品
Search
文档中心

DataWorks:Akuisisi metadata

更新时间:Nov 14, 2025

DataWorks Data Map menyediakan fitur Metadata Acquisition yang membantu Anda mengelola metadata dari berbagai sumber data DataWorks secara terpusat. Anda dapat melihat semua metadata yang telah dikumpulkan di Data Map. Topik ini menjelaskan cara membuat crawler untuk mengumpulkan metadata dari sumber data Anda ke DataWorks.

Ikhtisar

Akuisisi metadata merupakan fitur inti untuk membangun peta data tingkat perusahaan dan mencapai manajemen aset data terpadu. Fitur ini menjalankan crawler untuk mengekstraksi metadata teknis secara otomatis, seperti database, tabel, dan bidang, beserta informasi alur data dan partisi. Crawler mengekstraksi informasi tersebut dari berbagai sumber data DataWorks—seperti MaxCompute, Hologres, MySQL, dan CDH Hive—yang tersebar di berbagai ruang kerja dalam wilayah yang sama. Metadata yang dikumpulkan kemudian dikonsolidasikan di DataWorks Data Map guna memberikan tampilan data terpadu.

Akuisisi metadata memungkinkan Anda:

  • Membangun tampilan data terpadu: Menghilangkan silodata dengan mengelola metadata heterogen dari berbagai sumber secara terpusat.

  • Mendukung penemuan dan pencarian data: Memungkinkan konsumen data menemukan data yang mereka butuhkan secara cepat dan akurat.

  • Mengaktifkan analisis alur data end-to-end: Melacak asal dan aliran data secara jelas untuk analisis dampak dan pemecahan masalah.

  • Memberdayakan tata kelola data: Melakukan klasifikasi data, kontrol izin, pemantauan kualitas, dan manajemen siklus hidup berdasarkan metadata lengkap.

Penagihan

Setiap tugas pengumpulan mengonsumsi 0,25 CU × waktu proses tugas secara default, yang dikenai biaya kelompok sumber daya. Setiap pengumpulan yang berhasil menghasilkan instance penjadwalan, yang dikenai biaya penjadwalan tugas.

Batasan

  • Saat Anda mengakuisisi metadata dari sumber data yang menggunakan daftar putih untuk kontrol akses, Anda harus mengonfigurasi daftar putih database terlebih dahulu. Untuk informasi selengkapnya, lihat Daftar putih pengumpulan metadata.

  • Akuisisi metadata lintas wilayah tidak disarankan. Wilayah DataWorks harus sama dengan wilayah sumber data. Untuk melakukan akuisisi metadata lintas wilayah, Anda harus menggunakan titik akhir publik saat membuat sumber data. Untuk informasi selengkapnya, lihat Manajemen Sumber Data.

  • Menggunakan Pengumpul Database MySQL untuk mengakuisisi metadata dari sumber data OceanBase tidak didukung.

Buka halaman fitur

  1. Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi sebelah kiri, pilih Data Governance > Data Map. Pada halaman yang muncul, klik Go to Data Map.

  2. Di panel navigasi sebelah kiri, klik image untuk menuju halaman akuisisi metadata.

Crawler bawaan sistem

Crawler bawaan sistem telah dikonfigurasi sebelumnya oleh platform DataWorks dan berjalan secara otomatis hampir real-time. Crawler ini terutama digunakan untuk mengumpulkan metadata inti yang terintegrasi erat dengan DataWorks. Anda tidak perlu membuatnya—cukup kelola cakupannya.

Penting

Jika Anda tidak dapat menemukan tabel target di Peta Data, buka My Data > My Tools > Refresh Table Metadata untuk menyinkronkan tabel secara manual.

Crawler Default MaxCompute

Crawler ini mengumpulkan metadata dari proyek MaxCompute di bawah akun Anda. Anda dapat membuka halaman detail untuk memilih proyek yang akan dikumpulkan menggunakan opsi Ubah Cakupan Data dan mengatur visibilitas metadata dalam penyewa menggunakan opsi Konfigurasi Izin.

  1. Di halaman akuisisi metadata, pada bagian Bawaan Sistem, temukan kartu Crawler Default MaxCompute dan klik Detail.

  2. Halaman detail Crawler Default MaxCompute berisi tab Informasi Dasar dan Cakupan Data.

    • Informasi Dasar: Menampilkan properti dasar crawler, seperti jenis dan metode pengumpulan. Informasi ini hanya-baca.

    • Cakupan Data: Kelola proyek MaxCompute dari mana crawler mengumpulkan metadata.

  3. Ubah cakupan pengumpulan:

    1. Beralih ke tab Cakupan Data dan klik tombol Ubah Cakupan Data.

    2. Pada kotak dialog yang muncul, pilih atau hapus centang pada proyek MaxCompute yang ingin dimasukkan ke dalam pengumpulan.

      Penting

      Cakupan default mencakup semua proyek MaxCompute di wilayah saat ini yang disambungkan ke ruang kerja di bawah penyewa saat ini. Setelah Anda mengubah cakupan data, objek metadata di Peta Data diperbarui agar sesuai dengan cakupan baru. Artinya, metadata untuk proyek yang tidak dipilih tidak akan terlihat.

    3. Klik OK untuk menyimpan perubahan.

  4. Konfigurasi visibilitas metadata:

    • Di daftar Cakupan Data, temukan proyek target dan klik Konfigurasi Izin di kolom Tindakan.

    • Pilih kebijakan visibilitas berdasarkan kebutuhan tata kelola data Anda:

      • Publik dalam penyewa: Semua anggota dalam penyewa dapat mencari dan melihat metadata proyek ini.

      • Hanya dapat dicari dan dilihat oleh anggota ruang kerja terkait: Hanya anggota ruang kerja tertentu yang dapat mengakses metadata proyek ini. Hal ini menjamin isolasi data.

DLF Perayap Bawaan

Penting

Untuk mendukung pengumpulan metadata DLF secara real-time, Anda harus memberikan izin Pembaca Data kepada peran terkait layanan AliyunServiceRoleForDataworksOnEmr di konsol DLF.

Crawler Default DLF mengumpulkan metadata dari Data Lake Formation (DLF) di bawah akun Anda.

  1. Di halaman akuisisi metadata, pada bagian Bawaan Sistem, temukan kartu Crawler Default DLF dan klik Detail untuk melihat informasi dasarnya.

  2. Beralih ke tab Cakupan Data untuk melihat daftar Katalog DLF yang termasuk dalam cakupan pengumpulan dan jumlah tabel yang dikandungnya.

    Secara default, semua Katalog yang dapat diakses dikumpulkan, termasuk versi DLF dan DLF-Legacy.

Crawler kustom

Anda perlu membuat crawler kustom untuk mengumpulkan metadata dari sumber data seperti Hologres, StarRocks, MySQL, Oracle, dan CDH Hive.

Buat crawler kustom

  1. Di halaman akuisisi metadata, pada bagian crawler kustom, klik Buat Pengumpulan Metadata.

  2. Pilih jenis pengumpulan: Di halaman pemilihan jenis, pilih jenis sumber data target tempat Anda akan mengumpulkan metadata, seperti Hologres atau StarRocks.

  3. Konfigurasi informasi dasar dan kelompok sumber daya:

    • Konfigurasi dasar:

      • Pilih Ruang Kerja: Pilih ruang kerja tempat sumber data berada.

      • Pilih Sumber Data: Pilih sumber data target yang sudah ada dari daftar tarik-turun. Setelah Anda memilih sumber data, sistem secara otomatis menampilkan detailnya.

      • Nama: Masukkan nama untuk crawler. Secara default, nama crawler sama dengan nama sumber data.

    • Konfigurasi kelompok sumber daya:

      • Kelompok Sumber Daya: Pilih kelompok sumber daya untuk menjalankan tugas pengumpulan.

      • Uji Konektivitas: Langkah ini sangat penting. Klik Uji Konektivitas untuk memastikan bahwa kelompok sumber daya dapat mengakses sumber data dengan sukses.

        Penting
  4. Konfigurasi pengumpulan metadata:

    • Cakupan pengumpulan: Tentukan database (Database/Skema) tempat Anda akan mengumpulkan metadata. Jika sumber data memiliki granularitas tingkat database, database yang terkait dengan sumber data dipilih secara default. Anda juga dapat memilih database lain.

      Penting
      • Sebuah database hanya dapat dikonfigurasi dalam satu crawler. Jika database tidak dapat dipilih, berarti database tersebut sedang dikumpulkan oleh crawler lain.

      • Jika Anda mempersempit cakupan pengumpulan, metadata di luar cakupan baru tidak lagi dapat dicari di Peta Data.

  5. Konfigurasi peningkatan cerdas dan jadwal pengumpulan:

    • Konfigurasi Peningkatan Cerdas (Beta):

      • Deskripsi yang dihasilkan AI: Jika Anda mengaktifkan fitur ini, sistem menggunakan model besar untuk secara otomatis menghasilkan deskripsi bisnis untuk tabel dan bidang Anda setelah mengumpulkan metadata. Hal ini sangat meningkatkan keterbacaan dan kegunaan metadata. Setelah pengumpulan selesai, Anda dapat membuka halaman detail objek tabel di Peta Data untuk melihat informasi yang dihasilkan AI, seperti deskripsi tabel dan deskripsi bidang.

    • Jadwal pengumpulan:

      • Metode pemicu: Pilih Manual atau Berkala.

        • Manual: Crawler hanya berjalan saat Anda memicunya secara manual. Ini cocok untuk skenario pengumpulan satu kali atau sesuai permintaan.

        • Berkala: Konfigurasikan tugas terjadwal (misalnya bulanan, harian, mingguan, atau per jam). Sistem akan memperbarui metadata secara berkala.

          Untuk mengonfigurasi tugas dengan granularitas tingkat menit, atur jadwal menjadi per jam lalu pilih menit yang diinginkan. Misalnya, Anda dapat mengonfigurasi tugas untuk berjalan setiap 5 menit.
          Penting

          Hanya sumber data di lingkungan produksi yang mendukung pengumpulan berkala.

  6. Simpan konfigurasi: Klik Simpan atau Simpan dan Jalankan untuk membuat crawler.

Kelola crawler kustom

Setelah crawler dibuat, crawler tersebut muncul di daftar crawler kustom. Anda dapat melakukan operasi manajemen berikut:

  • Operasi daftar: Di daftar, Anda dapat Jalankan, Hentikan, atau Hapus crawler. Gunakan fungsi Filter dan Cari di bagian atas untuk menemukan crawler target dengan cepat.

    Penting

    Setelah crawler dihapus, objek metadata yang dikumpulkannya juga dihapus dari Peta Data. Objek-objek tersebut dan detailnya tidak lagi dapat dicari atau dilihat. Lakukan dengan hati-hati.

  • Lihat detail dan log: Klik nama crawler target untuk membuka halaman detailnya.

    • Informasi Dasar: Lihat semua item konfigurasi crawler.

    • Cakupan Data: Lihat atau Ubah Cakupan Data.

      Jika dilihat sebelum pengumpulan dijalankan, jumlah tabel dan waktu pembaruan terakhir kosong.
      Modifikasi cakupan tidak didukung untuk sumber data berikut: EMR Hive, CDH Hive, Lindorm, Elasticsearch, OTS, dan AnalyticDB for Spark di AnalyticDB for MySQL.
    • Log jalankan: Lacak riwayat eksekusi setiap tugas pengumpulan. Anda dapat melihat waktu mulai, durasi, status, dan volume data yang dikumpulkan tugas tersebut. Jika tugas gagal, klik Lihat Log untuk menemukan informasi guna memecahkan dan menyelesaikan masalah.

  • Jalankan tugas pengumpulan secara manual: Di pojok kanan atas halaman detail, klik tombol Kumpulkan Metadata untuk segera memicu tugas pengumpulan. Ini berguna jika Anda ingin segera melihat tabel yang baru dibuat di Peta Data.

Apa yang harus dilakukan selanjutnya

Setelah metadata berhasil dikumpulkan, Anda dapat memanfaatkan sepenuhnya fitur-fitur di Peta Data:

  • Cari tabel yang telah Anda kumpulkan di Peta Data untuk melihat detailnya, informasi bidang, partisi, dan pratinjau data. Untuk informasi selengkapnya, lihat Detail metadata.

  • Analisis alur data hulu dan hilir tabel untuk memahami seluruh alur pemrosesan data. Untuk informasi selengkapnya, lihat Analisis alur data.

  • Tambahkan aset ke koleksi data untuk mengatur dan mengelola data Anda dari perspektif bisnis. Untuk informasi selengkapnya, lihat Koleksi data.

Pertanyaan Umum

  • T: Mengapa tugas pengumpulan untuk database seperti MySQL mengalami timeout atau gagal?

    J: Periksa apakah Anda telah menambahkan VSwitch CIDR Block kelompok sumber daya ke daftar putih.

Lampiran: Cakupan pengumpulan dan ketepatan waktu

Tabel data

Jenis sumber data

Metode pengumpulan

Granularitas pengumpulan

Ketepatan waktu pembaruan metadata

Tabel/Bidang

Partisi

Lineage

MaxCompute

Pengumpulan otomatis default sistem

Instance

Proyek Standar: Real-time

Proyek Eksternal: T+1

Wilayah di Daratan Tiongkok: Real-time

Wilayah di luar Tiongkok: T+1

Real-time

Data Lake Formation (DLF)

Instance

Real-time

Real-time

Alur data didukung untuk metadata DLF dari mesin Serverless Spark, Serverless StarRocks, dan Serverless Flink. Tidak didukung untuk yang lainnya.

Penting

Untuk kluster EMR, Anda harus mengaktifkan EMR_HOOK.

Hologres

Buat crawler secara manual

Database

Bergantung pada jadwal pengumpulan

Tidak didukung

Real-time

EMR Hive

Instance

Bergantung pada jadwal pengumpulan

Bergantung pada jadwal pengumpulan

Real-time

Penting

Anda harus mengaktifkan EMR_HOOK untuk kluster tersebut.

CDH Hive

Instance

Bergantung pada jadwal pengumpulan

Real-time

Real-time

StarRocks

Database

  • Mode instans: Real-time.

  • Mode string koneksi: Bergantung pada jadwal pengumpulan.

Tidak didukung

Real-time

Penting

Hanya mode instans yang mendukung pengumpulan alur data. Mode string koneksi tidak dapat mengumpulkan alur data.

AnalyticDB for MySQL

Database

Bergantung pada jadwal pengumpulan

Tidak didukung

Real-time

Catatan

Anda harus mengajukan tiket untuk mengaktifkan fitur alur data untuk instans AnalyticDB for MySQL Anda.

AnalyticDB for Spark

Instance

Real-time

Tidak didukung

Real-time

AnalyticDB for PostgreSQL

Database

Bergantung pada jadwal pengumpulan

Tidak didukung

Real-time

Lindorm

Instance

Bergantung pada jadwal pengumpulan

Tidak didukung

Real-time

OTS

Instance

Bergantung pada jadwal pengumpulan

Tidak didukung

Tidak didukung

Jenis sumber data lainnya (MySQL, PostgreSQL, SQL Server, Oracle, ClickHouse, dll.)

Database

Bergantung pada jadwal pengumpulan

Tidak didukung

Tidak didukung

Catatan

AnalyticDB for Spark dan AnalyticDB for MySQL menggunakan titik masuk yang sama untuk pengumpulan metadata.

Kode tugas

Peta Data mendukung pencarian dan pelokasian cepat kode tugas. Tabel berikut menjelaskan cakupan yang didukung untuk pencarian kode.

Sumber kode

Cakupan pengumpulan

Metode pemicu

Pengembangan Data

Pengembangan Data - Buat node dan edit kode

Pengumpulan otomatis

Pengembangan Data (Lama)

Pengembangan Data (Lama) - Buat node dan edit kode

DataAnalysis

DataAnalysis - Buat kueri SQL dan edit kode

Studio Layanan Data

Studio Layanan Data - Buat layanan dorong data API

Aset API

Peta Data mendukung melihat metadata API Studio Layanan Data, sebagaimana dijelaskan di bawah ini:

Jenis API

Cakupan pengumpulan

Metode pemicu

API yang Dihasilkan (Antarmuka tanpa kode)

Studio Layanan Data - Buat API menggunakan antarmuka tanpa kode

Pengumpulan otomatis

API yang Dihasilkan (editor kode)

Studio Layanan Data - Buat API menggunakan editor kode

API Terdaftar

Studio Layanan Data - Daftarkan API

Orkestrasi layanan

Studio Layanan Data - Buat orkestrasi layanan

Aset AI

Peta Data mendukung melihat dan mengelola aset AI. Fitur ini juga menyediakan fitur alur aset AI untuk melacak sumber, penggunaan, dan evolusi data serta model. Tabel berikut menjelaskan dukungan untuk berbagai aset AI.

Jenis aset

Cakupan pengumpulan

Metode pemicu

Set data

  • PAI - Buat/Daftarkan set data

  • DataWorks - Buat set data

Pengumpulan otomatis

Model AI

PAI - Tugas pelatihan model/Daftarkan model/Terapkan layanan model

Tugas algoritma

PAI - Tugas pelatihan/Tugas alur/Tugas pelatihan terdistribusi

Layanan model

PAI - Terapkan layanan model (penyebaran EAS)

Ruang kerja

Peta Data mendukung melihat metadata ruang kerja, sebagaimana dijelaskan di bawah ini:

Item

Metode pengumpulan

Metode pemicu

Ruang kerja

DataWorks - Buat ruang kerja

Pengumpulan otomatis