全部产品
Search
文档中心

DataWorks:Pengumpulan metadata

更新时间:Jan 24, 2026

Pengumpulan metadata di DataWorks Data Map memungkinkan Anda mengelola metadata dari berbagai sumber data secara terpusat. Metadata yang dikumpulkan akan terlihat di Data Map. Topik ini menjelaskan cara membuat crawler untuk mengumpulkan metadata.

Ikhtisar

Pengumpulan metadata sangat penting untuk membangun peta data tingkat enterprise dan mengelola aset data. Fitur ini menggunakan crawler untuk mengekstraksi metadata teknis (database, tabel, kolom), alur data, dan informasi partisi dari sumber data DataWorks (seperti MaxCompute, Hologres, MySQL, dan CDH Hive) di seluruh ruang kerja dalam wilayah yang sama. Metadata tersebut kemudian diagregasi ke dalam DataWorks Data Map guna menyediakan tampilan data terpadu.

Pengumpulan metadata memungkinkan Anda:

  • Membangun tampilan data terpadu: Menghilangkan silodata dan mengelola metadata heterogen multi-sumber secara terpusat.

  • Mendukung penemuan dan pencarian data: Memungkinkan konsumen data menemukan data yang dibutuhkan secara cepat dan akurat.

  • Menganalisis alur data end-to-end: Melacak asal dan tujuan data untuk memfasilitasi analisis dampak dan troubleshooting.

  • Memperkuat tata kelola data: Melakukan klasifikasi data, grading, kontrol akses, pemantauan kualitas, serta manajemen siklus hidup berdasarkan metadata yang lengkap.

Penagihan

Secara default, setiap tugas pengumpulan mengonsumsi 0,25 CU × waktu proses tugas. Untuk informasi lebih lanjut, lihat Biaya kelompok sumber daya. Setiap pengumpulan yang berhasil akan menghasilkan satu instans penjadwalan. Untuk informasi lebih lanjut, lihat Biaya instans penjadwalan.

Batasan

  • Jika sumber data menggunakan kontrol akses daftar putih, Anda harus mengonfigurasi daftar putih database. Untuk informasi lebih lanjut, lihat Daftar Putih Pengumpulan Metadata.

  • Pengumpulan metadata lintas wilayah tidak disarankan. Pastikan DataWorks dan sumber data berada dalam wilayah yang sama. Untuk mengumpulkan metadata lintas wilayah, gunakan Alamat IP publik saat membuat sumber data. Untuk informasi lebih lanjut, lihat Manajemen Sumber Data.

  • Crawler metadata MySQL tidak mendukung sumber data OceanBase.

  • Pengumpulan metadata tidak didukung untuk sumber data AnalyticDB for MySQL yang telah mengaktifkan SSL.

Titik masuk

  1. Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi kiri, pilih Data Governance > Data Map. Pada halaman yang muncul, klik Go to Data Map.

  2. Di panel navigasi kiri, klik image untuk menuju halaman pengumpulan metadata.

Crawler bawaan

Crawler bawaan telah dikonfigurasi sebelumnya dan dijalankan secara otomatis oleh DataWorks hampir secara real-time. Crawler ini mengumpulkan metadata inti yang terintegrasi dengan DataWorks. Anda tidak perlu membuatnya; cukup kelola cakupannya saja.

Penting

Jika Anda tidak dapat menemukan tabel target di Data Map, buka My Data > My Tools > Refresh Table Metadata untuk melakukan sinkronisasi manual tabel tersebut.

Crawler default MaxCompute

Crawler ini mengumpulkan metadata dari proyek MaxCompute dalam akun Anda. Di halaman detail, gunakan Modify Data Scope untuk memilih proyek dan Permission Configurations untuk mengatur visibilitas metadata dalam penyewa.

  1. Di bagian Built-in pada halaman pengumpulan metadata, temukan kartu MaxCompute Default Crawler dan klik Details.

  2. Halaman detail MaxCompute Default Crawler berisi tab Basic Information dan Data Scope.

    • Basic Information: Menampilkan atribut dasar crawler, seperti jenis dan mode pengumpulan. Informasi ini hanya bisa dibaca.

    • Data Scope: Mengelola proyek MaxCompute mana yang akan dikumpulkan.

  3. Ubah cakupan pengumpulan:

    1. Klik Data Scope lalu klik Modify Data Scope.

    2. Pada kotak dialog, pilih atau hapus centang proyek MaxCompute yang ingin dikumpulkan.

      Penting

      Cakupan default mencakup semua proyek MaxCompute yang terikat ke ruang kerja dalam wilayah saat ini di bawah penyewa saat ini. Setelah cakupan diubah, hanya objek metadata dalam cakupan tersebut yang akan terlihat di Data Map. Metadata yang tidak dipilih akan menjadi tidak terlihat.

    3. Klik OK untuk menyimpan perubahan.

  4. Konfigurasi visibilitas metadata:

    • Di daftar Data Scope, temukan proyek target dan klik Actions di kolom Permission Configurations.

    • Pilih kebijakan visibilitas sesuai kebutuhan tata kelola data Anda:

      • Public Within Tenant: Semua anggota dalam penyewa dapat mencari dan melihat metadata proyek ini.

      • Only members in the associated workspace can search and view.: Hanya anggota ruang kerja tertentu yang dapat mengakses metadata proyek ini, sehingga memastikan isolasi data.

DLF Default Crawler

Penting

Untuk mendukung pengumpulan metadata DLF secara real-time, Anda harus memberikan izin Data Reader kepada Service Linked Role AliyunServiceRoleForDataworksOnEmr di konsol DLF.

Crawler default DLF mengumpulkan metadata dari Data Lake Formation (DLF) dalam akun Anda.

  1. Di bagian Built-in pada halaman pengumpulan metadata, temukan kartu DLF Default Crawler dan klik Details untuk melihat informasi dasar.

  2. Klik tab Data Scope untuk melihat daftar Catalog DLF yang termasuk dalam cakupan pengumpulan beserta jumlah tabelnya.

    Secara default, semua Catalog yang dapat diakses (termasuk versi DLF dan DLF-Legacy) akan dikumpulkan.

Crawler kustom

Crawler kustom menyediakan manajemen metadata terpadu lintas lingkungan dan mesin.

  • Untuk sumber data konvensional

    Mendukung crawler kustom untuk sumber data terstruktur atau semi-terstruktur tradisional seperti Hologres, StarRocks, MySQL, Oracle, dan CDH Hive. Sistem mengurai struktur tabel database fisik untuk secara otomatis mengekstraksi dan menyinkronkan metadata seperti atribut field, indeks, dan partisi.

  • Untuk sumber data bertipe metadata (Catalog)

    Mendukung pengumpulan langsung sumber data bertipe metadata untuk metadata format lake native yang dideklarasikan sendiri dan tidak dikelola DLF, seperti Paimon Catalog.

Buat crawler kustom

  1. Di bagian daftar crawler kustom pada halaman pengumpulan metadata, klik Create Metadata Collection.

  2. Pilih jenis pengumpulan: Di halaman pemilihan jenis, pilih jenis sumber data target yang ingin dikumpulkan, misalnya Hologres atau StarRocks.

  3. Konfigurasi informasi dasar dan kelompok sumber daya:

    • Basic Configurations:

      • Select Workspace: Pilih ruang kerja yang berisi sumber data.

      • Select Data Source: Pilih sumber data target yang telah dibuat dari daftar drop-down. Setelah dipilih, sistem akan menampilkan detail sumber data secara otomatis.

      • Name: Masukkan nama crawler untuk identifikasi di masa depan. Nama default sama dengan nama sumber data.

    • Resource Group Configuration:

      • Resource Group: Pilih kelompok sumber daya untuk menjalankan tugas pengumpulan.

      • Test Network Connectivity: Langkah ini sangat penting. Klik Test Network Connectivity untuk memastikan kelompok sumber daya dapat mengakses sumber data dengan sukses.

        Penting
        • Periksa apakah sumber data memiliki pembatasan daftar putih. Jika Anda perlu mengumpulkan metadata dengan kontrol akses daftar putih yang diaktifkan, lihat Overview of network connectivity solutions dan Configure a whitelist untuk mengonfigurasi izin daftar putih.

        • Jika sumber data tidak memiliki pembatasan daftar putih, lihat Network connectivity and operations on resource groups untuk konfigurasi konektivitas jaringan.

        • Jika uji konektivitas gagal dengan error: backend service call failed: test connectivity failed.not support data type, hubungi dukungan teknis untuk meningkatkan kelompok sumber daya.

  4. Konfigurasi pengumpulan metadata:

    • Collection Scope: Tentukan database (Database/Schema) yang akan dikumpulkan. Jika sumber data bersifat granular berbasis database, database yang sesuai akan dipilih secara default. Anda dapat memilih database tambahan di luar sumber data tersebut.

      Penting
      • Satu database hanya dapat dikonfigurasi dalam satu crawler. Jika database tidak dapat dipilih, artinya database tersebut sedang dikumpulkan oleh crawler lain.

      • Jika Anda mempersempit cakupan pengumpulan, metadata di luar cakupan tersebut tidak akan dapat dicari di Data Map.

  5. Konfigurasi Pengaturan Peningkatan Cerdas dan Rencana Pengumpulan:

    • Intelligent Enhancement Settings (Beta):

      • AI Collection Description: Saat diaktifkan, sistem menggunakan LLM untuk secara otomatis menghasilkan deskripsi bisnis untuk tabel dan field Anda setelah pengumpulan metadata, sehingga sangat meningkatkan keterbacaan dan kegunaan metadata. Setelah pengumpulan selesai, Anda dapat melihat informasi yang dihasilkan AI (seperti keterangan tabel dan deskripsi field) di halaman detail objek tabel di Data Map.

    • Collection Plan:

      • Trigger Mode: Pilih Manual atau Periodic.

        • Manual: Crawler hanya berjalan saat dipicu secara manual. Ini berlaku untuk pengumpulan sekali pakai atau berdasarkan permintaan.

        • Periodic: Konfigurasikan tugas terjadwal (misalnya bulanan, harian, mingguan, atau per jam). Sistem akan memperbarui metadata secara berkala.

          Untuk mengonfigurasi tugas terjadwal tingkat menit, pilih pengumpulan per jam dan centang semua opsi menit untuk mencapai interval tugas 5 menit.
          Penting

          Pengumpulan periodik hanya didukung untuk sumber data lingkungan produksi.

  6. Simpan konfigurasi: Klik Save atau Save and Run untuk menyelesaikan pembuatan crawler.

Kelola crawler kustom

Setelah crawler dibuat, crawler tersebut akan muncul di daftar kustom. Anda dapat melakukan operasi manajemen berikut:

  • Operasi daftar: Di daftar, Anda dapat langsung Run, Stop, atau Delete crawler tersebut. Gunakan fitur Filter dan Search di bagian atas untuk menemukan crawler target dengan cepat.

    Penting

    Menghapus crawler metadata akan menghapus objek metadata yang dikumpulkannya dari Data Map. Pengguna tidak dapat mencari atau melihat objek tersebut lagi. Peringatan: Tindakan ini tidak dapat dikembalikan.

  • Lihat detail dan log: Klik nama crawler untuk melihat detailnya.

    • Basic Information: Lihat semua item konfigurasi crawler.

    • Data Scope: Lihat atau Modify Data Scope.

      Jika dilihat sebelum pengumpulan, jumlah tabel dan waktu pembaruan terakhir akan kosong.
      Sumber data berikut tidak mendukung modifikasi cakupan: EMR Hive, CDH Hive, Lindorm, ElasticSearch, Tablestore (OTS), MongoDB, dan AnalyticDB for Spark dalam AnalyticDB for MySQL.
    • Run Logs: Lacak riwayat eksekusi setiap tugas pengumpulan. Anda dapat melihat waktu mulai, durasi, status, dan volume data yang dikumpulkan. Saat tugas gagal, mengklik View Logs merupakan titik masuk utama untuk menemukan dan menyelesaikan masalah.

  • Jalankan pengumpulan secara manual: Di pojok kanan atas, klik Collect Metadata untuk segera memicu tugas pengumpulan. Gunakan ini untuk segera melihat tabel yang baru dibuat di Data Map.

Langkah selanjutnya

Setelah metadata dikumpulkan, Anda dapat menggunakan Data Map untuk:

  • Mencari tabel yang telah dikumpulkan di Data Map dan melihat detailnya, informasi field, partisi, serta pratinjau data. Untuk informasi lebih lanjut, lihat Detail metadata.

  • Menganalisis hubungan alur data hulu dan hilir tabel untuk memahami seluruh rantai pemrosesan data. Untuk informasi lebih lanjut, lihat Lihat alur data.

  • Menambahkan aset ke album data untuk mengorganisasi dan mengelola data Anda dari perspektif bisnis. Untuk informasi lebih lanjut, lihat Album data.

FAQ

  • T: Pengumpulan data dari sumber database seperti MySQL mengalami waktu tunggu habis atau gagal?

    J: Pastikan vSwitch CIDR Block kelompok sumber daya telah ditambahkan ke daftar putih.

Cakupan dan ketepatan waktu pengumpulan

Tabel data

Data Source Type

Collection Mode

Granularitas pengumpulan

Ketepatan waktu pembaruan

Tabel/field

Partition

Silsilah

MaxCompute

Pengumpulan otomatis default sistem

Instance

Proyek standar: Real-time

Proyek eksternal: T+1

Wilayah daratan Tiongkok: Real-time

Wilayah luar negeri: T+1

Real-time

Data Lake Formation (DLF)

Instance

Real-time

Real-time

Alur data didukung untuk metadata DLF dari mesin Serverless Spark, Serverless StarRocks, dan Serverless Flink; mesin lain tidak didukung.

Penting

Untuk kluster EMR, Anda harus mengaktifkan EMR_HOOK.

Hologres

Buat crawler secara manual

Database

Bergantung pada jadwal

Tidak didukung

Real-time

EMR Hive

Instance

Bergantung pada jadwal

Bergantung pada jadwal

Real-time

Penting

Anda harus mengaktifkan EMR_HOOK untuk kluster tersebut.

CDH Hive

Instance

Bergantung pada jadwal

Real-time

Real-time

StarRocks

Database

  • Instance Mode: Real-time.

  • Connection String Mode: Bergantung pada jadwal.

Tidak didukung

Real-time

Penting

Pengumpulan alur data hanya didukung dalam Instance Mode. Alur data tidak dapat dikumpulkan dalam Connection String Mode.

AnalyticDB for MySQL

Database

Bergantung pada jadwal

Tidak didukung

Real-time

Catatan

Anda perlu membuat tiket untuk mengaktifkan fitur alur data untuk instans AnalyticDB for MySQL.

AnalyticDB for Spark

Instance

Real-time

Tidak didukung

Real-time

AnalyticDB for PostgreSQL

Database

Bergantung pada jadwal

Tidak didukung

Real-time

Lindorm

Instance

Bergantung pada jadwal

Tidak didukung

Real-time

Tablestore (OTS)

Instans

Bergantung pada jadwal

Tidak didukung

Tidak didukung

MongoDB

Instance

Bergantung pada jadwal

Tidak didukung

Tidak didukung

ElasticSearch

Instance

Bergantung pada jadwal

Tidak didukung

Pembaruan T+1

Paimon Catalog

Catalog

Bergantung pada jadwal

Bergantung pada jadwal

Tidak didukung

Jenis sumber data lainnya (MySQL, PostgreSQL, SQL Server, Oracle, ClickHouse, SelectDB, dll.)

Database

Bergantung pada jadwal

Tidak didukung

Tidak didukung

Catatan

AnalyticDB for Spark dan AnalyticDB for MySQL menggunakan titik masuk pengumpulan metadata yang sama.

Kode tugas

Data Map mendukung pencarian kode dan lokasi cepat. Tabel berikut menjelaskan cakupan yang didukung.

Sumber kode

Cakupan pengumpulan

Metode pemicu

Data Studio

Data Studio - Buat node dan edit kode

Pengumpulan otomatis

Data Studio (Legacy)

Data Studio (Legacy) - Buat node dan edit kode

Data Analysis

Data Analysis - Buat kueri SQL dan edit kode

DataService Studio

DataService Studio - Buat layanan dorong data API

Aset API

Data Map mendukung penayangan metadata API DataService Studio:

API Type

Cakupan pengumpulan

Metode pemicu

Generated API (Codeless UI)

DataService Studio - Create API via codeless UI

Pengumpulan otomatis

Generated API (Code editor)

DataService Studio - Create API via code editor

Registered API

DataService Studio - Register API

Service Orchestration

DataService Studio - Create Service Orchestration

Aset AI

Data Map mendukung penayangan dan pengelolaan aset AI, serta menyediakan alur data aset AI untuk melacak asal, penggunaan, dan evolusi data serta model. Tabel berikut menjelaskan dukungan untuk aset AI.

Jenis

Cakupan pengumpulan

Metode pemicu

Dataset

  • PAI - Buat dataset/Daftarkan dataset

  • DataWorks - Buat dataset

Pengumpulan otomatis

Model AI

PAI - Tugas pelatihan model/Daftarkan model/Terapkan layanan model

Tugas Algoritma

PAI - Tugas pelatihan/Tugas alur kerja/Tugas pelatihan terdistribusi

Layanan Model

PAI - Terapkan layanan model (penyebaran EAS)

Workspace

Data Map mendukung penayangan metadata ruang kerja:

Proyek

Collection Mode

Metode pemicu

Ruang Kerja

DataWorks - Buat ruang kerja

Pengumpulan otomatis