Di Peta Data DataWorks, Anda dapat melihat informasi alur data terperinci untuk tabel dan API DataService Studio pada halaman detailnya. Informasi ini membantu Anda melacak dan mengelola data. Topik ini menjelaskan cara melihat alur data di Peta Data.
Silsilah tabel
Akses
Temukan sebuah tabel dan buka halaman detailnya. Klik tab Lineage untuk melihat detail alur data tingkat tabel dan tingkat bidang. Anda juga dapat menganalisis dampak, mengambil daftar tabel turunan, mengunduh daftar tersebut sebagai file lokal, atau mengirim notifikasi perubahan melalui email.
Peta Data menampilkan alur data antar tabel dan antar bidang yang diurai dari pekerjaan penjadwalan dan informasi penerusan data. Alur data dari operasi manual, seperti kueri sementara, tidak disertakan. Alur data untuk data offline diperbarui berdasarkan siklus T+1.

Batasan untuk berbagai jenis sumber data
E-MapReduce
Untuk mengelola metadata kluster DataLake atau kluster kustom di DataWorks, Anda harus terlebih dahulu mengonfigurasi EMR-HOOK di kluster tersebut. Jika EMR-HOOK tidak dikonfigurasi, alur data tidak akan ditampilkan di DataWorks. Untuk informasi lebih lanjut tentang cara mengonfigurasi EMR-HOOK, lihat Konfigurasi EMR-HOOK untuk Hive.
Anda tidak dapat melihat alur data kluster Spark yang dibuat di halaman EMR on ACK. Namun, Anda dapat melihat alur data kluster EMR Serverless Spark.
Anda tidak dapat melihat alur data tugas yang dikembangkan menggunakan node EMR Presto.
AnalyticDB for MySQL
Anda harus mengajukan tiket untuk mengaktifkan fitur alur data pada instans AnalyticDB for MySQL Anda.
Jika sumber metadata adalah AnalyticDB for Spark, data dikumpulkan secara otomatis.
Jika sumber metadata adalah AnalyticDB for Spark, Anda dapat mengonfigurasi parameter Spark
spark.sql.queryExecutionListeners = com.aliyun.dataworks.meta.lineage.LineageListeneruntuk mengaktifkan alur data real-time.
Untuk tabel AnalyticDB for MySQL, perintah SQL tertentu tidak mendukung pembuatan informasi alur data di Peta Data. Batasan-batasan tersebut adalah sebagai berikut.
Perintah SQL yang tidak mendukung tampilan alur data:
SQL yang Tidak Didukung
Contoh
Pernyataan SQL yang mengandung kata kunci seperti
joinatauunion, atau yang menggunakan wildcard asterisk (*).Sebagai contoh, Peta Data tidak dapat menampilkan alur data untuk pernyataan SQL berikut karena mengandung asterisk (
*).INSERT INTO test SELECT * FROM test1, test2 WHERE test1.id = test2.idSubkueri tidak didukung.
Sebagai contoh, Peta Data tidak dapat menampilkan alur data untuk pernyataan SQL berikut karena mengandung subkueri.
SELECT column1, column2 FROM table1 WHERE column3 IN (SELECT column4 FROM table2 WHERE column5 = 'value')Contoh perintah SQL yang mendukung tampilan alur data:
Contoh 1: Buat tabel bernama A dan isi dengan memilih kolom tertentu (bukan `*`) dari tabel B. Contohnya:
CREATE TABLE test AS SELECT id,name FROM test1;Contoh 2: Masukkan data ke dalam tabel B dengan memilih kolom tertentu (bukan `*`) dari tabel A yang memenuhi kondisi `column1 = value1`. Contohnya:
INSERT INTO test SELECT id,name FROM test1 WHERE name='test';Contoh 3: Timpa data di tabel B dengan data dari kolom tertentu (bukan `*`) dari tabel A. Contohnya:
INSERT OVERWRITE INTO db_name.test SELECT id,name FROM test1;
CDH
Untuk menampilkan alur data tabel untuk proses transformasi data yang menggunakan CDH Spark SQL dan node CDH Spark di Peta Data, konfigurasikan parameter Spark untuk modul transformasi data terkait di .
Buka halaman SettingCenter.
Login ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi sebelah kiri, pilih . Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Management Center.
Di panel navigasi sebelah kiri, klik Cluster Management dan temukan kluster CDH target.
Klik Edit Spark Parameter.

Tambahkan parameter Spark untuk modul transformasi data.
Sebagai contoh, untuk menampilkan alur data tabel proses transformasi data untuk node CDH Spark SQL dan CDH Spark di modul Operation Center - Recurring Instances, tambahkan parameter berikut di modul yang sesuai:
Spark Property Name:
spark.sql.queryExecutionListenersSpark Property Value:
com.aliyun.dataworks.meta.lineage.LineageListener
Klik Confirm untuk menyelesaikan konfigurasi.
Lindorm
Informasi alur data hanya dapat dikumpulkan dalam mode instans. Informasi tersebut tidak dapat dikumpulkan dalam mode string koneksi.
Untuk menampilkan alur data tabel untuk proses transformasi data yang menggunakan node Lindorm Spark dan Lindorm Spark SQL di Peta Data, konfigurasikan parameter Spark untuk modul transformasi data terkait di .
Buka halaman SettingCenter.
Login ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi sebelah kiri, pilih . Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Management Center.
Di panel navigasi sebelah kiri, klik Computing Resources dan temukan sumber daya komputasi Lindorm Anda.
Klik Edit Spark Parameter.
Tambahkan parameter Spark untuk modul transformasi data.
Sebagai contoh, untuk menampilkan alur data tabel proses transformasi data untuk node Lindorm Spark dan Lindorm Spark SQL di modul Operation Center - Recurring Instances, tambahkan parameter berikut di modul yang sesuai:
Spark Property Name:
spark.sql.queryExecutionListeners.Spark Property Value:
com.aliyun.dataworks.meta.lineage.LineageListener.
Klik Confirm untuk menyelesaikan konfigurasi parameter Spark.
Tampilan alur data untuk berbagai sumber data
Sumber data | Data Integration | Data Development | ||
Alur data tingkat tabel | Alur data tingkat bidang | Alur data tingkat tabel | Alur data tingkat bidang | |
AnalyticDB for MySQL
|
|
|
|
|
AnalyticDB for PostgreSQL
|
|
|
|
|
ClickHouse
|
|
|
|
|
CDH/CDP
|
|
| Hive, Impala, Spark, Spark SQL
| Hive, Impala, Spark, Spark SQL
|
E-MapReduce
|
(OSS, Hive)
|
(OSS, Hive)
| Hive, Spark (spark-submit), Spark SQL (format Hudi didukung), Shell (SQL Hive yang dikirimkan menggunakan beeline)
| Hive, Spark (spark-submit), Spark SQL (format Hudi didukung), Shell (SQL Hive yang dikirimkan menggunakan beeline)
|
Hologres
|
|
|
|
|
Kafka
|
(Sinkronkan data dari Kafka ke MaxCompute atau Hologres) |
|
|
|
Lindorm
|
|
|
|
|
MaxCompute
|
|
|
|
|
MySQL
|
(Sinkronkan data dari MySQL ke MaxCompute atau Hologres) |
|
|
|
Oracle
|
|
|
|
|
OceanBase
|
|
|
|
|
OSS
|
|
|
|
|
PolarDB for MySQL
|
|
|
|
|
PolarDB for PostgreSQL
|
|
|
|
|
PostgreSQL
|
|
|
|
|
StarRocks
|
|
|
|
|
SQL Server
|
|
|
|
|
Tablestore (OTS)
|
|
|
|
|
Alur data API DataService Studio
Temukan API DataService Studio dan buka halaman detailnya. Klik tab Lineage untuk melihat detail alur data API tersebut.

Halaman produk
Sinkronisasi real-time