Gunakan fitur jejak data untuk melacak data dalam penyebaran. Fitur ini membantu mengelola dan mengoptimalkan aliran data secara efisien, mengidentifikasi masalah dengan cepat, serta mengevaluasi dampaknya. Topik ini menjelaskan cara melihat jejak data dari perspektif penyebaran dan metadata.
Informasi latar belakang
Jika sumber dan riwayat perubahan data tidak dapat dilacak, kualitas dan keamanan data menjadi sulit dijamin, serta efisiensi analisis data dan pemecahan masalah menurun. Untuk mengatasi hal ini, gunakan fitur jejak data. Jejak data menunjukkan hubungan yang terbentuk selama pembuatan, pemrosesan, transmisi, dan konsumsi data. Hubungan tersebut mencakup arah aliran dan dependensi antar metadata, serta hubungan produksi dan konsumsi antara metadata dan penyebaran aliran atau batch. Realtime Compute for Apache Flink memungkinkan Anda melihat dan menganalisis jejak data pada tingkat tabel dan bidang untuk lapisan tertentu dari penyebaran. Tabel berikut menjelaskan manfaat jejak data.
Manfaat | Deskripsi |
Meningkatkan efisiensi verifikasi data | Jejak data memungkinkan Anda melacak data dan memiliki pemahaman menyeluruh tentang data, termasuk layanan, basis data, dan tabel yang terlibat dalam penyebaran Anda, properti dan asosiasi bidang tabel, sumber data, langkah-langkah pemrosesan data, jalur transmisi, dan konsumen akhir. Dengan cara ini, Anda dapat lebih memahami arah aliran dan dependensi data. Hal ini membantu Anda memverifikasi kredibilitas dan akurasi data untuk mengelola dan menganalisis data dengan lebih baik serta meningkatkan efisiensi kerja. |
Meningkatkan efisiensi pemecahan masalah | Jika terjadi kesalahan selama pemrosesan data, Anda dapat melihat jejak data untuk mengidentifikasi penyebab utama kesalahan. Hal ini membantu Anda mengidentifikasi dan menyelesaikan masalah dengan cepat untuk mencegah kerugian bisnis dan mengurangi biaya tenaga kerja. |
Meningkatkan efisiensi analisis data | Jika aset data berubah atau terjadi kesalahan, Anda dapat melihat jejak data untuk segera mengidentifikasi penyebaran online yang terpengaruh dan menyelesaikan masalah sesegera mungkin. Hal ini membantu Anda menghindari keputusan yang salah. |
Mengurangi biaya aset data | Jejak data membantu Anda memahami jalur penerusan dan dependensi data untuk mengoptimalkan pemrosesan data dan menonaktifkan layanan yang tidak digunakan dalam waktu lama sesegera mungkin. Hal ini membantu meningkatkan efisiensi dan kualitas pemrosesan data serta mengurangi biaya data. |
Model jejak data
Gambar berikut menunjukkan model jejak data.
Gambar di atas menampilkan node (entitas) dan edge (hubungan). Kombinasi entitas dan hubungan ditampilkan sebagai jejak data.
Item | Deskripsi |
Node | Setiap katalog, tabel data, dan bidang dapat dianggap sebagai entitas data. Entitas diabstraksikan sebagai node dalam jejak data. Jejak data berisi jenis node berikut:
|
Hubungan | Hubungan antar entitas mencakup hubungan antara entitas dan entitas hulu yang memproduksi data serta hubungan antara entitas dan entitas hilir yang mengonsumsi data. Jejak data berisi hubungan berikut:
|
Batasan
Anda hanya dapat melihat jejak data antara penyebaran dan metadata dalam namespace yang sama. Jejak data lintas namespace tidak didukung.
Untuk melihat jejak data dari perspektif metadata, gunakan katalog. Namun, jika ingin melihat jejak data dari perspektif penyebaran, penggunaan katalog tidak diperlukan.
Hanya jejak data penyebaran SQL yang dapat dilihat dan dicari.
Jejak data hanya tersedia untuk penyebaran SQL yang sudah ada dan telah dimulai sekali. Data terbaru tetap tersimpan meskipun penyebaran dibatalkan.
Fitur jejak data mendukung operasi QueryOperation, SinkModifyOperation, dan CreateTableAsTableOperation. Operasi lain seperti eksekusi pernyataan CREATE DATABASE AS, filter, dan JOIN tidak didukung.
Lihat jejak data dari perspektif penyebaran
Di halaman Deployments pada konsol pengembangan Realtime Compute for Apache Flink, Anda dapat menemukan penyebaran yang diinginkan dan melihat informasi tentang node penyebaran, node data, dependensi antar tabel penyebaran, serta hubungan afiliasi antara tabel dan bidang penyebaran.
Secara default, penyebaran digunakan sebagai node pusat dengan tiga lapisan jejak data: tabel hulu, penyebaran pusat, dan tabel hilir. Untuk melacak jejak data sebelumnya, klik tanda plus di sisi kiri tabel hulu. Untuk melacak jejak data berikutnya, klik tanda plus di sisi kanan tabel hilir.
Masuk ke konsol Realtime Compute for Apache Flink.
Temukan ruang kerja yang ingin dikelola dan klik Console di kolom Actions.
Di panel navigasi kiri konsol pengembangan Realtime Compute for Apache Flink, pilih . Di halaman Penyebaran, temukan penyebaran yang diinginkan dan klik nama penyebarannya.
Klik tab Lineage. Di tab Lineage, klik Table Level untuk melihat jejak data tingkat tabel atau Column Level untuk melihat jejak data tingkat bidang.
Jejak data tingkat tabel
Menampilkan jenis node, jenis konektor, nama katalog, nama basis data, nama tabel tujuan, nama tabel sumber, serta informasi penyebaran seperti ID, waktu pembuatan, pembuat, waktu terakhir dimodifikasi, dan pengguna terakhir yang memodifikasi penyebaran.

Jejak data tingkat bidang
Menampilkan nama dan jenis bidang tabel, nama basis data, nama katalog, jenis konektor tabel, serta informasi penyebaran.

Lihat jejak data dari perspektif metadata
Jika banyak penyebaran terkait dengan tabel dalam katalog, graf jejak data mungkin kurang jelas. Dalam hal ini, Anda dapat memperbesar atau memperkecil graf jejak data. Aktifkan juga opsi Auto focus clicked node. Setelah mengaktifkan sakelar ini dan mengklik penyebaran atau tabel yang diinginkan, node terkait akan otomatis berada di tengah.
Masuk ke konsol Realtime Compute for Apache Flink.
Temukan ruang kerja yang ingin dikelola dan klik Console di kolom Actions.
Di panel navigasi kiri konsol pengembangan Realtime Compute for Apache Flink, klik Katalog. Di halaman Catalogs, klik dua kali nama tabel di bawah basis data tertentu dari katalog.
Di tab Lineage, klik Table Level untuk melihat jejak data tingkat tabel atau Column Level untuk melihat jejak data tingkat bidang.
Jejak data tingkat tabel
Anda dapat melihat penyebaran yang merujuk ke tabel tertentu dalam katalog. Jika skema tabel atau data tabel berubah, Anda dapat segera menangani penyebaran yang merujuk ke tabel tersebut, misalnya dengan memodifikasi kode penyebaran atau membatalkan penyebaran.
Klik dua kali node penyebaran yang diinginkan untuk melihat ID, informasi pembuatan, dan informasi modifikasi penyebaran. Untuk dialihkan ke halaman Penyebaran, klik nama penyebaran di posisi yang diberi bingkai merah pada gambar berikut.

Jejak data tingkat bidang
Klik bidang yang diinginkan untuk mengidentifikasi penyebaran dan tabel yang merujuk ke bidang tersebut. Temukan bidang terkait menggunakan garis solid biru. Jika bidang dihapus atau atributnya berubah, Anda dapat segera mengidentifikasi penyebaran dan tabel yang merujuk ke bidang tersebut serta menangani bidang terkait.

Lihat jejak data berdasarkan nama node atau nama bidang
Jika graf jejak data kompleks, Anda dapat mencari node atau bidang berdasarkan nama untuk melihat informasi terkait dengan cepat.
Di panel navigasi kiri konsol pengembangan Realtime Compute for Apache Flink, pilih . Di halaman Penyebaran, klik nama penyebaran yang diinginkan. Di tab Lineage, masukkan nama node atau bidang yang diinginkan di kotak pencarian dan tekan Enter. Pencarian bidang hanya dapat dilakukan di tab Tingkat Kolom.

Node pusat berubah dari penyebaran saat ini menjadi node atau bidang yang ditentukan. Warna node atau bidang tersebut juga berubah.
Klik dua kali nama node atau bidang untuk melihat jejak datanya.