Topik ini menjelaskan istilah-istilah yang digunakan dalam pengembangan data di berbagai layanan DataWorks, termasuk Data Integration, Data Modeling, DataStudio, DataAnalysis, dan DataService Studio.
Istilah umum
ruang kerja
Sebuah ruang kerja adalah unit dasar untuk mengelola tugas, anggota, peran, dan izin di DataWorks. Administrator ruang kerja dapat menambahkan pengguna sebagai anggota dan menetapkan peran seperti Administrator Ruang Kerja, Pengembang, O&M, Penyebar, Administrator Keamanan, atau Pengunjung kepada setiap anggota. Dengan cara ini, anggota dengan peran berbeda dapat bekerja sama secara efektif.
Disarankan untuk membuat ruang kerja berdasarkan departemen atau unit bisnis guna mengisolasi sumber daya.
kelompok sumber daya
Sebuah kelompok sumber daya adalah layanan dasar yang disediakan oleh DataWorks untuk menyediakan sumber daya komputasi bagi berbagai fitur dan layanan. Sebelum melakukan operasi pengembangan data menggunakan DataWorks, Anda harus memiliki kelompok sumber daya. Status dan kuota kelompok sumber daya memengaruhi efisiensi operasi tugas atau layanan.
Kelompok sumber daya di DataWorks berbeda dari kelompok sumber daya dalam Akun Alibaba Cloud. Kelompok sumber daya di Akun Alibaba Cloud digunakan untuk mengelola sumber daya akun berdasarkan grup, sedangkan di DataWorks digunakan untuk menjalankan tugas.
Kecuali dinyatakan lain, kelompok sumber daya di DataWorks merujuk pada kelompok sumber daya serverless daripada kelompok sumber daya versi lama. Kelompok sumber daya serverless dapat melayani general purposes.
Kelompok sumber daya serverless dapat digunakan dalam sinkronisasi data, penjadwalan data, dan DataService Studio.
mode dasar dan mode standar
Untuk memfasilitasi output data bagi pengguna dengan persyaratan kontrol keamanan yang berbeda, DataWorks menyediakan dua mode ruang kerja: mode dasar dan mode standar. Jika Anda menambahkan sumber data ke ruang kerja dalam mode standar, dua sumber data dibuat secara terpisah di lingkungan pengembangan dan produksi untuk isolasi data.
resource komputasi
Resource komputasi adalah instance resource yang digunakan oleh mesin komputasi terkait untuk menjalankan tugas pemrosesan dan analisis data. Misalnya, proyek MaxCompute yang dikonfigurasikan dengan kuota group dan instance Hologres adalah resource komputasi.
Anda dapat mengaitkan beberapa resource komputasi dengan ruang kerja. Setelah dikaitkan, Anda dapat mengembangkan dan menjadwalkan tugas yang menggunakan resource tersebut dalam ruang kerja.
Data Integration
sumber data
Sumber data digunakan untuk menghubungkan layanan penyimpanan data yang berbeda. Sebelum mengonfigurasi tugas sinkronisasi, Anda harus mendefinisikan informasi tentang sumber data yang ingin digunakan di DataWorks. Dengan cara ini, ketika mengonfigurasi tugas sinkronisasi, Anda dapat memilih nama sumber data untuk menentukan database dari mana membaca data dan ke mana menulis data. Anda dapat menambahkan berbagai jenis sumber data ke ruang kerja.
sinkronisasi data
Fitur sinkronisasi data dari Data Integration dapat digunakan untuk menyinkronkan data terstruktur, semi-terstruktur, dan tidak terstruktur. Data terstruktur mencakup data dalam ApsaraDB RDS dan sumber data PolarDB-X 1.0. Data tidak terstruktur mencakup data dalam Object Storage Service (OSS) dan file teks. Data Integration hanya dapat menyinkronkan data yang dapat diabstraksi menjadi tabel logika dua dimensi. Fitur ini mendukung metode sinkronisasi seperti sinkronisasi batch, sinkronisasi real-time, dan sinkronisasi data penuh serta inkremental dalam satu tabel atau database. Selain itu, fitur ini juga mendukung tugas sinkronisasi serverless.
Data Modeling
pemodelan data
Dengan pertumbuhan pesat bisnis perusahaan, jumlah data meningkat secara eksponensial, kompleksitas data bertambah, dan berbagai standar data yang tidak konsisten muncul. Hal ini meningkatkan kesulitan dalam manajemen data. Untuk mengatasi masalah ini, DataWorks menyediakan Pemodelan Data untuk membantu menyusun dan mengelola sejumlah besar data yang tidak teratur dan kompleks. Pemodelan Data membantu perusahaan mendapatkan lebih banyak nilai dari data bisnis.
pemodelan terbalik
Pemodelan terbalik memungkinkan Anda menghasilkan model berdasarkan tabel fisik yang ada. Ini membantu mengurangi periode waktu yang diperlukan untuk menghasilkan model dalam Pemodelan Dimensional.
ruang kerja pemodelan
Jika sistem data melibatkan beberapa ruang kerja dan Anda ingin menerapkan rencana gudang data yang sama ke ruang kerja tersebut, Anda dapat menggunakan fitur ruang kerja pemodelan untuk berbagi rangkaian alat pemodelan data yang sama di antara ruang kerja tersebut. Ini memungkinkan Anda merencanakan gudang data, melakukan pemodelan dimensional, dan mendefinisikan metrik secara seragam.
tabel dimensi
Sebuah tabel dimensi digunakan untuk menyimpan dimensi dan atribut dimensi tersebut. Dimensi diekstraksi dari domain data berdasarkan perencanaan domain data Anda dan mungkin digunakan untuk menganalisis data dalam domain data tersebut. Misalnya, dimensi yang mungkin termasuk pesanan, pengguna, dan komoditas.
tabel fakta
Sebuah tabel fakta digunakan untuk menyimpan data aktual yang mencerminkan situasi aktivitas bisnis. Data aktual diorganisir dan dianalisis berdasarkan perencanaan proses bisnis. Misalnya, Anda dapat membuat tabel fakta untuk proses bisnis pemesanan dan mencatat informasi seperti ID pesanan, waktu pembuatan pesanan, ID komoditas, jumlah komoditas, dan jumlah penjualan.
tabel agregat
Sebuah tabel agregat digunakan untuk menyimpan data statistik dari beberapa metrik turunan yang memiliki periode statistik dan dimensi yang sama dalam domain data. Tabel agregat diperoleh berdasarkan hasil abstraksi dan pengurutan data bisnis, dan dapat digunakan sebagai dasar untuk kueri bisnis selanjutnya, analisis OLAP, dan distribusi data.
tabel aplikasi
Sebuah tabel aplikasi cocok untuk berbagai skenario bisnis. Tabel aplikasi digunakan untuk mengorganisir data statistik yang dikumpulkan oleh metrik atomik dan turunan dengan periode statistik, dimensi, dan granularitas statistik yang sama. Ini memungkinkan Anda melakukan kueri bisnis, analisis OLAP, dan distribusi data secara efisien.
mart data
Sebuah mart data adalah organisasi data yang didasarkan pada kategori bisnis. Anda dapat menggunakan mart data untuk mengorganisir data untuk produk atau skenario tertentu. Dalam kebanyakan kasus, mart data termasuk dalam lapisan aplikasi dan bergantung pada data agregat di lapisan umum.
perencanaan gudang data
Seorang arsitek gudang data atau anggota kelompok model yang menggunakan DataWorks untuk melakukan pemodelan data dapat merancang lapisan data, kategori bisnis, domain data, proses bisnis, mart data, dan area subjek pada halaman perencanaan gudang data di konsol DataWorks. Setelah desain selesai, seorang perancang model dapat mengelola model yang telah dibuat berdasarkan objek seperti lapisan data, kategori bisnis, domain data, dan proses bisnis.
Data import layer: Lapisan impor data digunakan untuk menyimpan data mentah dasar seperti data basis data, log, dan pesan. Setelah data mentah diproses oleh berbagai operasi ETL, data mentah disimpan di lapisan impor data. Anda hanya dapat menyimpan tabel ODS di lapisan impor data.
Common layer: Lapisan umum digunakan untuk memproses dan menggabungkan data umum yang disimpan di lapisan impor data. Anda dapat membuat dimensi metrik yang seragam dan membuat data fakta dan data agregat yang dapat digunakan kembali untuk analisis data dan pengumpulan di lapisan umum. Anda dapat menyimpan tabel fakta, tabel dimensi, dan tabel agregat di lapisan umum.
Application layer: Lapisan aplikasi digunakan untuk menyimpan data yang diproses dan digabungkan di lapisan umum. Anda dapat menyimpan data statistik yang dikumpulkan dalam skenario aplikasi tertentu atau untuk produk tertentu di lapisan aplikasi. Anda dapat menyimpan tabel aplikasi dan tabel dimensi di lapisan aplikasi.
lapisan data
Secara default, gudang data dibagi menjadi lapisan berikut: ODS, dimension (DIM), data warehouse detail (DWD), data warehouse summary (DWS), dan application data service (ADS). Untuk informasi lebih lanjut, lihat topik-topik dalam direktori pelapisan gudang data.
ODS
Lapisan ini digunakan untuk menerima dan memproses data mentah yang perlu disimpan di gudang data. Struktur tabel data di lapisan ODS sama dengan struktur tabel data tempat data mentah disimpan. Lapisan ODS berfungsi sebagai area staging untuk gudang data.
DWD
Pada lapisan ini, model data dibangun berdasarkan aktivitas bisnis suatu perusahaan. Anda dapat membuat tabel fakta yang menggunakan tingkat granularitas tertinggi berdasarkan karakteristik aktivitas bisnis tertentu. Anda dapat menduplikasi beberapa bidang atribut utama dimensi dalam tabel fakta dan membuat tabel lebar berdasarkan kebiasaan penggunaan data perusahaan. Anda juga dapat mengurangi asosiasi antara tabel fakta dan tabel dimensi untuk meningkatkan kegunaan tabel fakta.
DWS
Pada lapisan ini, model data dibangun berdasarkan objek subjek tertentu yang ingin Anda analisis. Anda dapat membuat tabel agregat umum berdasarkan kebutuhan metrik aplikasi dan produk lapisan atas.
ADS
Lapisan ini digunakan untuk menyimpan data metrik spesifik produk dan menghasilkan berbagai laporan.
DIM
Pada lapisan ini, model data dibangun berdasarkan dimensi. Anda dapat menyimpan tabel dimensi logis dan dimensi konseptual di lapisan ini berdasarkan kebutuhan bisnis Anda. Anda dapat mendefinisikan dimensi, menentukan kunci utama, menambahkan atribut dimensi, dan mengasosiasikan dimensi yang berbeda untuk tabel dimensi. Ini memastikan konsistensi data dalam analisis data dan mengurangi risiko spesifikasi dan algoritma perhitungan data yang tidak konsisten.
area subjek
Sebuah area subjek adalah kumpulan subjek bisnis dan digunakan untuk mengkategorikan data dalam mart data dari berbagai perspektif analitik. Anda dapat mengklasifikasikan subjek bisnis ke dalam area subjek yang berbeda berdasarkan kebutuhan bisnis Anda. Misalnya, Anda dapat membuat area subjek transaksi, area subjek anggota, dan area subjek komoditas untuk data e-commerce.
domain data
Sebuah domain data menyimpan data dengan tipe yang sama. Anda dapat merancang dan membuat domain data untuk data bisnis Anda berdasarkan dimensi yang berbeda, seperti tipe bisnis, sumber data, dan penggunaan data. Domain data membantu Anda mencari data secara efisien. Kriteria klasifikasi domain data bervariasi berdasarkan penggunaan data. Misalnya, Anda dapat membuat domain data transaksi, domain data anggota, dan domain data komoditas untuk data e-commerce.
proses bisnis
Sebuah proses bisnis mengacu pada aktivitas bisnis yang dilakukan oleh perusahaan dalam domain data tertentu. Proses bisnis adalah subjek logis yang perlu dianalisis dalam Pemodelan Data. Misalnya, domain data transaksi dapat berisi proses bisnis seperti menambahkan komoditas ke keranjang belanja, menempatkan pesanan, dan membayar pesanan.
metrik komposit
Sebuah metrik komposit dihitung berdasarkan metrik turunan tertentu dan aturan perhitungan. Metrik turunan hanya mengumpulkan statistik tentang aktivitas bisnis dalam periode waktu tertentu dan tidak dapat memenuhi kebutuhan pengguna untuk menghitung item seperti tingkat pertumbuhan dan perbedaan nilai data. Untuk mengatasi masalah ini, DataWorks menyediakan metrik komposit yang dihitung berdasarkan metrik turunan tertentu dan aturan perhitungan. Metrik komposit adalah metrik halus yang dapat membantu Anda mengumpulkan statistik tentang bisnis Anda secara fleksibel.
metrik data
Pemodelan Data menyediakan fitur metrik data, yang memungkinkan Anda membangun sistem metrik yang seragam.
Sistem metrik terdiri dari metrik atomik, pengubah, periode, dan metrik turunan.
Metrik atomik: Metrik atomik adalah pengukuran yang digunakan untuk proses bisnis. Misalnya, Anda dapat membuat metrik atomik bernama Jumlah Pembayaran untuk proses bisnis Penempatan Pesanan.
Pengubah: Pengubah membatasi ruang lingkup bisnis berdasarkan mana metrik tertentu mengumpulkan data. Misalnya, Anda dapat membuat pengubah bernama Produk Ibu dan Bayi untuk membatasi ruang lingkup statistik metrik atomik Jumlah Pembayaran.
Periode: Periode menentukan rentang waktu atau titik waktu saat metrik mengumpulkan data. Misalnya, Anda dapat membuat periode bernama Tujuh Hari Terakhir untuk metrik atomik Jumlah Pembayaran.
Metrik turunan: Metrik turunan terdiri dari metrik atomik, periode, dan satu atau lebih pengubah. Misalnya, Anda dapat membuat metrik turunan bernama Jumlah Pembayaran Produk Ibu dan Bayi dalam Tujuh Hari Terakhir.
tabel pencarian
Sebuah tabel pencarian mendefinisikanrentang nilai bidang yang didefinisikan oleh standar bidang. Misalnya, tabel pencarian yang dirujuk oleh standar bidang bernama gender berisi laki-laki dan perempuan.
standar bidang
Sebuah standar bidang digunakan untuk mengelola nilai bidang yang memiliki arti yang sama tetapi nama yang berbeda secara terpusat. Standar bidang juga dapat digunakan untuk mendefinisikan rentang nilai dan satuan pengukuran untuk bidang tersebut. Jika perubahan dilakukan pada standar bidang, Anda dapat dengan cepat mengidentifikasi dan memodifikasi tabel yang berisi bidang yang didefinisikan oleh standar bidang. Ini secara signifikan meningkatkan efisiensi aplikasi data dan akurasi data.
DataStudio
node
Layanan DataStudio dari DataWorks memungkinkan Anda membuat berbagai jenis node, seperti node sinkronisasi data, node mesin komputasi yang digunakan untuk pembersihan data, dan node umum yang digunakan bersama dengan node mesin komputasi untuk memproses logika kompleks. Node mesin komputasi mencakup node ODPS SQL, node Hologres SQL, dan node EMR Hive. Node umum mencakup node beban nol yang dapat digunakan untuk mengelola beberapa node lainnya dan node do-while yang dapat menjalankan kode node dalam loop. Anda dapat menggabungkan berbagai jenis node dalam bisnis Anda untuk memenuhi kebutuhan pemrosesan data yang berbeda.
alur kerja
Konsep alur kerja diabstraksi dari bisnis untuk membantu Anda mengelola dan mengembangkan kode berdasarkan kebutuhan bisnis Anda dan meningkatkan efisiensi manajemen tugas.
Alur kerja menyediakan fitur-fitur berikut:
Memungkinkan Anda mengembangkan dan mengelola kode berdasarkan jenis tugas.
Mendukung struktur direktori hierarkis. Kami merekomendasikan Anda membuat maksimal empat tingkat subdirektori untuk alur kerja.
Memungkinkan Anda melihat dan mengoptimalkan alur kerja dari perspektif bisnis.
Memungkinkan Anda menyebarkan dan melakukan operasi O&M pada tugas dalam alur kerja secara keseluruhan.
Menyediakan dasbor untuk Anda mengembangkan kode dengan efisiensi yang ditingkatkan.
alur kerja yang dipicu otomatis
Sebuah alur kerja yang dipicu otomatis adalah cara pengembangan baru yang menyediakan antarmuka pengembangan DAG visual dari perspektif bisnis. Anda dapat mengintegrasikan berbagai jenis tugas atau node dalam alur kerja yang dipicu otomatis dengan melakukan operasi seret secara visual. Ini membantu Anda mengonfigurasi dependensi untuk tugas atau node dengan cara yang nyaman, memfasilitasi pemrosesan data, meningkatkan efisiensi pengembangan tugas, dan menyederhanakan manajemen tugas dan proyek yang kompleks.
Notebook
Fitur Notebook dari DataWorks menyediakan lingkungan interaktif dan memungkinkan pengguna untuk mengintegrasikan kode seperti SQL dan Python, teks, hasil eksekusi kode, dan visualisasi data untuk melakukan eksplorasi data intuitif, analisis data, dan pengembangan model berbasis AI.
template skrip SQL
Sebuah template skrip SQL adalah potongan logika umum yang diabstraksi dari skrip SQL dan dapat memfasilitasi penggunaan ulang kode. Template skrip SQL hanya dapat digunakan untuk mengembangkan tugas MaxCompute.
Setiap template skrip SQL melibatkan satu atau lebih tabel sumber. Anda dapat memfilter data tabel sumber, menggabungkan tabel sumber, dan menggabungkan tabel sumber untuk menghasilkan tabel hasil berdasarkan kebutuhan bisnis Anda. Sebuah template skrip SQL berisi beberapa parameter input dan output.
ketergantungan penjadwalan
Sebuah ketergantungan penjadwalan digunakan untuk menentukan urutan tugas dijalankan. Jika Node B hanya dapat berjalan setelah Node A selesai berjalan, maka Node A adalah node leluhur dari Node B, dan Node B bergantung pada Node A. Dalam grafik asiklik langsung (DAG), dependensi antar node direpresentasikan oleh panah.
timestamp data
Timestamp data merujuk pada tanggal yang secara langsung relevan dengan aktivitas bisnis. Tanggal tersebut mencerminkan waktu aktual saat data bisnis dihasilkan. Konsep timestamp data sangat penting dalam skenario komputasi offline. Misalnya, dalam bisnis ritel, jika Anda mengumpulkan statistik tentang omset pada 10 Oktober 2024, omset tersebut dihitung pada pagi hari tanggal 11 Oktober 2024. Dalam hal ini, timestamp data adalah 20241010.
nama output
Sebuah nama output adalah nama output yang dihasilkan oleh sebuah tugas. Setiap tugas memiliki nama output. Saat Anda mengonfigurasi dependensi antar tugas dalam Akun Alibaba Cloud, nama output suatu tugas digunakan untuk menghubungkan tugas tersebut dengan tugas turunan lainnya.
Saat Anda mengonfigurasi dependensi untuk sebuah tugas, Anda harus menggunakan nama output tugas tersebut, bukan nama tugas atau ID. Setelah Anda mengonfigurasi dependensi, nama output tugas tersebut berfungsi sebagai nama input tugas turunan dari tugas tersebut.
CatatanNama output suatu tugas membedakan tugas tersebut dari tugas lain dalam Akun Alibaba Cloud yang sama. Secara default, nama output suatu tugas berformat sebagai berikut:
Nama ruang kerja.Nomor acak sembilan digit.out. Anda dapat menentukan nama output kustom untuk sebuah tugas. Anda harus memastikan bahwa nama output tugas tersebut unik dalam Akun Alibaba Cloud Anda.nama tabel output
Kami merekomendasikan Anda menggunakan nama tabel yang dihasilkan oleh sebuah tugas sebagai nama tabel output. Konfigurasi nama tabel output yang tepat dapat membantu memeriksa apakah data berasal dari tabel leluhur yang diharapkan saat Anda mengonfigurasi dependensi untuk tugas turunan. Kami merekomendasikan Anda tidak secara manual memodifikasi nama tabel output yang dihasilkan berdasarkan penguraian otomatis. Nama tabel output hanya berfungsi sebagai pengenal. Jika Anda memodifikasi nama tabel output, nama tabel yang sebenarnya dihasilkan dengan menjalankan pernyataan SQL tidak terpengaruh. Nama tabel yang sebenarnya dihasilkan tunduk pada logika SQL.
CatatanSebuah output name harus unik secara global. Namun, tidak ada batasan seperti itu yang diberlakukan pada output table name.
parameter penjadwalan
Sebuah parameter penjadwalan adalah variabel yang digunakan dalam kode untuk penjadwalan dan menjalankan tugas. Nilai parameter penjadwalan diganti secara dinamis ketika tugas dijadwalkan untuk dijalankan. Jika Anda ingin mendapatkan informasi tentang lingkungan runtime, seperti tanggal dan waktu, selama pelaksanaan kode berulang, Anda dapat menetapkan nilai secara dinamis ke variabel dalam kode berdasarkan definisi parameter penjadwalan di DataWorks.
katalog data
Sebuah katalog data adalah daftar terstruktur atau peta yang digunakan untuk menampilkan semua aset data dalam organisasi, seperti basis data, tabel, dan file. Katalog data mencatat informasi metadata dari aset data tersebut di DataWorks.
hubungan antara resource komputasi, sumber data, dan katalog data
Resource komputasi, sumber data, dan katalog data adalah objek independen tetapi saling terkait. Mereka memiliki hubungan berikut:
Saat Anda mengaitkan resource komputasi dengan ruang kerja, sistem menghasilkan sumber data dan katalog data berdasarkan resource komputasi tersebut.
Saat Anda menambahkan sumber data ke ruang kerja, sistem menghasilkan katalog data berdasarkan sumber data tersebut.
Saat Anda membuat katalog data, sistem tidak dapat menghasilkan sumber data atau resource komputasi berdasarkan katalog data tersebut.
Pusat Operasi
Waktu Penjadwalan
Waktu penjadwalan adalah titik waktu ketika tugas yang dipicu otomatis diharapkan berjalan. Waktu penjadwalan dapat akurat hingga menit.
PentingBanyak faktor memengaruhi jalannya tugas. Dalam beberapa kasus, tugas mungkin tidak mulai berjalan meskipun waktu penjadwalannya telah tiba. Sebelum tugas mulai berjalan, DataWorks memeriksa apakah kondisi berikut terpenuhi untuk tugas tersebut: Tugas leluhur dari tugas tersebut berjalan sesuai harapan, waktu penjadwalan tugas telah tiba, dan sumber daya yang cukup tersedia untuk menjalankan tugas. Jika kondisi-kondisi tersebut terpenuhi, tugas dipicu untuk berjalan.
timestamp data
Timestamp data merujuk pada tanggal yang secara langsung relevan dengan aktivitas bisnis. Tanggal tersebut mencerminkan waktu aktual saat data bisnis dihasilkan. Konsep timestamp data sangat penting dalam skenario komputasi offline. Misalnya, dalam bisnis ritel, jika Anda mengumpulkan statistik tentang omset pada 10 Oktober 2024, omset tersebut dihitung pada pagi hari tanggal 11 Oktober 2024. Dalam hal ini, timestamp data adalah 20241010.
tugas yang dipicu otomatis
Sebuah tugas yang dipicu otomatis adalah tugas yang dipicu oleh sistem penjadwalan berdasarkan properti penjadwalan yang dikonfigurasikan untuk tugas tersebut. Dalam daftar tugas yang dipicu otomatis di Pusat Operasi, Anda dapat melakukan operasi O&M dan manajemen pada tugas yang dipicu otomatis. Misalnya, Anda dapat melihat DAG, menguji, mengisi ulang data, dan mengubah pemilik tugas yang dipicu otomatis.
instance yang dipicu otomatis
Sebuah instance yang dipicu otomatis adalah instance yang dihasilkan secara otomatis untuk dijalankan berdasarkan properti penjadwalan tugas yang dipicu otomatis. Misalnya, jika tugas yang dipicu otomatis dikonfigurasikan untuk berjalan sekali setiap jam, 24 instance dihasilkan untuk tugas yang dipicu otomatis setiap hari. Salah satu instance tersebut dipicu secara otomatis untuk berjalan setiap jam. Hanya instance yang memiliki informasi seperti status operasi. Dalam daftar instance yang dipicu otomatis di Pusat Operasi, Anda dapat melakukan operasi O&M pada instance yang dipicu otomatis. Misalnya, Anda dapat menghentikan dan menjalankan ulang instance serta menetapkan status instance menjadi berhasil.
pengisian ulang data
Jika Anda melakukan operasi pengisian ulang data, instance pengisian ulang data secara otomatis dihasilkan untuk tugas yang ditentukan berdasarkan rentang waktu yang dipilih. Fitur pengisian ulang data terutama digunakan untuk penulisan balik data historis dan perbaikan data. Anda dapat menggunakan fitur pengisian ulang data untuk menghitung data untuk periode waktu di masa lalu atau di masa depan untuk memastikan kelengkapan dan akurasi data.
garis dasar
DataWorks memungkinkan Anda mengaitkan tugas dengan garis dasar untuk memantau tugas-tugas tersebut. Setelah Anda mengaitkan tugas dengan garis dasar, sistem secara otomatis memantau tugas-tugas tersebut berdasarkan prioritas, waktu penyelesaian yang dijanjikan, dan ambang batas peringatan garis dasar, dan melaporkan peringatan jika terdeteksi risiko yang dapat memengaruhi output data normal dari tugas-tugas tersebut. Semakin besar angka yang menunjukkan prioritas garis dasar, semakin tinggi prioritasnya. DataWorks memprioritaskan alokasi sumber daya untuk tugas-tugas dalam garis dasar yang memiliki prioritas tinggi untuk memastikan ketepatan waktu output tugas-tugas tersebut. Ambang batas peringatan adalah periode waktu yang dicadangkan untuk menangani pengecualian. DataWorks menghitung waktu peringatan dengan mengurangi ambang batas peringatan dari waktu penyelesaian yang dijanjikan untuk garis dasar. Jika DataWorks mendeteksi bahwa tugas dalam garis dasar tidak dapat menghasilkan data sebelum waktu peringatan, DataWorks mengirimkan notifikasi peringatan kepada kontak peringatan yang Anda tentukan saat mengonfigurasi garis dasar.
Pusat Tata Kelola Data
skor kesehatan
Sebuah skor kesehatan adalah metrik komprehensif yang digunakan untuk mengevaluasi status kesehatan aset data. Skor kesehatan berkisar dari 0 hingga 100. Skor yang lebih tinggi menunjukkan aset data yang lebih sehat. Skor kesehatan dihitung menggunakan model penilaian kesehatan yang disediakan oleh DataWorks berdasarkan item tata kelola dan mencerminkan efektivitas tata kelola data penyewa, ruang kerja, atau pengguna. Pusat Tata Kelola Data menyediakan skor kesehatan dalam dimensi berikut: penyimpanan, komputasi, R&D, kualitas, dan keamanan. Setiap dimensi memiliki metrik skor kesehatan yang sesuai, yang membantu pengguna dengan mudah memahami efektivitas tata kelola data dan secara intuitif mengetahui status kesehatan aset data.
item tata kelola
Sebuah item tata kelola digunakan oleh DataWorks untuk mendeteksi masalah yang perlu dioptimalkan atau diselesaikan dalam aset data selama tata kelola data, seperti masalah dalam aspek spesifikasi R&D, kualitas data, kepatuhan keamanan, dan pemanfaatan sumber daya. Item tata kelola diklasifikasikan menjadi item tata kelola wajib dan item tata kelola opsional. Secara default, item tata kelola wajib diaktifkan secara global dan tidak dapat dinonaktifkan. Anda dapat mengaktifkan item tata kelola opsional berdasarkan kebutuhan bisnis Anda. Misalnya, Anda dapat menggunakan item tata kelola untuk mendeteksi tasks that time out, nodes that fail to run over multiple consecutive times, atau leaf nodes that are not accessed by users.
item pemeriksaan
Sebuah item pemeriksaan adalah mekanisme tata kelola aktif yang bekerja pada proses produksi data. Anda dapat menggunakan item pemeriksaan untuk memeriksa tugas terhadap pelanggaran batasan sebelum tugas dikomit dan diterapkan untuk mengidentifikasi masalah potensial seperti pemindaian tabel penuh atau absennya dependensi penjadwalan. Jika konten yang tidak memenuhi persyaratan tertentu terdeteksi, sistem menghasilkan peristiwa pemeriksaan dan mengintersep serta menangani konten tersebut. Item pemeriksaan dapat membantu Anda membatasi dan mengelola proses pengembangan data dan memastikan standarisasi dan normalisasi pemrosesan data.
rencana tata kelola data
Tata Kelola Aset Data menyediakan template rencana tata kelola data untuk skenario yang berbeda, dengan fokus pada pencapaian tujuan tata kelola yang telah ditentukan dalam periode tertentu. Template rencana tata kelola data dapat digunakan untuk dengan cepat menentukan item tata kelola dan item pemeriksaan yang sangat relevan dan mengidentifikasi objek yang dapat dioptimalkan. Ini membantu pemilik tata kelola memantau efektivitas tata kelola data dengan cermat dan membantu tim segera mencapai tujuan tata kelola dengan melakukan penilaian kuantitatif.
basis pengetahuan
Sebuah basis pengetahuan menyediakan definisi item pemeriksaan dan item tata kelola bawaan di Pusat Tata Kelola Data untuk membantu insinyur tata kelola data dengan cepat mengidentifikasi dan memahami masalah yang terjadi selama tata kelola data. Basis pengetahuan juga menyediakan solusi untuk masalah dan panduan operasi untuk membantu meningkatkan efisiensi tata kelola data.
Pusat Keamanan
izin data
Pusat Keamanan mendukung permintaan izin yang detail, pemrosesan permintaan, dan audit izin. Ini memungkinkan Anda mengelola izin berdasarkan prinsip hak istimewa minimal. Selain itu, Pusat Keamanan memungkinkan Anda melihat kemajuan pemrosesan permintaan dan mengikuti pemrosesan permintaan secara real-time. Untuk informasi lebih lanjut, lihat topik-topik dalam direktori Kontrol akses data.
keamanan data
Pusat Keamanan menyediakan berbagai fitur, seperti kategori data dan tingkat sensitivitas data, identifikasi data sensitif, audit akses data, dan pelacakan sumber data. Fitur-fitur tersebut dapat membantu mengidentifikasi data yang memiliki risiko keamanan potensial pada tahap awal selama pemrosesan alur kerja. Ini memastikan keamanan dan keandalan data. Untuk informasi lebih lanjut, lihat Ikhtisar.
Kualitas Data
pemantauan kualitas data
Pemantauan kualitas data mengacu pada pelacakan dan deteksi terus-menerus terhadap status serta perubahan objek data, seperti partisi tertentu dalam tabel partisi, untuk memastikan bahwa objek tersebut memenuhi standar kualitas yang telah ditetapkan. Pemantauan ini membantu mengidentifikasi dan menyelesaikan masalah yang dapat memengaruhi kualitas data sejak tahap awal. Anda dapat mengaktifkan peristiwa penjadwalan untuk memicu pemantauan kualitas data di DataWorks, menerapkan pemeriksaan kualitas otomatis, serta mengonfigurasi pengiriman notifikasi peringatan kepada penerima yang ditentukan.
aturan pemantauan
Aturan pemantauan berfungsi sebagai kondisi atau kriteria logis untuk mengevaluasi apakah kualitas data memenuhi harapan. Contohnya, "Usia pelanggan tidak boleh kurang dari 0" adalah aturan pemantauan. Di DataWorks, Anda dapat mengonfigurasikan aturan pemantauan sesuai kebutuhan bisnis dan menerapkannya pada rentang data tertentu. Jika data tidak memenuhi aturan pemantauan, sistem akan mengidentifikasi data tersebut dan melaporkan peringatan kualitas data.
template aturan
Sebuah template aturan merupakan sampel aturan kualitas yang mencakup logika verifikasi yang telah ditentukan sebelumnya. Anda dapat langsung menggunakan template aturan atau memodifikasi ambang batas yang ditentukan dalam template untuk membuat aturan pemantauan sesuai kebutuhan bisnis. DataWorks menyediakan berbagai jenis template aturan. Selain itu, Anda dapat mengeksekusi pernyataan SQL kustom untuk membuat template aturan baru.
Template aturan bawaan: Anda dapat membuat aturan pemantauan berdasarkan template aturan bawaan yang disediakan oleh DataWorks.
Template aturan kustom: Jika template aturan bawaan tidak memenuhi kebutuhan Anda untuk memantau kualitas data yang ditentukan oleh ekspresi filter partisi, Anda dapat membuat aturan pemantauan berdasarkan template aturan kustom. Template kustom yang sering digunakan dapat disimpan untuk digunakan di masa mendatang.
Penjaga Keamanan Data
kategori data dan tingkat sensitivitas data
Kategori data dan tingkat sensitivitas data: Anda dapat menentukan tingkat sensitivitas untuk data Anda berdasarkan nilai data, sensitivitas konten, dampak, dan ruang lingkup distribusi. Prinsip manajemen data dan persyaratan pengembangan data bervariasi berdasarkan tingkat sensitivitas data.
aturan identifikasi data sensitif
Aturan identifikasi data sensitif: Anda dapat mendefinisikan kategori data dan mengonfigurasikan tipe bidang sensitif untuk data berdasarkan sumber dan penggunaan data. Ini membantu Anda mengidentifikasi data sensitif di ruang kerja saat ini. DataWorks menyediakan kategori data bawaan dan aturan identifikasi data sensitif. Anda juga dapat membuat kategori data dan aturan identifikasi data sensitif berdasarkan kebutuhan bisnis Anda.
aturan masking data
Aturan masking data: Anda dapat mengonfigurasikan aturan masking data untuk data sensitif yang telah diidentifikasi. Manajemen masking data bervariasi berdasarkan tingkat sensitivitas data karena persyaratan manajemen dan kontrol bisnis.
aturan identifikasi risiko
Aturan identifikasi risiko: Penjaga Keamanan Data dapat secara proaktif mengidentifikasi operasi berisiko pada data dan melaporkan peringatan berdasarkan teknologi analisis cerdas dan aturan identifikasi risiko. Ini membantu Anda melakukan manajemen risiko yang lebih komprehensif dan secara efektif mengidentifikasi serta mencegah risiko.
Peta Data
metadata
Metadata menjelaskan atribut data, struktur data, dan informasi relevan lainnya. Atribut data mencakup nama, ukuran, dan tipe data. Struktur data mencakup bidang, tipe, dan panjang. Informasi relevan lainnya mencakup lokasi, pemilik, tugas output, dan izin akses.
alur data
Alur data digunakan untuk menggambarkan korelasi antar data yang terbentuk selama pemrosesan data, penerusan data, dan integrasi data. Alur data menampilkan seluruh proses dari pembuatan data, pemrosesan data, sinkronisasi data hingga konsumsi data, serta objek data yang terlibat dalam proses tersebut. Di DataWorks, alur data ditampilkan secara visual. Ini dapat membantu pengguna dengan cepat menemukan masalah dan mengevaluasi objek yang mungkin terpengaruh jika pengguna memodifikasi tabel atau bidang. Tampilan visual alur data sangat penting untuk memelihara prosedur pemrosesan data yang kompleks.
album data
Sebuah album data digunakan untuk mengatur dan mengelola kategori tabel dari perspektif bisnis. Anda dapat menambahkan tabel tertentu ke album data. Dengan cara ini, Anda dapat mencari dan menemukan tabel secara efisien.
DataAnalysis
kueri SQL
DataAnalysis memungkinkan Anda mengeksekusi pernyataan SQL standar untuk menanyakan dan menganalisis data di berbagai jenis sumber data. Untuk informasi lebih lanjut, lihat Kueri dan analisis SQL.
buku kerja
Buku kerja adalah alat yang dirancang untuk mengedit dan mengelola data secara online. Anda dapat mengimpor hasil kueri SQL atau data dalam file lokal ke buku kerja untuk analisis, kueri, dan visualisasi lebih lanjut. Anda juga dapat mengekspor atau mengunduh data dari buku kerja atau berbagi data dalam buku kerja dengan pengguna lain untuk memenuhi kebutuhan analisis data secara fleksibel. Untuk informasi tentang cara membuat dan mengelola buku kerja, lihat Buat dan kelola buku kerja.
wawasan data
Wawasan data mengacu pada perolehan pemahaman mendalam tentang data dan penemuan berdasarkan analisis dan interpretasi data yang mendalam. Wawasan data mendukung eksplorasi data dan visualisasi data. Anda dapat menggunakan fitur wawasan data untuk memahami distribusi data, membuat kartu data, dan menggabungkan kartu data menjadi laporan data. Selain itu, hasil wawasan data dapat dibagikan menggunakan gambar panjang. Fitur wawasan data menggunakan teknologi artificial intelligence (AI) untuk membantu menganalisis data dan menafsirkan data kompleks untuk pengambilan keputusan bisnis.
DataService Studio
API
API adalah singkatan dari Application Programming Interface. Di DataService Studio, pengembang dapat dengan cepat mengenkapsulasi API berdasarkan berbagai jenis sumber data. API tersebut dapat dipanggil dalam aplikasi bisnis, perangkat lunak, sistem, dan skenario pelaporan untuk memfasilitasi pengambilan dan konsumsi data.
fungsi
Sebuah fungsi dapat digunakan sebagai filter untuk API. Jika Anda menggunakan fungsi sebagai pra-filter untuk API, fungsi tersebut dapat digunakan untuk memproses parameter permintaan API. Misalnya, fungsi tersebut dapat digunakan untuk mengubah nilai parameter permintaan atau memberikan nilai kepada parameter permintaan. Jika Anda menggunakan fungsi sebagai pasca-filter untuk API, fungsi tersebut dapat digunakan untuk melakukan pemrosesan sekunder pada hasil yang dikembalikan oleh API. Misalnya, fungsi tersebut dapat digunakan untuk mengubah struktur data hasil yang dikembalikan atau menambahkan konten ke hasil yang dikembalikan.
penerusan data
Fitur penerusan data yang disediakan oleh DataWorks memungkinkan Anda membuat tugas penerusan data. Anda dapat menulis pernyataan SQL untuk kueri satu atau beberapa tabel dalam tugas penerusan data untuk menentukan data yang ingin Anda teruskan dan mengorganisasikan data menggunakan teks kaya atau tabel. Selain itu, Anda dapat mengonfigurasikan properti penjadwalan untuk tugas penerusan data untuk secara berkala meneruskan data ke URL webhook tujuan.
Platform Terbuka
OpenAPI
Modul OpenAPI memungkinkan Anda memanggil operasi API DataWorks untuk menggunakan berbagai fitur DataWorks dan mengintegrasikan aplikasi Anda dengan DataWorks.
OpenEvent
Modul OpenEvent memungkinkan Anda berlangganan pesan acara. Anda dapat menerima notifikasi tentang berbagai perubahan acara di DataWorks dan merespons acara tersebut berdasarkan konfigurasi Anda secepat mungkin. Misalnya, Anda dapat berlangganan acara perubahan tabel untuk menerima notifikasi tentang perubahan tabel inti secara real-time. Anda juga dapat berlangganan acara perubahan tugas untuk menerapkan pemantauan data kustom pada dasbor yang menampilkan status tugas sinkronisasi waktu nyata.
Ekstensi
Modul Ekstensi adalah plugin yang disediakan oleh DataWorks. Anda dapat menggunakan Ekstensi bersama dengan OpenAPI dan OpenEvent untuk memproses operasi pengguna di DataWorks berdasarkan logika kustom dan memblokir operasi pengguna. Misalnya, Anda dapat mengembangkan ekstensi untuk kontrol perubahan tugas dan menggunakan ekstensi tersebut untuk menerapkan kontrol penyebaran tugas kustom.