Sumber data adalah objek pada platform DataWorks yang menyimpan informasi koneksi ke sistem data eksternal, seperti database atau layanan penyimpanan. Setelah membuat sumber data, Anda dapat mereferensikannya di DataWorks untuk membaca dan menulis data. DataWorks mendukung berbagai jenis sumber data, termasuk database utama, penyimpanan data besar (big data), dan antrian pesan (message queues). Untuk menjamin keamanan data, ruang kerja dalam mode standar mendukung isolasi lingkungan sumber data. Anda dapat mengonfigurasi sumber data terpisah untuk lingkungan pengembangan dan produksi. Sumber data pengembangan hanya digunakan untuk pengembangan dan pengujian node, sedangkan sumber data produksi hanya digunakan untuk eksekusi terjadwal node yang telah dipublikasikan. Pemisahan ketat ini mencegah operasi pengujian memengaruhi data produksi.
Fitur
Penggunaan sumber data
Sumber data di DataWorks dikelola dan dipelihara di bagian dalam suatu ruang kerja. Setelah sumber data dibuat dan koneksi diuji, Anda dapat menggunakannya di berbagai modul DataWorks. Tabel berikut memberikan contoh kasus penggunaan sumber data.
Modul fitur | Skenario | Jenis sumber data yang didukung |
Data Integration | Menjalankan tugas sinkronisasi data. Mendukung migrasi data antar sumber data berbeda, misalnya dari MySQL ke MaxCompute. Mendukung berbagai metode seperti tabel tunggal, seluruh database, offline, dan real-time. | |
Data Development | Mendukung pengembangan, pengujian, dan eksekusi terjadwal node. Jika ruang kerja berada dalam mode standar, sistem secara otomatis menggunakan konfigurasi sumber data pengembangan atau produksi berdasarkan lingkungan saat tugas dieksekusi. | |
Data Map | Mengumpulkan metadata sumber data. Anda dapat melihat skema tabel dan alur data. | |
DataAnalysis | Terhubung ke database untuk pemrosesan, analisis, transformasi, dan visualisasi data. | |
DataService Studio | Menghasilkan layanan API berdasarkan skema tabel sumber data untuk menyediakan antarmuka kueri data. |
Isolasi lingkungan sumber data
Untuk menjamin keamanan data, ruang kerja dalam mode standar mendukung fitur isolasi lingkungan sumber data. Anda dapat mengonfigurasi sumber data terpisah untuk lingkungan pengembangan dan produksi. Sumber data pengembangan hanya digunakan untuk pengembangan dan pengujian node, sedangkan sumber data produksi hanya digunakan untuk eksekusi terjadwal node yang telah dipublikasikan. Pemisahan ketat ini mencegah operasi pengujian memengaruhi data produksi. Untuk informasi lebih lanjut, lihat Lingkungan sumber data.
Jenis sumber data
DataWorks mendukung dua jenis sumber data yang memiliki fitur dan tujuan berbeda. Tabel berikut membandingkan perbedaan intinya.
Dimensi Perbandingan | Jenis reguler | Jenis metadata |
Tujuan utama | Menyimpan informasi koneksi untuk mengakses data fisik. Merupakan dasar untuk membaca, menulis, dan memproses data. | Menyimpan informasi koneksi ke pusat metadata data lake. Hanya digunakan untuk pengambilan dan tata kelola metadata. |
Objek yang diproses | Data fisik. | Informasi deskriptif (metadata) tentang data, seperti struktur database, tabel, dan bidang. |
Dapat digunakan untuk eksekusi tugas | Ya. Sumber dan tujuan dalam tugas sinkronisasi harus mereferensikan jenis sumber data ini. | Tidak. Tidak dapat digunakan sebagai input atau output tugas. |
Contoh khas | MySQL, MaxCompute, Hologres, DLF, dan OSS. | Paimon Catalog. |
Secara ringkas, gunakan sumber data reguler untuk membaca, menulis, atau memproses data. Gunakan sumber data metadata untuk mengimpor struktur tabel data lake, seperti Paimon, ke DataWorks guna tata kelola dan penayangan.
Prasyarat
Sebelum mengonfigurasi sumber data, pastikan Anda memenuhi prasyarat berikut:
Izin: Anda harus menjadi administrator ruang kerja, memiliki peran O&M untuk ruang kerja target, atau merupakan pengguna RAM dengan kebijakan
AliyunDataWorksFullAccessatauAdministratorAccess. Untuk informasi lebih lanjut tentang otorisasi, lihat Pengelolaan izin modul tingkat ruang kerja dan Memberikan izin kepada pengguna RAM.Informasi koneksi: Siapkan informasi yang diperlukan untuk sumber data, seperti instans atau alamat koneksi (Endpoint atau JDBC URL), port, nama database, username, dan password.
Konektivitas jaringan: Pastikan jaringan resource group DataWorks dapat mengakses sumber data Anda. Jika sumber data Anda diakses melalui jaringan publik dan Anda menggunakan Serverless resource group, Anda harus mengonfigurasi NAT Gateway dan EIP untuk VPC yang terhubung ke resource group tersebut. Jika tidak, koneksi akan gagal.
Catatan
Batasan: Sumber data yang dibuat lintas wilayah, lintas akun, atau menggunakan ID AccessKey dan rahasia AccessKey hanya dapat digunakan untuk sinkronisasi data, bukan untuk pengembangan data atau penjadwalan tugas.
Perbedaan dalam pembuatan: Dalam mode standar, sumber data yang dibuat di Management Center mencakup informasi untuk lingkungan pengembangan dan produksi. Sumber data yang dibuat di Data Integration hanya mencakup informasi lingkungan produksi. Kami menyarankan agar Anda membuat dan memelihara semua sumber data di Management Center.
Metode pembuatan: Otomatis dan manual
Metode pembuatan | Deskripsi | Skenario |
Pembuatan otomatis | Saat Anda menyambungkan mesin komputasi (seperti MaxCompute atau Hologres) ke ruang kerja, sistem secara otomatis membuat dan mengelola sumber data yang sesuai. Siklus hidup sumber data ini terikat pada mesin komputasi, dan izinnya diwarisi dari mesin komputasi tersebut. | Disarankan: Saat sumber data digunakan untuk Data Development, Anda harus menggunakan metode ini. Jika tidak, tugas tidak dapat dijalankan. |
Pembuatan manual | Secara manual memasukkan informasi koneksi, kredensial, dan parameter lain untuk sumber data. Anda dapat mengontrol siklus hidup dan alokasi izin sumber data. | Berlaku untuk semua jenis sumber data, terutama dalam skenario seperti integrasi data dan DataService Studio, atau saat diperlukan kontrol akses detail halus. |
Akses fitur
Buka halaman SettingCenter.
Login ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi sebelah kiri, pilih . Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Management Center.
Di panel navigasi sebelah kiri, klik Data Source untuk menuju halaman Data Source List.
Di pojok kiri atas halaman, klik Add Data Source.
Buat sumber data
Langkah 1: Pilih mode koneksi
DataWorks mendukung Instance Mode dan Connection String Mode untuk mengonfigurasi informasi koneksi sumber data.
Skenario 1: Mode instans (akun Alibaba Cloud saat ini)
Jika sumber data Anda adalah produk Alibaba Cloud, seperti RDS atau PolarDB, dan instans tersebut milik akun Alibaba Cloud Anda saat ini, Anda dapat memilih Instance Mode. Anda hanya perlu menentukan Region dan Instance, dan sistem secara otomatis mengambil informasi sumber data terbaru. Anda tidak perlu mengatur alamat atau port.
Jika tidak tersedia instans yang sesuai dan Anda perlu membeli yang baru, kami menyarankan agar Anda menentukan virtual private cloud (VPC) yang sama untuk instans tersebut dengan VPC yang digunakan oleh resource group DataWorks. Praktik ini mengurangi tugas konfigurasi jaringan.
Jika instans sumber data sudah ada dan VPC-nya berbeda dari VPC yang digunakan oleh resource group DataWorks, Anda harus mengonfigurasi konektivitas jaringan untuk memastikan sumber data dapat digunakan.
Skenario 2: Mode instans (akun Alibaba Cloud lain)
Saat menambahkan sumber data dan memilih mode instans, Anda dapat mengakses instans di Another Alibaba Cloud Account dengan membuat sumber data cross-account. Untuk melakukan ini, konfigurasikan Other Alibaba Cloud Account ID dan RAM Role Name.
Untuk sumber data cross-account, pastikan hal berikut:
Peran RAM memiliki izin akses ke sumber data tujuan. Untuk informasi lebih lanjut tentang otorisasi cross-account, lihat Otorisasi cross-account (RDS, Hive, atau Kafka) dan Otorisasi cross-account (MaxCompute, Hologres).
Konektivitas jaringan telah dibangun antara resource group akun saat ini dan sumber data akun lain.
Skenario 3: Mode string koneksi
Untuk sumber data yang dikelola sendiri yang diterapkan pada instans ECS atau di pusat data lokal, sumber data di jaringan publik, atau instans Alibaba Cloud yang tidak dapat diakses melalui jaringan pribadi, gunakan Connection String Mode. Anda dapat mengonfigurasi secara manual alamat jaringan (Endpoint atau JDBC URL), port, nama database, dan kredensial (username dan password atau AccessKey).
Saat menggunakan mode string koneksi untuk mengonfigurasi sumber data, pastikan konektivitas jaringan antara alamat IP dan port sumber data dengan resource group DataWorks. Konfigurasikan akses jaringan publik, grup keamanan, dan daftar putih sesuai kebutuhan. Untuk informasi lebih lanjut, lihat Ikhtisar solusi konektivitas jaringan.
Jika alamat IP sumber data Anda sering berubah atau tidak dapat diakses langsung melalui alamat IP, misalnya saat sumber data di-host oleh nama domain dan harus diakses dari luar, Anda dapat mengatasi masalah ini dengan menyambungkan host ke grup sumber daya eksklusif untuk Integrasi Data atau mengonfigurasi resolusi DNS internal (PrivateZone) untuk Serverless resource group.
Saat Anda menggunakan Connection String Mode, DataWorks secara otomatis mengurai JDBC URL. Jika URL berisi parameter yang tidak didukung, sistem secara otomatis menghapusnya. Untuk mempertahankan parameter khusus, untuk menghubungi dukungan teknis.
Langkah 2: Masukkan informasi koneksi
Dalam mode standar, Anda harus mengonfigurasi informasi koneksi untuk lingkungan pengembangan dan produksi secara terpisah. Anda dapat menggunakan konfigurasi yang sama atau berbeda untuk kedua lingkungan tersebut.
Nama Sumber Data: Harus unik dalam ruang kerja. Kami menyarankan menggunakan nama yang secara jelas mengidentifikasi bisnis dan lingkungan, seperti
rds_mysql_order_dev.Deskripsi Sumber Data: Jelaskan secara singkat tujuan sumber data tersebut.
Informasi Koneksi: Berdasarkan mode koneksi yang Anda pilih, masukkan instans atau alamat URL, port, dan informasi lain untuk sumber data.
Langkah 3: Atur akun dan kata sandi
DataWorks mendukung berbagai metode autentikasi untuk sumber data. Anda dapat mengatur kredensial berdasarkan jenis sumber data dan parameter pada halaman konfigurasi. Pastikan kredensial tersebut memberikan izin akses ke database. Jika tidak, kesalahan akan terjadi.
Metode autentikasi | Skenario |
Username dan password | Berlaku untuk sebagian besar jenis database, seperti RDS dan StarRocks. DataWorks dapat mengakses sumber data menggunakan username dan password. Kredensial tersebut harus disediakan oleh pemilik sumber data. |
Pengguna Resource Access Management (RAM) | Mendukung metode berikut. Berlaku untuk produk Alibaba Cloud yang mendukung autentikasi pengguna RAM, seperti MaxCompute dan Hologres. Anda dapat mengatur izin sesuai kebutuhan.
|
Otentikasi Kerberos | Mekanisme otentikasi identitas pihak ketiga. Berlaku untuk komponen big data seperti Hive, HDFS, dan HBase. Untuk menggunakan otentikasi Kerberos, Anda harus mengunggah file autentikasi seperti keytab dan krb5.conf. Untuk panduan konfigurasi, lihat Mengelola file autentikasi pihak ketiga. |
AccessKey | Pasangan AccessKey adalah kredensial akses permanen yang disediakan oleh Alibaba Cloud. Terdiri dari AccessKey ID dan AccessKey secret. Berlaku untuk sumber data seperti OSS dan Tablestore. Pasangan AccessKey memiliki keamanan lebih rendah. Simpan dengan aman. Jika metode login lain tersedia, seperti otorisasi berbasis peran RAM, kami menyarankan agar Anda menggunakannya sebagai gantinya. |
Jika database Anda telah mengaktifkan autentikasi SSL, Anda juga harus mengaktifkannya saat membuat sumber data. Untuk informasi lebih lanjut tentang prosedurnya, lihat Menambahkan autentikasi SSL ke sumber data PostgreSQL.
Langkah 4: Uji konektivitas
Di bagian bawah halaman, klik Test Connectivity untuk resource group yang terhubung ke ruang kerja. Langkah ini sangat penting untuk memastikan DataWorks dapat mengakses sumber data Anda dengan sukses.
Jika ditampilkan Connected, konfigurasi sudah benar.
Jika ditampilkan Not Connected, alat diagnostik akan muncul untuk membantu Anda memecahkan masalah. Penyebab umum meliputi kredensial salah, masalah jaringan seperti daftar putih alamat IP yang belum dikonfigurasi, atau NAT Gateway yang tidak tersedia.
Dalam mode standar, pastikan bahwa lingkungan pengembangan dan lingkungan produksi keduanya Connected. Jika tidak, kesalahan akan terjadi nanti.
Anda dapat mengonfigurasi jaringan berdasarkan mode konfigurasi sumber data, wilayah, kepemilikan instans, dan lokasi penerapan. Tabel berikut mencantumkan skenario konfigurasi umum.
Skenario | Instruksi |
Sumber data adalah produk Alibaba Cloud dan dimiliki oleh akun Alibaba Cloud yang sama serta berada di wilayah yang sama dengan ruang kerja DataWorks. | Menghubungkan ke sumber data dalam akun dan wilayah yang sama |
Sumber data adalah produk Alibaba Cloud dan dimiliki oleh akun Alibaba Cloud yang sama dengan ruang kerja DataWorks tetapi berada di wilayah yang berbeda. | Menghubungkan ke sumber data dalam akun yang sama tetapi wilayah berbeda |
Sumber data adalah produk Alibaba Cloud tetapi dimiliki oleh akun Alibaba Cloud yang berbeda dari ruang kerja DataWorks. | |
Sumber data diterapkan pada instans ECS Alibaba Cloud. | Menghubungkan ke sumber data yang dikelola sendiri pada instans ECS |
Sumber data diterapkan di pusat data lokal. | |
Sumber data memiliki titik akhir publik. |
Kelola sumber data
Di halaman pengelolaan sumber data, Anda dapat memfilter sumber data berdasarkan Data Source Type dan Data Source Name. Anda juga dapat melakukan operasi pengelolaan berikut pada sumber data target:
Edit, klon, dan izin
Edit: Ubah konfigurasi sumber data sesuai kebutuhan. Nama dan lingkungan yang berlaku untuk sumber data tidak dapat diubah.
Sumber data yang dibuat secara otomatis saat Anda menyambungkan mesin komputasi di Compute engine management tidak dapat diedit langsung. Untuk mengubahnya, Anda harus mengeditnya di halaman Compute engine management.
Clone: Buat sumber data baru dengan cepat yang memiliki konfigurasi sama dengan yang saat ini.
Permission management: Klik ikon
untuk mengelola izin lintas ruang kerja untuk sumber data. Anda dapat memberikan izin kepada ruang kerja lain atau pengguna tertentu di ruang kerja lain untuk menggunakan sumber data saat ini. Setelah Anda memberikan izin Usable, pengguna tersebut dapat melihat dan menggunakan sumber data tetapi tidak dapat mengeditnya.Untuk pertanyaan lain terkait izin sumber data, lihat Pengelolaan izin sumber data.
Hapus sumber data dan dampaknya
Di daftar sumber data, klik tombol hapus untuk sumber data guna menghapusnya. Namun, sumber data yang dibuat secara otomatis saat Anda menyambungkan mesin komputasi di Compute engine management tidak dapat dihapus langsung. Di panel navigasi sebelah kiri Management Center, klik Compute Engine, temukan mesin komputasi yang ingin dihapus, lalu klik Detach. Operasi ini juga akan menghapus sumber data tersebut.
Menghapus sumber data berdampak pada modul Data Integration sebagai berikut:
Prasyarat: Sebelum menghapus sumber data, pastikan apakah sumber data tersebut terkait dengan tugas sinkronisasi apa pun di lingkungan produksi.
Solusi: Jika ada tugas terkait, pertama-tama gunakan Batch Operations untuk mengubah sumber data untuk tugas tersebut, lalu commit dan publikasikan kembali.
Skenario penghapusan | Dampak |
Hapus kedua lingkungan pengembangan dan produksi | • Tugas produksi akan gagal dan tidak dapat dijalankan. • Sumber data tidak akan terlihat saat Anda mengonfigurasi tugas baru di lingkungan pengembangan. |
Hanya lingkungan pengembangan | • Tugas produksi dapat berjalan normal. • Namun, saat Anda mengedit tugas, metadata (seperti skema tabel) tidak dapat diambil. • Sumber data tidak akan terlihat saat Anda mengonfigurasi tugas baru di lingkungan pengembangan. |
Hanya lingkungan produksi | • Tugas produksi akan gagal dan tidak dapat dijalankan. • Tugas yang menggunakan sumber data ini di lingkungan pengembangan tidak dapat di-commit dan dipublikasikan ke lingkungan produksi. |
Dampak pada modul lain adalah sebagai berikut:
Modul fitur | Tingkat Risiko | Dampak inti dan solusi |
Operation Center | Tinggi | Dampak: Semua tugas komputasi terjadwal atau integrasi data yang bergantung pada sumber data ini akan gagal. Solusi: Gunakan Batch Operations untuk mengubah sumber data untuk tugas tersebut dan publikasikan ulang. |
DataService Studio API | Tinggi | Dampak: Semua panggilan ke layanan API yang dihasilkan dari sumber data dan orkestrasi layanan berbasis sumber data ini akan gagal. Solusi: Ubah sumber data untuk API yang terpengaruh. |
DataAnalysis | Sedang | Dampak: Di modul DataAnalysis, tugas kueri untuk sumber data ini akan gagal. Solusi: Saat mengeksekusi kueri SQL, beralihlah ke sumber data lain yang tersedia. |
Data Quality | Sedang | Dampak: Tugas aturan pemantauan Kualitas Data yang dikonfigurasi akan melaporkan pengecualian. Solusi: Buka Operation Center dan putuskan asosiasi tugas dari aturan DQC, atau ubah aturan tersebut. |
Jika sumber data telah diotorisasi untuk digunakan oleh pengguna lintas ruang kerja, tugas yang menggunakan sumber data lintas ruang kerja juga akan gagal setelah sumber data dihapus.
Informasi lanjutan
Lingkungan sumber data
Mode ruang kerja: Dasar vs. standar
Untuk memenuhi persyaratan kontrol keamanan berbeda terhadap data produksi, DataWorks menyediakan mode dasar dan standar untuk ruang kerja. Untuk informasi lebih lanjut, lihat Perbedaan antara mode ruang kerja.
Mode dasar: Hanya memiliki satu lingkungan. Semua operasi pengembangan langsung memengaruhi produksi. Mode ini cocok untuk validasi cepat atau pengujian pribadi.
Mode standar: Direkomendasikan untuk perusahaan. Memiliki lingkungan pengembangan dan produksi bawaan. Anda dapat mengonfigurasi sumber data berbeda, seperti database uji dan database produksi, atau izin akses berbeda untuk kedua lingkungan guna mencapai isolasi data.
Isolasi lingkungan sumber data
Ruang kerja dalam mode standar mendukung isolasi lingkungan sumber data. Sumber data dengan nama yang sama dapat memiliki dua set konfigurasi: satu untuk lingkungan pengembangan dan satu untuk lingkungan produksi. Anda dapat mengatur dua database atau instans berbeda untuk mengisolasi data yang dioperasikan tugas selama pengujian dan penjadwalan produksi. Praktik ini menjamin keamanan data produksi. Misalnya, saat menjalankan pengembangan data atau tugas sinkronisasi offline, sistem secara otomatis mengakses database yang sesuai berdasarkan lingkungan tugas saat ini. Hal ini mencegah pengujian node dan operasi lain mengontaminasi data di database produksi.
Di modul Data Integration, hanya tugas sinkronisasi offline tabel tunggal di ruang kerja mode standar yang mendukung isolasi lingkungan pengembangan dan produksi untuk sumber data. Semua jenis tugas sinkronisasi lain menggunakan sumber data lingkungan produksi.
Jika Anda hanya mengonfigurasi lingkungan produksi dan tidak mengonfigurasi lingkungan pengembangan untuk sumber data, Anda tidak dapat memilih sumber data tersebut saat mengonfigurasi node di Data Development.
Jika Anda meningkatkan ruang kerja dari mode dasar ke mode standar, sumber data asli akan dibagi menjadi dua sumber data terisolasi untuk lingkungan produksi dan pengembangan. Untuk informasi lebih lanjut, lihat Meningkatkan mode ruang kerja.
Hubungan dengan sumber data di modul Data Integration
Mode dasar
Saat ruang kerja berada dalam mode dasar, hanya ada satu lingkungan. Tidak ada perbedaan antara sumber data yang dibuat di Data Integration dan yang dibuat di Management Center.
Mode standar
Saat Anda membuat sumber data di Management Center, sumber data dengan nama yang sama secara otomatis dibuat di Data Integration. Keduanya berbagi konfigurasi lingkungan produksi.
Saat Anda membuat sumber data di Data Integration, sumber data dengan nama yang sama juga secara otomatis dibuat di Management Center. Namun, sumber data ini hanya memiliki informasi lingkungan produksi, dan informasi lingkungan pengembangan tidak tersedia. Anda harus menambahkan informasi lingkungan pengembangan sebelum dapat menggunakan sumber data ini di Data Development.
Untuk memastikan informasi sumber data lengkap, kami menyarankan agar Anda selalu membuat dan mengelola semua sumber data di Management Center.
FAQ
T: Di ruang kerja mode standar, tugas yang telah dikonfigurasi sumber datanya berjalan sukses di lingkungan pengembangan tetapi gagal selama penjadwalan produksi. Mengapa?
A:
Periksa apakah pengujian konektivitas berhasil untuk lingkungan pengembangan dan produksi sumber data.
Periksa apakah data di database pengembangan dan produksi konsisten dan memenuhi persyaratan bisnis.
Apa fungsi sumber data pengembangan dan produksi?
Anda dapat mengonfigurasi sumber data terpisah untuk lingkungan pengembangan dan produksi. Sumber data pengembangan hanya digunakan untuk pengembangan dan pengujian node, sedangkan sumber data produksi hanya digunakan untuk eksekusi terjadwal node yang telah dipublikasikan. Pemisahan ketat ini mencegah operasi pengujian memengaruhi data produksi.
T: Mengapa pengujian konektivitas sumber data gagal?
J: Masalah ini biasanya disebabkan oleh alasan berikut. Periksa satu per satu. Untuk informasi lebih lanjut tentang konfigurasi konektivitas jaringan, lihat Konfigurasi konektivitas jaringan.
Kredensial salah: Periksa apakah username dan password yang Anda masukkan benar.
Objek akses: Periksa apakah nama objek koneksi, seperti database atau bucket, benar dan apakah username serta password memberikan izin akses yang diperlukan.
Alamat atau port salah: Periksa apakah alamat koneksi dan nomor port sumber data benar. Jika alamat berupa nama domain host, pastikan nama domain tersebut dapat di-resolve. Untuk informasi lebih lanjut, lihat resolusi DNS internal (PrivateZone).
Masalah jaringan: Periksa apakah jaringan antara sumber data dan resource group terhubung. Jika sumber data memiliki daftar putih, periksa apakah blok CIDR vSwitch yang terhubung ke resource group telah ditambahkan ke daftar putih. Jika Anda menggunakan Serverless resource group untuk menghubungkan ke sumber data publik, periksa apakah Anda telah mengonfigurasi NAT Gateway sesuai persyaratan.
T: Apa perbedaan antara sumber daya komputasi dan sumber data?
A:
Mesin komputasi adalah instans resource di DataWorks yang dapat digunakan untuk mengeksekusi tugas pemrosesan dan analisis data. Memiliki kemampuan komputasi dan biasanya merujuk pada mesin komputasi dasar, seperti MaxCompute, Hologres, atau AnalyticDB. Digunakan terutama untuk tugas pengembangan dan penjadwalan data.
Sumber data di DataWorks digunakan untuk menghubungkan ke berbagai layanan penyimpanan data. Memiliki fungsi penyimpanan dan manajemen data. Peran sumber data adalah menyediakan antarmuka untuk membaca dan menulis data. Digunakan terutama untuk tugas sinkronisasi dan integrasi. Selain itu, sumber data dapat mendukung fitur seperti node database, API DataService Studio, dan analisis kueri.
T: Apa perbedaan antara sumber data DLF dan sumber data Paimon Catalog?
J: Sumber data DLF adalah sumber data reguler. Dapat digunakan untuk integrasi dan analisis data. Juga mendukung manajemen metadata untuk tabel Paimon dan Iceberg yang menggunakan DLF untuk mendaftarkan metadata. Sumber data Paimon Catalog hanya digunakan untuk pengambilan metadata dari format lake Paimon yang tidak berasal dari DLF. Jenis sumber data ini mendukung fitur tata kelola seperti pengambilan metadata, penayangan, dan pemantauan kualitas. Tidak dapat digunakan untuk sinkronisasi data.