DataWorks adalah platform terpadu untuk pengembangan dan tata kelola data besar (big data) yang mencakup integrasi data, pengembangan, pemodelan, analisis, kontrol kualitas, layanan, pemetaan, serta kemampuan terbuka. Platform ini mendukung pemrosesan data end-to-end dan membantu Anda membangun platform data tingkat perusahaan. Topik ini menjelaskan fitur-fitur inti DataWorks.
Data Integration: Menggabungkan data dari semua sumber
Modul Data Integration dalam DataWorks merupakan platform sinkronisasi data yang stabil, efisien, dan elastis, mampu menyinkronkan data secara andal dengan kecepatan tinggi antara berbagai sumber data heterogen, bahkan dalam lingkungan jaringan yang kompleks.
Ikhtisar
Data Integration DataWorks mendukung sinkronisasi data penuh dan inkremental dalam mode offline, real-time, atau terintegrasi. Fitur-fitur utamanya meliputi:
Untuk sinkronisasi offline, Anda dapat mengonfigurasi siklus penjadwalan untuk tugas sinkronisasi.
Menyinkronkan data antara lebih dari 50 sumber data heterogen, termasuk database relasional, gudang data, database non-relasional, penyimpanan file, dan antrian pesan.
Menghubungkan ke sumber data di berbagai lingkungan jaringan kompleks, termasuk internet publik, IDC, atau VPC.
Menyediakan sinkronisasi data yang aman dan terkendali melalui kontrol keamanan yang kuat serta pemantauan operasional.
Teknologi dan arsitektur inti
Arsitektur mesin: Data Integration menggunakan arsitektur mesin berbentuk bintang, memungkinkan setiap sumber data yang terhubung membentuk tautan sinkronisasi dengan sumber lain yang didukung. Untuk daftar sumber data yang didukung, lihat Sumber data yang didukung dan solusi sinkronisasi.

Kelompok sumber daya integrasi data dan konektivitas jaringan: Sebelum menyinkronkan data, Anda harus menetapkan konektivitas jaringan antara sumber data dan kelompok sumber daya. Tugas Data Integration dapat dijalankan pada kelompok sumber daya serverless (disarankan) atau kelompok sumber daya eksklusif untuk integrasi data (legacy). Untuk informasi selengkapnya tentang solusi jaringan, lihat Solusi konektivitas jaringan.

Kasus penggunaan
Data Integration sangat ideal untuk skenario transfer data seperti mengimpor data ke data lake dan gudang data, sharding database dan tabel, mengarsipkan data real-time, serta memindahkan data antar cloud.
Data Studio dan Operation Center: Memproses data Anda
Data Studio dan Operation Center DataWorks masing-masing merupakan platform pengembangan untuk pemrosesan data dan platform operasi serta maintenance (O&M) cerdas. Keduanya bersama-sama menyediakan cara yang efisien dan terstandarisasi untuk membangun serta mengelola alur kerja pengembangan data.
Ikhtisar
Fitur utama Data Studio meliputi:
Dukungan untuk berbagai mesin komputasi, termasuk MaxCompute, E-MapReduce, CDH, Hologres, AnalyticDB, dan ClickHouse. Anda dapat mengembangkan, menguji, menerapkan, dan mengelola tugas untuk mesin-mesin tersebut dalam satu platform terpadu.
Editor cerdas dan orkestrasi dependensi visual. Kemampuan penjadwalannya telah terbukti melalui tugas internal dan dependensi bisnis Alibaba Group yang kompleks.
Lingkungan pengembangan dan produksi yang terisolasi, dikombinasikan dengan fitur seperti kontrol versi, tinjauan kode, pengujian asap, kontrol penerapan, dan audit operasional yang menstandarisasi siklus hidup pengembangan data Anda.
Operation Center mendukung fitur seperti jaminan ketepatan waktu data, diagnostik tugas, analisis dampak, O&M otomatis, serta O&M berbasis seluler.
Teknologi dan arsitektur inti
Alur kerja pengembangan yang efisien dan terstandarisasi
CatatanDataWorks menyediakan ruang kerja dalam mode standar untuk mengisolasi lingkungan pengembangan dan produksi. Untuk informasi selengkapnya tentang mode standar, lihat Perbedaan antara mode ruang kerja.
Antarmuka pengembangan visual: Bangun alur kerja tugas menggunakan antarmuka seret-dan-lepas. Kembangkan data dan konfigurasikan penjadwalan dalam satu konsol terpadu.
Pemantauan, troubleshooting, dan resolusi tugas
Pemodelan data: Pemodelan data cerdas
Fitur pemodelan data cerdas dalam DataWorks menggabungkan praktik terbaik selama lebih dari satu dekade dari metodologi pemodelan gudang data Alibaba. Fitur ini membantu Anda membangun aset data perusahaan dengan meningkatkan pemodelan dan pemodelan terbalik untuk data mart dan platform data tengah.
Ikhtisar
Fitur ini mencakup empat modul: Data Warehouse Planning, Data Standard, Dimension Modeling, dan Data Metrics.
Data Warehouse Planning: Rencanakan lapisan gudang data, domain data, dan data mart Anda. Anda juga dapat mengonfigurasi ruang desain model, memungkinkan departemen berbeda berbagi satu set standar data dan model data yang sama.
Data Standard: Definisikan standar bidang, kode standar, satuan ukuran, dan kamus penamaan. Anda juga dapat secara otomatis menghasilkan aturan kualitas data dari kode standar untuk menyederhanakan pemeriksaan kepatuhan.
Dimension Modeling: Mendukung pemodelan terbalik untuk mengatasi masalah cold-start pada gudang data yang sudah ada. Menyediakan pemodelan dimensional visual, memungkinkan Anda mengimpor model dari file Excel atau membangunnya dengan cepat menggunakan FML (bahasa domain-spesifik mirip SQL), serta terintegrasi mulus dengan Data Studio untuk menghasilkan kode ETL secara otomatis.
Data Metrics: Definisikan dan bangun metrik atomik serta metrik turunan. Modul ini terintegrasi mulus dengan pemodelan dimensional, memungkinkan Anda membuat metrik turunan secara batch berdasarkan metrik atomik dan berbagai dimensi.
Teknologi dan arsitektur inti
Kasus penggunaan
Pemodelan data cerdas DataWorks dapat membantu Anda membangun kemampuan pemodelan internal dan membuka nilai aset data Anda. Contohnya meliputi:
Standarisasi manajemen data skala besar
Perusahaan besar memiliki struktur data yang lebih kompleks. Cara mengelola dan menyimpan data secara terstruktur dan teratur merupakan tantangan yang dihadapi setiap perusahaan besar.
Memecah hambatan informasi dengan menghubungkan data bisnis
Jika data setiap bisnis atau departemen dalam suatu perusahaan terisolasi satu sama lain, pengambil keputusan tidak dapat memahami data secara jelas dan menyeluruh. Cara memecah silodata antar departemen atau domain bisnis merupakan tantangan besar dalam manajemen data bisnis.
Mengintegrasikan standar data untuk mencapai interkoneksi data yang terpadu dan fleksibel
Deskripsi data yang tidak konsisten menghasilkan duplikasi data, hasil perhitungan salah, dan kesulitan dalam manajemen data bisnis. Cara merumuskan standar data terpadu tanpa mengubah arsitektur sistem asli dan mewujudkan interkoneksi fleksibel antara bisnis hulu dan hilir merupakan salah satu fokus utama manajemen terstandarisasi.
Memaksimalkan nilai data untuk memaksimalkan keuntungan
Manfaatkan berbagai jenis data perusahaan seoptimal mungkin untuk memaksimalkan nilai data guna memberikan layanan data yang lebih efisien bagi perusahaan.
DataAnalysis: Analisis instan dan cepat
Berdasarkan tujuan "menjadikan setiap orang sebagai analis data", DataAnalysis menyediakan alat sederhana dan efisien bagi pengguna teknis yang bukan insinyur data—seperti analis data, manajer produk, dan staf operasional—untuk membantu mereka mengambil dan menganalisis data secara efisien dalam tugas sehari-hari.
Ikhtisar
DataAnalysis mendukung fitur seperti unggahan data pribadi, dataset publik, pencarian dan bookmark tabel, kueri SQL online, berbagi file SQL, mengunduh hasil kueri SQL, serta melihat data di layar besar menggunakan spreadsheet.
Kasus penggunaan
Modul ini dirancang untuk pengembang data non-profesional—seperti analis data, manajer produk, dan staf operasional—untuk melakukan analisis data yang efisien, skalabel, lancar, dan aman.
Skalabel: Manfaatkan kekuatan mesin komputasi untuk menganalisis dataset skala penuh yang sangat besar secara efisien.
Lancar: Analisis data dari database di berbagai sistem bisnis. DataAnalysis memungkinkan Anda mengekspor data ke tabel MaxCompute atau berbagi set hasil dengan pengguna tertentu dan memberikan izin kepada mereka. Hal ini memungkinkan data mengalir antar sistem dan personel yang berbeda.
Aman: Semua operasi, termasuk kueri SQL dan pengunduhan hasil SQL, dapat diintegrasikan dengan audit keamanan.
Kualitas Data: Pemantauan kualitas end-to-end
DataWorks menyediakan pemantauan kualitas data end-to-end dengan lebih dari 30 templat pemantauan preset di tingkat tabel dan bidang, serta templat kustom. Modul Kualitas Data segera mendeteksi perubahan pada data sumber dan mengidentifikasi data kotor yang dihasilkan selama proses ETL. Modul ini secara otomatis memblokir tugas bermasalah untuk mencegah penyebaran data kotor ke sistem hilir.
ETL adalah proses mengekstraksi, mentransformasi, dan memuat data dari sumber ke tujuan.
Kualitas Data memantau set data dan mendukung tabel data dari berbagai mesin, termasuk MaxCompute. Saat data offline berubah, Kualitas Data memverifikasi data tersebut dan memblokir pipeline produksi untuk mencegah polusi data. Modul ini juga mengelola hasil verifikasi historis, memungkinkan Anda menganalisis dan mengklasifikasikan tingkat kualitas data. Untuk informasi selengkapnya, lihat Kualitas Data.
Kualitas Data membantu Anda mengatasi masalah berikut:
Perubahan database yang sering terjadi.
Perubahan bisnis yang sering terjadi.
Masalah definisi data.
Data kotor dari sistem bisnis.
Masalah kualitas akibat interaksi sistem.
Masalah akibat koreksi data.
Masalah kualitas yang berasal dari gudang data itu sendiri.
Data Map: Manajemen terpadu dan pelacakan alur data
Berdasarkan kemampuan pencarian data, Data Map menyediakan alat seperti petunjuk penggunaan tabel, kategori data, alur data, dan garis keturunan bidang. Fitur ini membantu konsumen dan pemilik data mengelola data dengan lebih baik serta berkolaborasi dalam pengembangan.
Studio Layanan Data: Publikasikan API dengan cepat dan hemat biaya
Modul Studio Layanan Data dalam DataWorks adalah platform yang fleksibel, ringan, aman, dan stabil untuk membangun API data. Platform ini menyediakan kemampuan berbagi data yang komprehensif dan membantu Anda membuka serta berbagi nilai data melalui fitur seperti persetujuan publikasi, kontrol akses, pengukuran penggunaan, dan isolasi sumber daya.
Ikhtisar
Sebagai jembatan antara gudang data dan aplikasi hulu, Studio Layanan Data membantu Anda membangun bus layanan terpadu untuk perusahaan. Platform ini menyatukan pembuatan dan manajemen layanan API internal maupun eksternal, menutup celah "satu mil terakhir" antara gudang data, database, dan aplikasi data untuk mempercepat aliran dan berbagi data.
Hasilkan API data dari tabel di berbagai sumber data menggunakan mode tanpa kode atau mode SQL self-service. Anda juga dapat menggunakan Function Compute untuk membantu memproses parameter permintaan API dan hasil yang dikembalikan.
Studio Layanan Data menggunakan arsitektur serverless, sehingga Anda tidak perlu mengelola infrastruktur dasar. Anda dapat mempublikasikan layanan API ke gerbang API dengan satu klik.
Teknologi dan arsitektur inti
Studio Layanan Data menggunakan arsitektur serverless. Hal ini memungkinkan Anda fokus pada logika kueri API alih-alih mengelola infrastruktur dasar seperti lingkungan runtime. Studio Layanan Data secara otomatis menyediakan sumber daya komputasi dengan skalabilitas elastis, sehingga biaya O&M menjadi nol.
Platform Terbuka: Kemampuan terbuka yang komprehensif
Platform Terbuka DataWorks adalah gerbang untuk mengekspos data dan kemampuan DataWorks ke sistem eksternal. Untuk membantu Anda mengintegrasikan berbagai sistem aplikasi dengan DataWorks secara cepat, platform ini menyediakan OpenAPI, OpenEvent, dan Extensions. Hal ini memungkinkan manajemen alur kerja data, tata kelola data, dan O&M yang mudah, serta memungkinkan aplikasi terintegrasi merespons perubahan status bisnis secara cepat.
Ikhtisar
Platform Terbuka DataWorks menyediakan kemampuan seperti OpenAPI, OpenEvent, dan Extensions.
OpenAPI: Anda dapat menggunakan OpenAPI untuk mengintegrasikan aplikasi Anda sendiri dengan DataWorks secara mendalam. Misalnya, Anda dapat membuat, mempublikasikan, dan mengelola tugas secara batch untuk meningkatkan efisiensi pemrosesan data besar dan mengurangi operasi manual.
Untuk informasi selengkapnya tentang OpenAPI, lihat OpenAPI.
OpenEvent: Anda dapat berlangganan peristiwa sistem di DataWorks untuk menerima notifikasi real-time dan merespons perubahan. Misalnya, berlangganan peristiwa perubahan tabel untuk memantau tabel inti secara real-time, atau berlangganan peristiwa perubahan tugas untuk membuat dasbor pemantauan tugas real-time khusus.
Untuk informasi selengkapnya tentang OpenEvent, lihat OpenEvent.
Extensions: Extensions adalah plugin tingkat layanan yang menggabungkan OpenAPI dan OpenEvent. Plugin ini memungkinkan Anda menyesuaikan kontrol alur kerja di DataWorks. Misalnya, Anda dapat membuat plugin kontrol penerapan khusus untuk memblokir tugas yang tidak sesuai dengan standar dan persyaratan Anda.
Untuk informasi selengkapnya tentang Extensions, lihat Extensions.
Kasus penggunaan
Platform Terbuka DataWorks menyediakan kemampuan terbuka yang komprehensif untuk integrasi sistem mendalam, operasi otomatis, definisi alur kerja, dan pemantauan bisnis. Kami mengundang pengguna dan mitra untuk membangun aplikasi data dan plugin berbasis industri serta berbasis skenario di Platform Terbuka DataWorks.
Asisten Migrasi dan layanan migrasi cloud
Asisten Migrasi DataWorks membantu Anda memindahkan pekerjaan dari mesin penjadwalan open-source ke DataWorks. Asisten ini mendukung migrasi pekerjaan cross-cloud, cross-region, dan cross-account, memungkinkan Anda mengkloning dan menerapkan pekerjaan DataWorks dengan cepat. Selain itu, tim DataWorks, bekerja sama dengan tim layanan ahli data besar, menawarkan layanan migrasi cloud untuk membantu Anda memindahkan data dan tugas ke cloud secara cepat.
Ikhtisar
Fungsi utama Asisten Migrasi dan layanan migrasi cloud meliputi:
Migrasi tugas ke cloud: Pindahkan pekerjaan dari mesin penjadwalan open-source ke DataWorks.
Migrasi DataWorks: Pindahkan aset pengembangan dalam ekosistem DataWorks.
Kasus penggunaan
Layanan ini sangat ideal untuk skenario berikut:
Migrasi tugas ke cloud: Pindahkan pekerjaan dari mesin penjadwalan open-source ke DataWorks.
Backup tugas: Gunakan Asisten Migrasi untuk mencadangkan kode tugas secara berkala guna meminimalkan kerugian akibat penghapusan proyek yang tidak disengaja.
Replikasi bisnis cepat: Abstraksikan logika bisnis umum dan gunakan fitur ekspor/impor Asisten Migrasi untuk mereplikasinya dengan cepat.
Pembuatan lingkungan pengujian cepat: Replikasi penuh kode bisnis Anda dengan Asisten Migrasi dan ubah input data dari produksi ke data uji untuk segera menyiapkan lingkungan pengujian.
Pengembangan cross-cloud: Impor dan ekspor antara DataWorks di cloud publik dan DataWorks di cloud privat untuk memungkinkan pengembangan kolaboratif.