Sebagai platform Alibaba Cloud yang menyediakan solusi lengkap untuk pengembangan dan tata kelola data besar, DataWorks sering digunakan bersama mesin komputasi. Untuk integrasi data, DataWorks juga berintegrasi dengan berbagai produk sumber data guna memungkinkan transmisi data. Topik ini menjelaskan produk cloud lain yang umum digunakan bersama DataWorks dalam skenario khas.
Ekosistem produk mesin komputasi
DataWorks menyediakan ekosistem mesin komputasi terbuka. Platform ini terintegrasi dengan mesin utama seperti MaxCompute, EMR, Hologres, dan Flink untuk mendukung pengembangan kolaboratif lintas mesin. Anda dapat mengikat sumber daya komputasi agar tersedia sebagai sumber daya komputasi di platform, sehingga memungkinkan pengembangan dan tata kelola data besar secara terpadu. Sebagai platform terpadu, DataWorks tidak langsung mengeksekusi tugas komputasi, melainkan menggunakan mekanisme pengikatan mesin yang memungkinkan pengembang membuat, mengatur orkestrasi, dan mengelola tugas pemrosesan data dari antarmuka terpadu.
Saat ini, DataWorks mendukung mesin komputasi berikut:
Ekosistem produk sumber data
Sumber data adalah titik masuk terpadu di DataWorks untuk menghubungkan ke sistem eksternal. Sumber data mendukung akses terstandarisasi ke berbagai jenis sumber data, seperti database, penyimpanan data besar, dan antrian pesan. Anda cukup menentukan informasi koneksi dan mengonfigurasi konektivitas jaringan sekali di Pusat Manajemen, lalu dapat memanggilnya dari berbagai modul produk untuk menghindari konfigurasi berulang. Dalam mode standar, Anda juga dapat mengonfigurasi isolasi sumber data antara lingkungan pengembangan dan produksi guna memastikan isolasi fisik.
Data Integration
Sumber data merupakan unit standar di DataWorks untuk menghubungkan ke sistem eksternal. Sumber data menyediakan templat koneksi untuk berbagai sumber data seperti MaxCompute, MySQL, dan OSS, yang menawarkan titik akhir baca dan tulis terpadu untuk tugas integrasi data. Berdasarkan konfigurasi tersebut, modul Data Integration memungkinkan Anda memilih metode sinkronisasi secara fleksibel melalui antarmuka terpadu, termasuk tabel tunggal atau seluruh database serta sinkronisasi offline atau real-time. Hal ini mendukung ingesti data melalui migrasi penuh, penangkapan inkremental, serta sinkronisasi penuh dan inkremental otomatis.
Untuk informasi lebih lanjut, lihat Manajemen Sumber Data dan Sumber data yang didukung dan solusi sinkronisasi.
Data Studio
DataWorks mendukung pengembangan tugas menggunakan berbagai mesin komputasi seperti MaxCompute, EMR, dan ADB sebagai sumber daya komputasi dasar. Anda juga dapat menghubungkan database seperti MySQL dan Oracle ke alur pengembangan sebagai node. Koneksi sumber data dan kebijakan penjadwalan dapat dikonfigurasi dalam antarmuka terpadu, lalu dipanggil dari modul-modul seperti pengembangan dan O&M untuk mencapai orkestrasi dan penjadwalan hibrida lintas mesin dan database yang berbeda.
Untuk informasi lebih lanjut, lihat Node database.
Sumber data MySQL | Sumber data PolarDB MySQL | Sumber data Saphana |
Sumber data SQL Server | Sumber data PolarDB PostgreSQL | Sumber data Vertica |
Sumber data Oracle | Sumber data Doris | Sumber data DM |
Sumber data PostgreSQL | Sumber data Mariadb | Sumber data KingbaseES |
Sumber data StarRocks | Sumber data Selectdb | Sumber data OceanBase |
Sumber data DRDS | Sumber data Redshift | Sumber data DB2 |
Sumber data Gbase8a |
Data Map
Sumber data merupakan unit dasar yang digunakan Data Map untuk pengambilan metadata terpadu. Menggunakan koneksi sumber data yang telah dikonfigurasi sebelumnya, kolektor bawaan sistem dapat memperoleh skema tabel database, informasi partisi, dan alur data lintas-tautan. Setelah pengambilan, Anda dapat melihat informasi tabel dan memvisualisasikan graf alur data di Data Map, sehingga memungkinkan analisis ketertelusuran terhadap aset data Anda.
Untuk informasi lebih lanjut, lihat Pengambilan metadata.
Sumber data AnalyticDB for PostgreSQL | Sumber data MySQL | Sumber data Hologres |
Sumber data AnalyticDB for MySQL | Sumber data PostgreSQL | Sumber data Lindorm |
Sumber data AnalyticDB for Spark | Sumber data SQL Server | Sumber data MaxCompute |
Sumber data CDH Hive | Sumber data Oracle | Sumber data StarRocks |
Data Lake Formation (DLF) | Sumber data Tablestore (OTS) | Sumber data Clickhouse |
Sumber data E-MapReduce HIVE |
DataAnalysis
DataAnalysis memanfaatkan mesin dan sumber data untuk memungkinkan Anda memproses, menganalisis, mengubah, dan memvisualisasikan data di DataWorks secara lancar.
Untuk informasi lebih lanjut, lihat Kueri dan analisis SQL.
Sumber data MaxCompute | Sumber data Hologres | Sumber data EMR Hive |
Sumber data EMR Spark SQL | Sumber data EMR Impala | Sumber data EMR Presto |
Sumber data EMR Trino | Sumber data CDH Hive | Sumber data CDH Spark SQL |
Sumber data StarRocks | Sumber data ClickHouse | Sumber data SelectDB |
Sumber data Doris | Sumber data AnalyticDB for MySQL 3.0 | Sumber data AnalyticDB for PostgreSQL |
Sumber data Tablestore (OTS) | Sumber data MySQL | Sumber data PostgreSQL |
Oracle | Sumber data SQL Server |
DataService Studio
DataService Studio dapat menghasilkan API untuk mengubah berbagai sumber data menjadi kemampuan layanan data standar, sehingga memungkinkan berbagi data.
Untuk informasi lebih lanjut, lihat Menghasilkan API.