Produk Cloud & Mesin Komputasi yang Didukung di DataWorks - DataWorks

Sebagai platform Alibaba Cloud yang menyediakan solusi lengkap untuk pengembangan dan tata kelola data besar, DataWorks sering digunakan bersama mesin komputasi. Untuk integrasi data, DataWorks juga berintegrasi dengan berbagai produk sumber data guna memungkinkan transmisi data. Topik ini menjelaskan produk cloud lain yang umum digunakan bersama DataWorks dalam skenario khas.

Ekosistem produk mesin komputasi

DataWorks menyediakan ekosistem mesin komputasi terbuka. Platform ini terintegrasi dengan mesin utama seperti MaxCompute, EMR, Hologres, dan Flink untuk mendukung pengembangan kolaboratif lintas mesin. Anda dapat mengikat sumber daya komputasi agar tersedia sebagai sumber daya komputasi di platform, sehingga memungkinkan pengembangan dan tata kelola data besar secara terpadu. Sebagai platform terpadu, DataWorks tidak langsung mengeksekusi tugas komputasi, melainkan menggunakan mekanisme pengikatan mesin yang memungkinkan pengembang membuat, mengatur orkestrasi, dan mengelola tugas pemrosesan data dari antarmuka terpadu.

Saat ini, DataWorks mendukung mesin komputasi berikut:

MaxCompute	Hologres	Flink
EMR on ECS	EMR on ACK	EMR Serverless StarRocks
EMR Serverless Spark	CDH	AnalyticDB for MySQL
AnalyticDB for PostgreSQL	AnalyticDB for Spark	OpenSearch
ClickHouse	Lindorm

Ekosistem produk sumber data

Sumber data adalah titik masuk terpadu di DataWorks untuk menghubungkan ke sistem eksternal. Sumber data mendukung akses terstandarisasi ke berbagai jenis sumber data, seperti database, penyimpanan data besar, dan antrian pesan. Anda cukup menentukan informasi koneksi dan mengonfigurasi konektivitas jaringan sekali di Pusat Manajemen, lalu dapat memanggilnya dari berbagai modul produk untuk menghindari konfigurasi berulang. Dalam mode standar, Anda juga dapat mengonfigurasi isolasi sumber data antara lingkungan pengembangan dan produksi guna memastikan isolasi fisik.

Data Integration

Sumber data merupakan unit standar di DataWorks untuk menghubungkan ke sistem eksternal. Sumber data menyediakan templat koneksi untuk berbagai sumber data seperti MaxCompute, MySQL, dan OSS, yang menawarkan titik akhir baca dan tulis terpadu untuk tugas integrasi data. Berdasarkan konfigurasi tersebut, modul Data Integration memungkinkan Anda memilih metode sinkronisasi secara fleksibel melalui antarmuka terpadu, termasuk tabel tunggal atau seluruh database serta sinkronisasi offline atau real-time. Hal ini mendukung ingesti data melalui migrasi penuh, penangkapan inkremental, serta sinkronisasi penuh dan inkremental otomatis.

Untuk informasi lebih lanjut, lihat Manajemen Sumber Data dan Sumber data yang didukung dan solusi sinkronisasi.

Sumber data Amazon S3	Sumber data HDFS	Sumber data PolarDB
Sumber data Amazon Redshift	Sumber data Hive	Sumber data PolarDB-X 2.0
Sumber data AnalyticDB for MySQL 2.0	Sumber data Hologres	Sumber data PostgreSQL
Sumber data AnalyticDB for MySQL 3.0	Sumber data HttpFile	Sumber data Redis
Sumber data AnalyticDB for PostgreSQL	Sumber data Kafka	Sumber data RestAPI (HTTP)
Sumber data ApsaraDB For OceanBase	Sumber data KingbaseES	Sumber data Salesforce
Sumber data Azure BLOB Storage	Sumber data Lindorm	Sumber data SAP HANA
Sumber data BigQuery	Sumber data Pusat Log (SLS)	Sumber data SelectDB
Sumber data ClickHouse	Sumber data MaxCompute	Sumber data Sensors Data
Sumber data DataHub	Sumber data MariaDB	Sumber data StarRocks
Sumber data Data Lake Formation	Sumber data Maxgraph	Sumber data SQL Server
Sumber data DB2	Sumber data Memcache (OCS)	Sumber data Tablestore
Sumber data Doris	Sumber data MetaQ	Sumber data Tablestore Stream
Sumber data DM	Sumber data Milvus	Sumber data TiDB
Sumber data DRDS (PolarDB-X 1.0)	Sumber data MongoDB	Sumber data TSDB
Sumber data Elasticsearch	Sumber data MySQL	Sumber data Vertica
Sumber data FTP	Sumber data OpenSearch	Sumber data TOS
Sumber data GBase8a	Sumber data Oracle	Sumber data HBase
Sumber data Graph Database (GDB)	Sumber data OSS	Sumber data OSS-HDFS

Data Studio

DataWorks mendukung pengembangan tugas menggunakan berbagai mesin komputasi seperti MaxCompute, EMR, dan ADB sebagai sumber daya komputasi dasar. Anda juga dapat menghubungkan database seperti MySQL dan Oracle ke alur pengembangan sebagai node. Koneksi sumber data dan kebijakan penjadwalan dapat dikonfigurasi dalam antarmuka terpadu, lalu dipanggil dari modul-modul seperti pengembangan dan O&M untuk mencapai orkestrasi dan penjadwalan hibrida lintas mesin dan database yang berbeda.

Untuk informasi lebih lanjut, lihat Node database.

Sumber data MySQL	Sumber data PolarDB MySQL	Sumber data Saphana
Sumber data SQL Server	Sumber data PolarDB PostgreSQL	Sumber data Vertica
Sumber data Oracle	Sumber data Doris	Sumber data DM
Sumber data PostgreSQL	Sumber data Mariadb	Sumber data KingbaseES
Sumber data StarRocks	Sumber data Selectdb	Sumber data OceanBase
Sumber data DRDS	Sumber data Redshift	Sumber data DB2
Sumber data Gbase8a

Data Map

Sumber data merupakan unit dasar yang digunakan Data Map untuk pengambilan metadata terpadu. Menggunakan koneksi sumber data yang telah dikonfigurasi sebelumnya, kolektor bawaan sistem dapat memperoleh skema tabel database, informasi partisi, dan alur data lintas-tautan. Setelah pengambilan, Anda dapat melihat informasi tabel dan memvisualisasikan graf alur data di Data Map, sehingga memungkinkan analisis ketertelusuran terhadap aset data Anda.

Untuk informasi lebih lanjut, lihat Pengambilan metadata.

Sumber data AnalyticDB for PostgreSQL	Sumber data MySQL	Sumber data Hologres
Sumber data AnalyticDB for MySQL	Sumber data PostgreSQL	Sumber data Lindorm
Sumber data AnalyticDB for Spark	Sumber data SQL Server	Sumber data MaxCompute
Sumber data CDH Hive	Sumber data Oracle	Sumber data StarRocks
Data Lake Formation (DLF)	Sumber data Tablestore (OTS)	Sumber data Clickhouse
Sumber data E-MapReduce HIVE

DataAnalysis

DataAnalysis memanfaatkan mesin dan sumber data untuk memungkinkan Anda memproses, menganalisis, mengubah, dan memvisualisasikan data di DataWorks secara lancar.

Untuk informasi lebih lanjut, lihat Kueri dan analisis SQL.

Sumber data MaxCompute	Sumber data Hologres	Sumber data EMR Hive
Sumber data EMR Spark SQL	Sumber data EMR Impala	Sumber data EMR Presto
Sumber data EMR Trino	Sumber data CDH Hive	Sumber data CDH Spark SQL
Sumber data StarRocks	Sumber data ClickHouse	Sumber data SelectDB
Sumber data Doris	Sumber data AnalyticDB for MySQL 3.0	Sumber data AnalyticDB for PostgreSQL
Sumber data Tablestore (OTS)	Sumber data MySQL	Sumber data PostgreSQL
Oracle	Sumber data SQL Server

DataService Studio

DataService Studio dapat menghasilkan API untuk mengubah berbagai sumber data menjadi kemampuan layanan data standar, sehingga memungkinkan berbagi data.

Untuk informasi lebih lanjut, lihat Menghasilkan API.

Sumber data AnalyticDB for MySQL 2.0	Sumber data StarRocks	Sumber data MaxCompute
Sumber data AnalyticDB for MySQL 3.0	Sumber data Doris	Sumber data HBase
Sumber data AnalyticDB for PostgreSQL	Sumber data PolarDB	Sumber data DB2
Sumber data Tablestore Stream	Sumber data ApsaraDB For OceanBase	Sumber data DM
Sumber data MongoDB	Sumber data SAP HANA