支援的計算引擎與資料來源-巨量資料開發治理平台 DataWorks-阿里雲

DataWorks作為阿里雲一站式巨量資料開發與治理平台，通常會與計算引擎產品聯合使用，此外使用DataWorks進行Data Integration時通常聯合進行資料轉送的資料來源產品一起使用。本文為您介紹典型情境下，使用DataWorks時通常會使用到的其他雲產品。

計算引擎類產品生態

DataWorks 構建了開放的計算引擎生態，深度整合MaxCompute、EMR、Hologres、Flink等主流引擎，支援跨引擎協同開發。使用者可通過綁定計算資源，將其轉化為平台可用的計算資源，進而實現一站式巨量資料開發治理。DataWorks作為一站式巨量資料開發治理平台，不直接執行計算任務，而是通過引擎綁定機制，使開發人員能夠基於統一介面建立、編排並管理資料處理任務。

目前，DataWorks支援的計算引擎生態包括：

MaxCompute	Hologres	Flink
EMR on ECS	EMR on ACK	EMR Serverless StarRocks
EMR Serverless Spark	CDH	AnalyticDB MySQL
AnalyticDB PostgreSQL	AnalyticDB for Spark	OpenSearch
ClickHouse	Lindorm

資料來源類產品生態

資料來源是DataWorks串連外部系統的統一配置入口，支援資料庫、巨量資料儲存、訊息佇列等多種異構資料來源的標準化接入。使用者僅需在管理中心一次性定義串連資訊並配置網路連通，即可在多個產品模組中調用，規避重複配置操作。同時，標準模式下支援開發與生產環境的資料來源隔離配置，確保測試與線上環境物理隔離。

Data Integration

資料來源作為DataWorks中串連外部系統的標準化登錄區，通過預置多種異構資料來源串連模板（如MaxCompute、MySQL、OSS等），為Data Integration任務提供統一的讀寫端點定義。基於此配置，Data Integration模組可依據資料來源特性，在統一介面中靈活選擇單表/整庫、離線/即時等同步方式，實現全量遷移、增量捕獲及全增量自動銜接的資料接入能力。

更多操作資訊，請參見資料來源管理、支援的資料來源及同步方案。

Amazon S3資料來源	HDFS資料來源	PolarDB資料來源
Amazon Redshift資料來源	Hive資料來源	PolarDB-X 2.0資料來源
AnalyticDB for MySQL 2.0資料來源	Hologres資料來源	PostgreSQL資料來源
AnalyticDB for MySQL 3.0資料來源	HttpFile資料來源	Redis資料來源
AnalyticDB for PostgreSQL資料來源	Kafka資料來源	RestAPI（HTTP形式）資料來源
ApsaraDB For OceanBase資料來源	KingbaseES（人大金倉）資料來源	Salesforce資料來源
Azure Blob Storage資料來源	Lindorm資料來源	SAP HANA資料來源
BigQuery資料來源	LogHub（SLS）資料來源	SelectDB資料來源
ClickHouse資料來源	MaxCompute資料來源	Sensors Data（神策）資料來源
DataHub資料來源	MariaDB資料來源	StarRocks資料來源
Data Lake Formation 資料來源	Maxgraph資料來源	SQL Server資料來源
DB2資料來源	Memcache（OCS）資料來源	Tablestore資料來源
Doris資料來源	MetaQ資料來源	Tablestore Stream資料來源
DM（達夢）資料來源	Milvus資料來源	TiDB資料來源
DRDS（PolarDB-X 1.0）資料來源	MongoDB資料來源	TSDB資料來源
Elasticsearch資料來源	MySQL資料來源	Vertica資料來源
FTP資料來源	OpenSearch資料來源	TOS資料來源
GBase8a資料來源	Oracle資料來源	HBase資料來源
Graph Database（GDB）資料來源	OSS資料來源	OSS-HDFS資料來源

資料開發

DataWorks支援以異構計算引擎（如MaxCompute、EMR、ADB）作為底層算力資源進行任務開發，同時可將MySQL、Oracle等資料庫以“節點”形式接入開發鏈路。使用者通過統一介面配置資料來源串連與調度策略後，即可在開發、營運等模組調用，實現跨引擎與跨資料庫的混合編排調度。

更多操作資訊，請參見：資料庫節點。

MySQL資料來源	PolarDB MySQL資料來源	Saphana資料來源
SQL Server資料來源	PolarDB Postgresql資料來源	Vertica資料來源
Oracle資料來源	Doris資料來源	DM資料來源
PostgreSQL資料來源	Mariadb資料來源	KingbaseES資料來源
StarRocks資料來源	Selectdb資料來源	OceanBase資料來源
DRDS資料來源	Redshift資料來源	DB2資料來源
Gbase8a資料來源

資料地圖

資料來源是資料地圖實現中繼資料統一採集的基礎登錄區。依託預配置的資料來源串連資訊，系統可通過內建採集器擷取資料庫表結構、分區資訊及跨鏈路血緣關係。採集完成後，使用者可在資料地圖中一站式查看錶資訊以及視化血緣圖譜，實現資料資產的溯源分析。

更多資訊請參見：中繼資料採集。

AnalyticDB for PostgreSQL資料來源	MySQL資料來源	Hologres資料來源
AnalyticDB for MySQL資料來源	PostgreSQL資料來源	Lindorm資料來源
AnalyticDB for Spark資料來源	SQL Server資料來源	MaxCompute資料來源
CDH Hive資料來源	Oracle資料來源	StarRocks資料來源
Data Lake Formation（DLF）	Tablestore（OTS）資料來源	Clickhouse資料來源
E-MapReduce HIVE資料來源

資料分析

資料分析藉助引擎和資料來源的能力，可以讓您在DataWorks上流暢地進行資料處理、分析、加工及可視化操作。

更多操作資訊參見：SQL查詢與分析。

MaxCompute資料來源	Hologres資料來源	EMR Hive資料來源
EMR Spark SQL資料來源	EMR Impala資料來源	EMR Presto資料來源
EMR Trino資料來源	CDH Hive資料來源	CDH Spark SQL資料來源
StarRocks資料來源	ClickHouse資料來源	SelectDB資料來源
Doris資料來源	AnalyticDB for MySQL3.0資料來源	AnalyticDB for PostgreSQL資料來源
Tablestore（OTS）資料來源	MySQL資料來源	PostgreSQL資料來源
Oracle	SQL Server資料來源

資料服務

資料服務可以通過生產API，把異構資料來源轉化為標準的資料服務能力，實現資料共用。

更多操作資訊請參見：產生API。

AnalyticDB for MySQL 2.0資料來源	StarRocks資料來源	MaxCompute資料來源
AnalyticDB for MySQL 3.0資料來源	Doris資料來源	HBase資料來源
AnalyticDB for PostgreSQL資料來源	PolarDB資料來源	DB2資料來源
Tablestore Stream資料來源	ApsaraDB For OceanBase資料來源	DM（達夢）資料來源
MongoDB資料來源	SAP HANA資料來源