DataWorks でサポートされているクラウド製品とコンピュートエンジン - DataWorks

Alibaba Cloud のビッグデータ開発とガバナンスのためのワンストッププラットフォームとして、DataWorks はコンピュートエンジンプロダクトと共に使用されることがよくあります。データ統合のために、DataWorks はデータソースプロダクトとも連携してデータ伝送を可能にします。このトピックでは、典型的なシナリオで DataWorks と共に一般的に使用される他のクラウドプロダクトについて説明します。

コンピュートエンジンプロダクトのエコシステム

DataWorks はオープンなコンピュートエンジンエコシステムを提供します。MaxCompute、EMR、Hologres、Flink などの主流エンジンと統合し、エンジン間の共同開発をサポートします。計算リソースをバインドして、プラットフォーム上で利用可能な計算リソースに変換できます。これにより、ワンストップのビッグデータ開発とガバナンスが可能になります。ワンストッププラットフォームとして、DataWorks はコンピューティングタスクを直接実行しません。代わりに、エンジンバインドメカニズムを使用し、開発者が統一されたインターフェイスからデータ処理タスクを作成、オーケストレーション、管理できるようにします。

現在、DataWorks は以下のコンピュートエンジンをサポートしています:

MaxCompute	Hologres	Flink
EMR on ECS	EMR on ACK	EMR Serverless StarRocks
EMR Serverless Spark	CDH	AnalyticDB for MySQL
AnalyticDB for PostgreSQL	AnalyticDB for Spark	OpenSearch
ClickHouse	Lindorm

データソースプロダクトのエコシステム

データソースは、DataWorks において外部システムに接続するための統一されたエントリーポイントです。データベース、ビッグデータストレージ、メッセージキューなどの異種データソースへの標準化されたアクセスをサポートします。管理センターで接続情報を一度定義し、ネットワーク接続を構成できます。その後、複数のプロダクトモジュールからそれを呼び出すことで、繰り返しの構成を回避できます。標準モードでは、開発環境と本番環境に対してデータソースの隔離を構成し、物理的な分離を確保することもできます。

データ統合

データソースは、DataWorks において外部システムに接続するための標準ユニットです。MaxCompute、MySQL、OSS などの異種データソースの接続テンプレートを提供し、データ統合タスクのための統一された読み書きのエンドポイントを提供します。この構成に基づき、データ統合モジュールでは、統一されたインターフェイスで同期メソッドを柔軟に選択できます。これらのメソッドには、単一テーブルまたは完全なデータベース、およびオフラインまたはリアルタイム同期が含まれます。これにより、完全移行、増分キャプチャ、および自動的な完全同期と増分同期によるデータインジェストが可能になります。

詳細については、「データソース管理」および「サポートされているデータソースと同期ソリューション」をご参照ください。

Amazon S3 データソース	HDFS データソース	PolarDB データソース
Amazon Redshift データソース	Hive データソース	PolarDB-X 2.0 データソース
AnalyticDB for MySQL 2.0 データソース	Hologres データソース	PostgreSQL データソース
AnalyticDB for MySQL 3.0 データソース	HttpFile データソース	Redis データソース
AnalyticDB for PostgreSQL データソース	Kafka データソース	RestAPI (HTTP) データソース
ApsaraDB For OceanBase データソース	KingbaseES データソース	Salesforce データソース
Azure BLOB Storage データソース	Lindorm データソース	SAP HANA データソース
BigQuery データソース	LogHub (SLS) データソース	SelectDB データソース
ClickHouse データソース	MaxCompute データソース	Sensors Data データソース
DataHub データソース	MariaDB データソース	StarRocks データソース
Data Lake Formation データソース	Maxgraph データソース	SQL Server データソース
DB2 データソース	Memcache (OCS) データソース	Tablestore データソース
Doris データソース	MetaQ データソース	Tablestore Stream データソース
DM データソース	Milvus データソース	TiDB データソース
DRDS (PolarDB-X 1.0) データソース	MongoDB データソース	TSDB データソース
Elasticsearch データソース	MySQL データソース	Vertica データソース
FTP データソース	OpenSearch データソース	TOS データソース
GBase8a データソース	Oracle データソース	HBase データソース
Graph Database (GDB) データソース	OSS データソース	OSS-HDFS データソース

データスタジオ

DataWorks は、MaxCompute、EMR、ADB などの異種コンピュートエンジンを基盤となる計算リソースとして使用したタスク開発をサポートしています。また、MySQL や Oracle などのデータベースをノードとして開発パイプラインに接続することもできます。統一されたインターフェイスでデータソース接続とスケジューlingポリシーを構成できます。その後、開発や O&M などのモジュールからそれらを呼び出すことで、異なるエンジンとデータベース間でのハイブリッドなオーケストレーションとスケジューリングを実現できます。

詳細については、「データベースノード」をご参照ください。

MySQL データソース	PolarDB MySQL データソース	Saphana データソース
SQL Server データソース	PolarDB PostgreSQL データソース	Vertica データソース
Oracle データソース	Doris データソース	DM データソース
PostgreSQL データソース	Mariadb データソース	KingbaseES データソース
StarRocks データソース	Selectdb データソース	OceanBase データソース
DRDS データソース	Redshift データソース	DB2 データソース
Gbase8a データソース

Data Map

データソースは、Data Map が統一されたメタデータ取得に使用する基本ユニットです。事前構成済みのデータソース接続を使用することで、システムに組み込まれたコレクターはデータベースのテーブルスキーマ、パーティション情報、およびデータリネージをクロスリンクで取得できます。取得後、Data Map でテーブル情報を表示し、データリネージグラフを視覚化できます。これにより、データ資産のトレーサビリティ分析を実行できます。

詳細については、「メタデータ取得」をご参照ください。

AnalyticDB for PostgreSQL データソース	MySQL データソース	Hologres データソース
AnalyticDB for MySQL データソース	PostgreSQL データソース	Lindorm データソース
AnalyticDB for Spark データソース	SQL Server データソース	MaxCompute データソース
CDH Hive データソース	Oracle データソース	StarRocks データソース
Data Lake Formation (DLF)	Tablestore (OTS) データソース	Clickhouse データソース
E-MapReduce HIVE データソース

DataAnalysis

DataAnalysis はエンジンとデータソースを使用して、DataWorks 内でデータをスムーズに処理、分析、変換、視覚化できるようにします。

詳細については、「SQL クエリと分析」をご参照ください。

MaxCompute データソース	Hologres データソース	EMR Hive データソース
EMR Spark SQL データソース	EMR Impala データソース	EMR Presto データソース
EMR Trino データソース	CDH Hive データソース	CDH Spark SQL データソース
StarRocks データソース	ClickHouse データソース	SelectDB データソース
Doris データソース	AnalyticDB for MySQL 3.0 データソース	AnalyticDB for PostgreSQL データソース
Tablestore (OTS) データソース	MySQL データソース	PostgreSQL データソース
Oracle	SQL Server データソース

DataService Studio

DataService Studio は API を生成して、異種データソースを標準のデータサービス機能に変換し、データ共有を可能にします。

詳細については、「API の生成」をご参照ください。

AnalyticDB for MySQL 2.0 データソース	StarRocks データソース	MaxCompute データソース
AnalyticDB for MySQL 3.0 データソース	Doris データソース	HBase データソース
AnalyticDB for PostgreSQL データソース	PolarDB データソース	DB2 データソース
Tablestore Stream データソース	ApsaraDB For OceanBase データソース	DM データソース
MongoDB データソース	SAP HANA データソース