Alibaba Cloud のビッグデータ開発とガバナンスのためのワンストッププラットフォームとして、DataWorks はコンピュートエンジンプロダクトと共に使用されることがよくあります。データ統合のために、DataWorks はデータソースプロダクトとも連携してデータ伝送を可能にします。このトピックでは、典型的なシナリオで DataWorks と共に一般的に使用される他のクラウドプロダクトについて説明します。
コンピュートエンジンプロダクトのエコシステム
DataWorks はオープンなコンピュートエンジンエコシステムを提供します。MaxCompute、EMR、Hologres、Flink などの主流エンジンと統合し、エンジン間の共同開発をサポートします。計算リソースをバインドして、プラットフォーム上で利用可能な計算リソースに変換できます。これにより、ワンストップのビッグデータ開発とガバナンスが可能になります。ワンストッププラットフォームとして、DataWorks はコンピューティングタスクを直接実行しません。代わりに、エンジンバインドメカニズムを使用し、開発者が統一されたインターフェイスからデータ処理タスクを作成、オーケストレーション、管理できるようにします。
現在、DataWorks は以下のコンピュートエンジンをサポートしています:
データソースプロダクトのエコシステム
データソースは、DataWorks において外部システムに接続するための統一されたエントリーポイントです。データベース、ビッグデータストレージ、メッセージキューなどの異種データソースへの標準化されたアクセスをサポートします。管理センターで接続情報を一度定義し、ネットワーク接続を構成できます。その後、複数のプロダクトモジュールからそれを呼び出すことで、繰り返しの構成を回避できます。標準モードでは、開発環境と本番環境に対してデータソースの隔離を構成し、物理的な分離を確保することもできます。
データ統合
データソースは、DataWorks において外部システムに接続するための標準ユニットです。MaxCompute、MySQL、OSS などの異種データソースの接続テンプレートを提供し、データ統合タスクのための統一された読み書きのエンドポイントを提供します。この構成に基づき、データ統合モジュールでは、統一されたインターフェイスで同期メソッドを柔軟に選択できます。これらのメソッドには、単一テーブルまたは完全なデータベース、およびオフラインまたはリアルタイム同期が含まれます。これにより、完全移行、増分キャプチャ、および自動的な完全同期と増分同期によるデータインジェストが可能になります。
詳細については、「データソース管理」および「サポートされているデータソースと同期ソリューション」をご参照ください。
データスタジオ
DataWorks は、MaxCompute、EMR、ADB などの異種コンピュートエンジンを基盤となる計算リソースとして使用したタスク開発をサポートしています。また、MySQL や Oracle などのデータベースをノードとして開発パイプラインに接続することもできます。統一されたインターフェイスでデータソース接続とスケジューlingポリシーを構成できます。その後、開発や O&M などのモジュールからそれらを呼び出すことで、異なるエンジンとデータベース間でのハイブリッドなオーケストレーションとスケジューリングを実現できます。
詳細については、「データベースノード」をご参照ください。
MySQL データソース | PolarDB MySQL データソース | Saphana データソース |
SQL Server データソース | PolarDB PostgreSQL データソース | Vertica データソース |
Oracle データソース | Doris データソース | DM データソース |
PostgreSQL データソース | Mariadb データソース | KingbaseES データソース |
StarRocks データソース | Selectdb データソース | OceanBase データソース |
DRDS データソース | Redshift データソース | DB2 データソース |
Gbase8a データソース |
Data Map
データソースは、Data Map が統一されたメタデータ取得に使用する基本ユニットです。事前構成済みのデータソース接続を使用することで、システムに組み込まれたコレクターはデータベースのテーブルスキーマ、パーティション情報、およびデータリネージをクロスリンクで取得できます。取得後、Data Map でテーブル情報を表示し、データリネージグラフを視覚化できます。これにより、データ資産のトレーサビリティ分析を実行できます。
詳細については、「メタデータ取得」をご参照ください。
AnalyticDB for PostgreSQL データソース | MySQL データソース | Hologres データソース |
AnalyticDB for MySQL データソース | PostgreSQL データソース | Lindorm データソース |
AnalyticDB for Spark データソース | SQL Server データソース | MaxCompute データソース |
CDH Hive データソース | Oracle データソース | StarRocks データソース |
Data Lake Formation (DLF) | Tablestore (OTS) データソース | Clickhouse データソース |
E-MapReduce HIVE データソース |
DataAnalysis
DataAnalysis はエンジンとデータソースを使用して、DataWorks 内でデータをスムーズに処理、分析、変換、視覚化できるようにします。
詳細については、「SQL クエリと分析」をご参照ください。
MaxCompute データソース | Hologres データソース | EMR Hive データソース |
EMR Spark SQL データソース | EMR Impala データソース | EMR Presto データソース |
EMR Trino データソース | CDH Hive データソース | CDH Spark SQL データソース |
StarRocks データソース | ClickHouse データソース | SelectDB データソース |
Doris データソース | AnalyticDB for MySQL 3.0 データソース | AnalyticDB for PostgreSQL データソース |
Tablestore (OTS) データソース | MySQL データソース | PostgreSQL データソース |
Oracle | SQL Server データソース |
DataService Studio
DataService Studio は API を生成して、異種データソースを標準のデータサービス機能に変換し、データ共有を可能にします。
詳細については、「API の生成」をご参照ください。