DataWorks は、Alibaba Cloud が提供するビッグデータ開発・ガバナンスのためのオールインワンプラットフォームです。データの取り込み、処理、ガバナンス、サービス配信に至るまで、データライフサイクル全体を統合的に管理します。高度に連携したモジュール群により、複雑なデータエンジニアリングワークフローを可視化・効率化し、データ開発のハードルを大幅に低減します。本ガイドでは、DataWorks の主要モジュールと、それぞれの主な目的、キーキャパビリティ、および適用範囲について説明します。
ワークフロー
[リソースの設定]: 管理センター で環境を構成します。データソース接続を定義し、リソースグループを割り当て、MaxCompute や Hologres などのコンピュートエンジンをバインドし、メンバー権限を管理します。
[データの取り込みと統合]: Data Integration を使用して、ソース業務システムからビッグデータプラットフォームへデータを取り込みます。Data Integration は、バッチ(オフライン)、リアルタイム(ストリーミング)、全量、および増分同期をサポートします。
[データモデルの設計]: 大規模開発を開始する前に、整理され保守可能なデータアーキテクチャを実現するために、標準化されたモデルを設計します。この段階では、データウェアハウス計画、データ標準 の定義、ディメンショナルモデリング(ディメンションテーブルおよびファクトテーブルの設計)、およびコアビジネスのメトリクス 定義を含みます。
[データの処理と変換]:
SQL や Python などのコードを、Data Studio WebIDE またはノートブックに記述します。ワークフローオーケストレーションを使用して、独立したタスクノードを有向非循環グラフ (DAG) に整理します。
スケジューリングポリシーを構成し、ワークフローを オペレーションセンター に公開します。オペレーションセンターは、定期的なスケジューリング、タスク監視、アラート通知、およびデータバックフィルなどの運用タスクを処理します。Data Quality の監視ルールを出力テーブルに対して構成し、精度を確保します。
DataWorks Copilot(AI アシスタント)は、コードの生成・最適化、問題のトラブルシューティング、および開発・運用の効率化を支援します。
[データの分析]: DataAnalysis を通じて、アナリストおよびビジネス運用チームに SQL クエリ、Data Insight、ワークブックを提供します。これにより、アドホックなクエリやセルフサービス BI 分析が可能になります。
[データの共有と交換]: DataService Studio を使用して、データを標準化された API サービスとしてラップします。プログラムによるアクセスにはデータプッシュ機能を利用します。
[エンドツーエンドのデータガバナンス]: データガバナンス機能は、データフロー全体にわたり展開され、データの信頼性、制御可能性、および活用可能性を保証します。メタデータは自動的に データマップ に同期され、ユーザーがデータを検索し、系統(ライネージ)をトレースできるように支援します。Data Asset Governance は、ガバナンス計画を通じて開発およびデータに関する課題を特定・解決します。セキュリティセンター は、機密データをデータフロー全体にわたって保護します。
DataWorks は、これらのワークフロー全体をオーケストレーションするとともに、MaxCompute、Hologres、Realtime Compute for Apache Flink、E-MapReduce などの基盤となるコンピュートエンジンが計算およびストレージを担当します。
組み合わせ利用シーン
さまざまなデータ処理およびアプリケーション要件に対応するため、DataWorks のモジュールを柔軟に組み合わせてご利用ください。以下に、代表的な組み合わせパターンをいくつか紹介します。
パターン 1:バッチ型データウェアハウスの構築
これは、企業向けデータウェアハウスの構築および BI 分析を伴う定期的なバッチ処理を行う際に最も一般的なパターンです。
[目的]: 安定性・信頼性・トレーサビリティを備えたバッチ型データウェアハウスを構築します。
[モジュールの組み合わせ]:
[実装手順]:
[Data Integration]: RDS などの業務システムから、MaxCompute のオペレーショナルデータストア(ODS)層へ、毎日増分データを同期します。
[データモデリング]: データウェアハウスのレイヤーを事前に計画し、モデルを設計します。レイヤーには、Detail(DWD)、Summary(DWS)、Dimension(DIM)、Application(ADS)が含まれます。
[Data Studio]: MaxCompute SQL タスクを作成し、ODS データをクリーニング・変換・ロードしてモデルテーブルに格納します。開発中に Copilot を活用して、コードの生成および最適化を行います。
[Data Quality]: コアの DWS および DWD レポートに対して監視ルールを構成します。例:「日次パーティションの行数はゼロであってはならない」または「キーとなる金額フィールドの値は正常範囲内に収まっている必要がある」などです。
[オペレーションセンター]: Data Studio で、すべてのタスクを依存関係に基づく DAG として構成します。スケジューリング周期を「毎日」に設定し、ワークフローをオペレーションセンターに公開します。モニタリングおよび運用のために、ベースラインおよび Data Quality ルールを構成します。
[データマップ]: アナリストおよびビジネスユーザーは、データマップを検索してメトリクス定義を確認し、完全な上流処理の系統(ライネージ)を閲覧します。
[担当者]: データエンジニアおよびデータアーキテクト。
パターン 2:リアルタイムデータ開発
これは、リアルタイムダッシュボード、レコメンデーション、リスク管理など、低遅延が求められるシナリオに適しています。
[目的]: ストリーミングデータをリアルタイムで処理・分析し、秒単位または分単位のビジネスインサイトを提供します。
[モジュールの組み合わせ]:
実装:
[Data Integration]: 行動ログやメッセージキュー(Kafka)から、データレイクまたはミドルウェアへリアルタイム同期タスクを構成します。
[Data Studio]: ウィンドウ処理、集約などのストリーム計算を行うための Flink SQL タスクを作成します。例:「過去 1 分間の製品クリック数をカウントする」などです。
[結果の出力]: Flink タスクは、結果をリアルタイムで Hologres などの高性能インタラクティブ分析エンジンに書き込みます。
レポートまたはダッシュボードを作成するには、以下のものを使います:
DataAnalysis: データソースとして Hologres を接続し、SQL クエリまたは Data Insight を使用してカードを作成します。複数のカードを組み合わせて、動的に更新されるレポートを生成します。
DataService Studio: データソースとして Hologres を指定して API を生成し、DataV や Quick BI などのツールにデータを提供して、リアルタイム分析ダッシュボードを構築します。
[担当者]: リアルタイム開発エンジニアおよびデータアナリスト。
パターン 3:データ探索および分析
これは、アイデアの迅速な検証やアドホックなデータ探索を必要とするアナリストおよびビジネス運用担当者向けのパターンです。
[目的]: 自己完結型かつ効率的なクエリおよび分析環境を提供し、データへのアクセス障壁を低減します。
[モジュールの組み合わせ]:
[実装手順]:
[データマップ]: アナリストは、「売上」や「アクティブユーザー」などのキーワードを検索して、関連するメトリクスおよびデータテーブルを特定します。テーブルのメタデータおよび系統(ライネージ)を閲覧し、分析要件を満たすデータであることを確認します。
[セキュリティセンター]: データアクセス制御、分類、マスキングを活用して、アナリストが法令遵守およびセキュアな方法でデータを利用するよう確保します。
[DataAnalysis]: 対象テーブルを確認後、SQL クエリと分析、または Data Insight を使用して探索的クエリを記述します。例:「前四半期におけるシンガポールでの製品カテゴリ別の売上分布をクエリする」などです。
[結果の提示]: クエリ結果を直接エクスポートするか、DataAnalysis で素早くチャートを生成して、共有またはレポート作成に活用します。
[担当者]: データアナリスト、ビジネス運用担当者、データプロダクトマネージャー。
パターン 4:データサービスのカプセル化
これは、Web アプリケーションやミニプログラムなどの上流業務システムがデータを直接アクセスする場合に適用されます。
[目的]: データウェアハウスのテーブルや複雑なクエリを、標準化された API オペレーションとして迅速かつ安全にラップします。
[モジュールの組み合わせ]:
[実装手順]:
[データ準備]: バッチ型データウェアハウス構築パターン(パターン 1)を活用して、Data Studio で「ユーザーペルソナタグテーブル」などの結果テーブルを処理します。
[DataService Studio]: DataService Studio に移動し、新しい API オペレーションを作成します。
[API 構成]: API のクエリロジックを「ユーザーペルソナタグテーブル」に設定します。リクエストパラメーターを「ユーザー ID」とし、返却するタグフィールドを選択します。
[パフォーマンスおよびセキュリティ]: 高頻度クエリに対するパフォーマンス向上のため、API にアクセラレーションサービスを構成し、API グループおよび権限を管理します。
[公開および呼び出し]: API を公開し、必要な権限を付与した後、バックエンドエンジニアが API のエンドポイントおよび認証情報を取得します。ビジネスコードに API を統合し、ユーザー ID をもとにリアルタイムでユーザーペルソナタグを取得します。
[担当者]: データエンジニアおよびバックエンド開発者。
次のステップ
これらの利用パターンを理解した後は、以下の実践的な例に従って、DataWorks のご利用を開始してください。