すべてのプロダクト
Search
ドキュメントセンター

DataWorks:DataWorks モジュール使用ガイド

最終更新日:Oct 15, 2025

DataWorks は、Alibaba Cloud のオールインワンのビッグデータ開発およびガバナンスプラットフォームです。データの取り込みや処理から、ガバナンスやサービス配信まで、データライフサイクル全体を管理します。高度に統合されたモジュールを通じて、DataWorks は複雑なデータエンジニアリングワークフローを合理化および可視化し、データ開発の障壁を大幅に低減します。このガイドでは、DataWorks のコアモジュールを紹介し、その主な目的、主要な機能、および適用可能なシナリオについて説明します。

ワークフロー

  1. リソースのセットアップ: [管理センター] で環境を構成します。データソース接続の定義、リソースグループの割り当て、MaxCompute や Hologres などのコンピュートエンジンのバインド、メンバー権限の管理を行います。

  2. データの取り込みと統合: [Data Integration] を使用して、ソース業務システムからビッグデータプラットフォームにデータを取り込みます。Data Integration は、バッチ (オフライン)、リアルタイム (ストリーミング)、フル、および増分同期をサポートします。

  3. データモデルの設計: 大規模な開発を開始する前に、整理され保守可能なデータアーキテクチャを確保するために、標準化されたモデルを設計します。この段階では、データウェアハウス計画データ標準の定義、ディメンショナルモデリング (ディメンションテーブルとファクトテーブルの設計)、およびコアビジネスのデータメトリクスの定義をカバーします。

  4. データ処理と変換:

    • [Data Studio] の WebIDE またはノートブックで SQL や Python などのコードを記述します。ワークフローオーケストレーションを使用して、独立したタスクノードを有向非巡回グラフ (DAG) に編成します。

    • スケジューリングポリシーを構成し、ワークフローを [オペレーションセンター] に発行します。オペレーションセンターは、定期的なスケジューリング、タスクの監視、アラート、およびデータバックフィルなどの運用タスクを処理します。精度を確保するために、出力テーブルに対して [Data Quality] 監視ルールを構成します。

    • AI アシスタントである [DataWorks Copilot] は、コードの生成と最適化、問題のトラブルシューティング、開発と運用の合理化を支援します。

  5. データの分析: [DataAnalysis] を通じて、アナリストや運用チームに SQL クエリ、データインサイト、ワークブックを提供します。これにより、アドホッククエリやセルフサービスの BI 分析が可能になります。

  6. データの共有と交換: [DataService Studio] を使用して、データを標準の API サービスにラップします。プログラムによるアクセスにはデータプッシュを使用します。

  7. エンドツーエンドのデータガバナンス: データガバナンス機能はデータフロー全体にわたり、データが信頼でき、制御可能で、使用可能であることを保証します。メタデータは自動的に [データマップ] に同期され、ユーザーがデータを発見し、リネージを追跡するのに役立ちます。[データ資産ガバナンス] は、ガバナンス計画を通じて開発およびデータの問題を特定し、解決します。[セキュリティセンター] は、全体を通じて機密データを保護します。

DataWorks はワークフロー全体をオーケストレーションし、MaxCompute、Hologres、Realtime Compute for Apache Flink、E-MapReduce などの基盤となるコンピュートエンジンが計算とストレージを処理します。

組み合わせた使用例

DataWorks モジュールを柔軟に組み合わせて、さまざまなデータ処理およびアプリケーション要件に対応します。以下のセクションでは、いくつかの典型的な組み合わせパターンについて説明します。

パターン 1: バッチデータウェアハウスの構築

これは、エンタープライズデータウェアハウスを構築し、BI 分析で定期的なバッチ処理を実行するための最も一般的なパターンです。

  • 目的: 安定性、信頼性、追跡可能性のあるバッチデータウェアハウスを構築します。

  • モジュールの組み合わせ:

  • 実装:

    1. Data Integration: RDS などの業務システムから MaxCompute のオペレーショナルデータストア (ODS) レイヤーに増分データを毎日同期します。

    2. データモデリング: データウェアハウスのレイヤーを計画し、モデルを事前に設計します。レイヤーには、詳細 (DWD)、サマリー (DWS)、ディメンション (DIM)、およびアプリケーション (ADS) が含まれます。

    3. Data Studio: MaxCompute SQL タスクを記述して、ODS データをクリーンアップ、変換し、モデルテーブルにロードします。開発中に Copilot を使用してコードを生成および最適化します。

    4. Data Quality: コア DWS および DWD レポートの監視ルールを構成します。例: 「日次パーティションの行数がゼロであってはならない」または「キーとなる金額フィールドの値が正常範囲内にとどまらなければならない」。

    5. オペレーションセンター: Data Studio で、すべてのタスクを依存関係ベースの DAG として構成します。スケジューリングサイクルを日次に設定し、ワークフローをオペレーションセンターに発行します。監視と運用のために、ベースラインと Data Quality ルールを構成します。

    6. データマップ: アナリストとビジネスユーザーはデータマップを検索してメトリックの定義を理解し、完全な上流の処理リネージを表示します。

  • 役割: データエンジニアとデータアーキテクト。

パターン 2: リアルタイムデータ開発

このパターンは、リアルタイムダッシュボード、レコメンデーション、リスク管理などの低レイテンシーのシナリオに適しています。

  • 目的: ストリーミングデータをリアルタイムで処理および分析し、秒単位または分単位のビジネスインサイトを得ます。

  • モジュールの組み合わせ:

  • 実装:

    1. Data Integration: リアルタイム同期タスクを構成して、行動ログやメッセージキュー (Kafka) からデータレイクやミドルウェアにデータをストリーミングします。

    2. Data Studio: ウィンドウ処理、集約、その他のストリーム計算のために Flink SQL タスクを作成します。例: 「過去 1 分間のプロダクトのクリック数をカウントする」。

    3. 結果の出力: Flink タスクは、Hologres のようなパフォーマンス専有型のインタラクティブ分析エンジンに結果をリアルタイムで書き込みます。

    4. 以下を使用してレポートまたはダッシュボードを構築します:

      • DataAnalysis: データソースを Hologres に接続し、SQL クエリまたはデータインサイトを介してカードを生成します。カードを組み合わせて動的に更新されるレポートを作成します。

      • DataService Studio: Hologres をデータソースとして API を生成し、DataV や Quick BI などのツールにデータを提供して、リアルタイム分析ダッシュボードを構築します。

  • 役割: リアルタイム開発エンジニアとデータアナリスト。

パターン 3: データの探索と分析

このパターンは、アイデアを迅速に検証し、アドホックなデータ探索を行う必要があるアナリストや運用担当者向けです。

  • 目的: データアクセスへの障壁を下げる、セルフサービスで効率的なクエリおよび分析環境を提供します。

  • モジュールの組み合わせ:

  • 実装:

    1. データマップ: アナリストは、収益やアクティブユーザーなどのキーワードを検索して、関連するメトリックとデータテーブルを見つけます。テーブルのメタデータとリネージを表示して、データが分析要件を満たしていることを確認します。

    2. セキュリティセンター: データのアクセスの制御、分類、マスキングを使用して、アナリストがコンプライアンスに準拠した安全な方法でデータを使用できるようにします。

    3. DataAnalysis: ターゲットテーブルを確認した後、SQL クエリと分析またはデータインサイトを使用して探索的クエリを記述します。例: 「前四半期のシンガポールにおけるプロダクトカテゴリ別の売上分布をクエリする」。

    4. 結果の表示: クエリ結果を直接エクスポートするか、DataAnalysis で迅速にチャートを生成して共有またはレポート作成を行います。

  • 役割: データアナリスト、ビジネス運用担当者、およびデータプロダクトマネージャー。

パターン 4: データサービスのカプセル化

このパターンは、Web アプリケーションやミニプログラムなどの上流の業務システムがデータに直接アクセスする場合に適用されます。

  • 目的: データウェアハウスのテーブルや複雑なクエリを、迅速かつ安全に標準の API 操作にラップします。

  • モジュールの組み合わせ:

  • 実装:

    1. データの準備: バッチデータウェアハウス構築パターン (パターン 1) を使用して、Data Studio で「ユーザーペルソナタグテーブル」などの結果テーブルを処理します。

    2. DataService Studio: DataService Studio に入り、新しい API 操作を作成します。

    3. API 構成: API のクエリロジックを「ユーザーペルソナタグテーブル」に向けます。リクエストパラメーターを「ユーザー ID」に設定し、返すタグフィールドを選択します。

    4. パフォーマンスとセキュリティ: API のキャッシュポリシーを構成して、高頻度のクエリパフォーマンスを向上させます。グループ化と権限付与を通じて API を管理します。

    5. 発行と呼び出し: API を発行し、必要な権限を付与した後、バックエンドエンジニアは API のエンドポイントと認証情報を取得します。API をビジネスコードに統合して、ユーザー ID に基づいてリアルタイムでユーザーペルソナタグを取得します。

  • 役割: データエンジニアとバックエンド開発者。

次のステップ

これらの使用パターンを理解したら、以下の実践的な例に従って DataWorks の使用を開始してください: