このチュートリアルでは、Dataphin を使用して基本的なオフラインデータウェアハウスを構築するための包括的なガイドを提供します。リソースの準備とデータウェアハウス計画の初期段階から、運用、メンテナンス、データバックフィル、および結果分析の後半段階までを網羅しています。このチュートリアルは、Dataphin オフラインデータウェアハウス構築プロセスを迅速かつ明確に理解できるようにすることを目的としています。
Dataphin を使用したオフラインデータウェアハウス構築の基本プロセスは、以下のとおりです。
主なプロセス |
説明 |
操作ガイド |
準備 |
まず、Alibaba Cloud アカウントの設定、Dataphin と MaxCompute の有効化と構成、データソースの準備など、必要なクラウドリソースを準備します。 |
|
データウェアハウス計画 |
計画フェーズは、データ構築の青写真として機能するため、非常に重要です。これには、データブロック、主題領域、コンピューティングソース、データソース、プロジェクトの作成、およびプロジェクトメンバーの追加が含まれます。 |
|
データ統合 |
準備したデータソースをプロジェクトに組み込みます。 |
|
仕様定義 |
統計メトリック基準を定義し、Dataphin のデータ開発モジュールを使用して構成開発を完了します。これには、ビジネスオブジェクト、アクティビティ、アトミックメトリック、ビジネスフィルタ、および派生メトリックが含まれます。 |
|
仕様モデリング |
Dataphin の仕様モデリング機能を利用して、ソースデータをマッピングし、事前に定義された仕様に基づいてモデルを構築します。 |
|
データ開発 |
仕様定義で概説されている統計メトリック基準と仕様モデリングで詳述されているモデルに従って、仕様モデリングデータの開発を進めます。これには、論理ディメンションテーブル、論理ファクトテーブル、アトミックメトリック、ビジネスフィルタ、および派生メトリックが含まれます。 |
|
運用とメンテナンス データバックフィル |
パイプラインタスク、論理ディメンションテーブル、論理ファクトテーブル、メトリックなどのタスクのデータを更新して、最新の状態に保ちます。 |
|
データ検証 |
アドホッククエリを実行して、データの精度を確認します。 |