データウェアハウスの階層化とは、ビジネスシナリオ、データ、システムの使用状況に基づき、データモデルのアーキテクチャと階層を定義することです。これにより、目的の異なるデータを分類して別々のレイヤーに割り当て、データの整理、管理、保守をより効率的に行うことができます。
レイヤーのカテゴリ
DataWorks は、レイヤーを 3 つのカテゴリに分類します。各レイヤーを、データフローにおける役割に一致するカテゴリに割り当てます。
| カテゴリ | ここでの処理 | 許可されるモデルタイプ |
|---|---|---|
| データインポートレイヤー | データベース、ログ、メッセージキューから生のソースデータをインジェストします。ETL はここで実行され、結果はこのレイヤーに保存されます。 | ソーステーブルのみ |
| 共通レイヤー | データインポートレイヤーからのデータを処理および統合します。統一されたメトリックとディメンションを確立します。分析用に再利用可能なファクトデータとサマリーデータを構築します。データドメインとビジネスプロセスはここで管理されます。 | ファクトテーブル、ディメンションテーブル、集計テーブル、ディメンション |
| アプリケーションレイヤー | 共通レイヤーから処理済みデータにアクセスし、特定のアプリケーションやプロダクト向けのパーソナライズされたメトリックとレポートを生成します。データマートと主題領域はこのカテゴリに分類されます。 | アプリケーションテーブル、ディメンションテーブル、ディメンション |
組み込みレイヤー
デフォルトでは、DataWorks は上記の 3 つのカテゴリにまたがる 5 つのレイヤーを提供します。以下の表は、各レイヤーの機能、データの状態、および主な利用者をまとめたものです。
| レイヤー | データの状態 | 機能 | 主な利用者 |
|---|---|---|---|
| オペレーショナルデータストア (ODS) | 生データ | 生データを受信し、ステージングします。テーブル構造はソースシステムを反映します。構造化データを増分または完全同期します。ログなどの非構造化データを構造化します。テーブル名は ods で始まる必要があります。 |
ソースデータをロードするデータエンジニア |
| ディメンション (DIM) | リファレンス | ディメンション、プライマリキー、ディメンション属性を定義することで、一貫性のある全社的なディメンションテーブルを構築します。チーム間で計算ロジックが不整合になるリスクを低減します。 | 共有ディメンションを管理するデータモデラー |
| データウェアハウス詳細 (DWD) | クレンジング済み | ビジネスイベントを最も細かい粒度レベルでモデル化します。主要なディメンション属性を追加してテーブルを非正規化し、ファクトテーブルとディメンションテーブル間の結合を減らします。 | 詳細なクエリを実行するアナリストおよびデータエンジニア |
| データウェアハウスサマリー (DWS) | 集計済み | 分析主題に基づいて集計テーブルを構築します。時間、IP アドレス、ID などの共通ディメンションに沿ってデータを事前分類および集計し、上位レイヤーのメトリック要件をサポートします。 | 期間比較メトリクスを計算するアナリスト |
| アプリケーションデータサービス (ADS) | エンリッチ済み | カスタム統計メトリクスを保存します。特定のアプリケーションやプロダクト向けのレポートを生成します。 | ビジネスアナリストおよび BI チーム |
レイヤー間のデータフロー
ユーザーの購入を追跡する e コマースプラットフォームを例に考えます。生のトランザクションレコードは ODS に格納されます。DWD レイヤーは、各トランザクションイベントを注文明細レベルでモデル化し、DIM からプロダクトとユーザーのディメンションデータを結合します。DWS レイヤーは、期間、IP アドレス、ユーザー ID ごとに購入を事前集計します。これにより、日次集計から 7 日間、30 日間、90 日間の行動メトリクスをゼロから再計算することなく迅速に生成できます。最後に、ADS は、特定のタイムウィンドウにおける特定の製品カテゴリの販売量とランキングを示すレポートを表示します。
カスタムレイヤーの作成
[データウェアハウス階層化] ページに移動して、プリセットレイヤーを表示します。[タイル表示] と [階層表示] を切り替えて、レイアウトを調整します。
プリセットレイヤーがニーズに合わない場合は、カスタムレイヤーを作成します。
-
[作成] をクリックします。「[データレイヤーの作成]」パネルで、以下のパラメーターを設定します。
パラメーター 説明 カテゴリ レイヤーをカテゴリ (データインポートレイヤー、共通レイヤー、またはアプリケーションレイヤー) に割り当て、利用可能なモデルタイプを決定します。レイヤー作成後は変更できません。 モデルタイプ このレイヤーにアタッチできるモデルタイプを指定します。選択肢は、選択したカテゴリによって異なります (上記のレイヤーカテゴリの表をご参照ください)。レイヤー作成後は変更できません。 説明 チームメンバーが適切な場所にデータを保存できるように、レイヤーの目的を説明します。 -
レイヤーを削除するには、まずそのレイヤーに含まれるすべてのデータテーブルを削除する必要があります。
カテゴリとモデルタイプは、一度設定すると変更できません。レイヤーを作成する前に、レイヤー構造を計画してください。
命名チェッカーの設定
命名チェッカーは、モデルとメトリクスの命名規則を強制します。ディメンショナルモデリングまたはデータメトリクスでモデルまたはメトリクスを作成する際、チェッカーは規則に準拠した名前を自動生成したり、準拠していない名前の保存をブロックしたりできます。
命名ルールの作成
-
対象のレイヤーをクリックして、その詳細ページを開きます。
-
「チェッカー管理」セクションで、「ルールの作成」をクリックし、「モデル用ルールの作成」または「メトリクス用ルールの作成」のいずれかを選択します。
-
ルールパラメーターを設定します:レイヤーごとの推奨命名パターン:
モデルのルールの作成
パラメーター 説明 ルール名 チェッカールールの名前。 ルールタイプ デフォルトは [名前] です。ディメンショナルモデリングでモデルを作成する際、対応するチェッカーを選択してテーブル名を自動生成します。 ルール定義 強制する命名パターン。プレフィックス (例: dim) を入力するか、アイコンをクリックして、業務カテゴリの略語、データドメインの略語、データマートの略語、主題領域の略語などの要素からパターンを構築します。説明 チェッカーの説明。 レイヤー パターン DIM dim_{business_category}_{data_domain}_{custom_content}_{storage_policy}DWD dwd_{business_category}_{data_domain}_{business_process}_{custom_content}_{storage_policy}DWS dws_{business_category}_{data_domain}_{custom_content}_{time_period}ADS ads_{business_category}_{data_mart}_{subject_area}_{custom_content}_{time_period}メトリクスのルールの作成
パラメーター 説明 ルール名 チェッカールールの名前。 ルールタイプ [表示名] または [略語]。メトリクスを作成すると、システムはデフォルトのルールに基づいてメトリクス名を生成します。 ルール定義 修飾子、アトミックメトリクス、統計期間を任意の順序で選択して、メトリクス名を定義します。データメトリクスでは、このルールがレイヤー内のメトリクス名をチェックします。 説明 チェッカーの説明。 -
[デフォルトルール] では、モデルまたはメトリックのデフォルトチェッカーを設定します。モデルまたはメトリックの作成時にチェッカーが選択されていない場合、デフォルトチェッカーが名前を自動生成します。
弱ルールと強制ルールの比較
| ルールの強度 | 動作 |
|---|---|
| 弱ルール | ルールをバイパスして、カスタム名でモデルを保存できます。 |
| 強制ルール | 名前が規則に準拠していない場合、保存がブロックされます。名前が規則に準拠するまで、モデルまたはメトリクスは保存できません。 |
チェックの実行
チェッカーを設定した後、[チェックの開始] をクリックして、レイヤー内の既存のモデル名が命名規則に準拠しているかどうかを確認します。[結果の表示] をクリックして結果を確認し、非準拠のモデルに対処します。
[チェック開始] はメトリックルールではサポートされていません。チェックは有効なチェッカーに対してのみ実行されます。新しいチェッカーはデフォルトで有効になっています。チェッカーが不要な場合は、チェックから除外するために無効にします。複数のチェッカーが存在する場合、名前はいずれか1つに準拠していれば有効です。
ディメンショナルモデリングとデータメトリクスでのレイヤーの使用
レイヤーを設定した後、ディメンショナルモデリングまたはデータメトリクスに移動し、適切なレイヤーを選択して論理モデルまたはメトリクスを作成します。
名前の自動生成
-
「ディメンショナルモデリング」では、論理モデルを作成する際に、[命名ルール] でチェッカーを選択します。システムは、このルールに基づいてルールに準拠した名前を提案します。
-
「データメトリクス」では、派生メトリクスを作成する際に、[期間]、[修飾子]、およびアトミックメトリクスを選択し、[インテリジェント推奨] をクリックします。システムはデフォルトルールに基づいてメトリクス名を生成します。
名前の検証
テーブル名またはメトリクス名 ([略語] と [表示名] を含む) を作成または編集して保存すると、システムは設定されたチェッカールールに対して自動的にチェックします。
次のステップ
レイヤーを設定した後、以下のいずれかに進みます。
-
データ標準 — ウェアハウスのデータ標準を定義します
-
ディメンショナルモデリング — 設定したレイヤーに論理モデルを構築します
-
データメトリクス — メトリクスを作成および管理します
データウェアハウスにチーム間のコラボレーションが含まれる場合は、レイヤー構造を他のワークスペースと共有します。詳細については、「モデリングワークスペース」をご参照ください。