データレイヤリングは、データモデルの構造を設計し、ビジネスシナリオ、データシナリオ、およびシステムシナリオの包括的な分析に基づいて層を分割するために使用されます。各データ層は特定の目的を果たします。データレイヤリングは、データを効率的に整理、管理、および維持するのに役立ちます。このトピックでは、データ層を作成および管理する方法について説明します。
背景情報
データウェアハウスは、ログ、データベースデータ、テキストデータ、外部データなど、さまざまな種類のデータの集合体です。データモデリングでは、データウェアハウスの論理構造は、データ層、データドメイン、ビジネスプロセス、データマート、および主題領域に基づいて構築されます。 データドメインとビジネスプロセスは、共通層で使用され、共通層のデータモデルを構築します。データマートと主題領域は、アプリケーション層で使用され、特定のビジネスアプリケーションのデータモデルを構築します。
生データがデータウェアハウスに格納される前に、生データはデータ層でクレンジングおよびフィルタリングされます。これは、データクエリプロセスを最適化し、データの取得、計算、および分析の効率を向上させます。データ層は、多次元分析と意思決定のために、さまざまなディメンションのデータを関連付けます。
データ層を計画する
ビジネス要件と、ビジネスシナリオ、データシナリオ、およびシステムシナリオの包括的な分析に基づいて、データ層を設計および計画する必要があります。
デフォルトでは、データウェアハウスは次の層に分割されます。[オペレーショナルデータストア (ODS)]、[ディメンション (DIM)]、[データウェアハウス詳細 (DWD)]、[データウェアハウスサマリー (DWS)]、および[アプリケーションデータサービス (ADS)]。
ODS
この層は、データウェアハウスに格納する必要がある生データを受信して処理するために使用されます。 ODS 層のデータテーブルの構造は、生データが格納されているデータテーブルの構造と同じです。 ODS 層は、データウェアハウスのステージングエリアとして機能します。 ODS 層の生データに対して次の操作が実行されます。
増分または完全な構造化生データをデータウェアハウスに同期します。
ログなどの非構造化生データを構造化し、出力を MaxCompute に格納します。
ビジネス要件に基づいて、生データの変更を記録するか、生データをクレンジングします。
ODS 層のデータテーブルの名前は
ods
で始まり、テーブルの Time to Live(TTL)は 366 日である必要があります。DWD
この層では、企業のビジネスアクティビティに基づいてデータモデルが構築されます。特定のビジネスアクティビティの特性に基づいて、最高粒度レベルを使用するファクトテーブルを作成できます。ファクトテーブルのディメンションのいくつかのキー属性フィールドを複製し、企業のデータ使用習慣に基づいてワイドテーブルを作成できます。また、ファクトテーブルの使いやすさを向上させるために、ファクトテーブルとディメンションテーブルをできるだけ少なく関連付けることもできます。
DWS
この層では、分析対象の特定の主題オブジェクトに基づいてデータモデルが構築されます。上位層のアプリケーションと製品のメトリック要件に基づいて、一般的な集計テーブルを作成できます。
ユーザーの行動の予備的な分類と要約に基づいて、ODS 層でいくつかの一般的なディメンションを抽象化できます。たとえば、ディメンションは 時間、IP アドレス、および ID です。これらのディメンションを使用して、各期間にユーザーがさまざまなログイン IP アドレスで購入した製品の数などの統計データを取得できます。 DWS 層では、計算効率を向上させるために、一般的な集計テーブルの上に複数粒度の集計テーブルを追加できます。たとえば、7 日、30 日、または 90 日の時間間隔に基づいてユーザーの行動を評価すると、長期間節約できます。
ADS
この層は、製品のメトリックデータを格納し、さまざまなレポートを生成するために使用されます。たとえば、ADS 層は、e コマース企業が 6 月 9 日から 6 月 19 日までの杭州での各種類の球技用品の売上高とランキングに関する統計情報を格納するために使用できます。
DIM
この層では、ディメンションに基づいてデータモデルが構築されます。ディメンションを定義し、プライマリキーを決定し、ディメンション属性を追加し、さまざまなディメンションを関連付けることができます。これにより、データ分析におけるデータの整合性が確保され、データ計算の仕様とアルゴリズムの不整合のリスクが軽減されます。
次の図は、データ層の 2 つの表示モードを示しています。[タイル表示] と [階層表示]。
表示モード | 説明 |
タイル表示 | データ層はタイルモードで表示されます。 |
階層表示 | DataWorks は、次のデータ層カテゴリを提供します。[データインポート層]、[共通層]、および [アプリケーション層]。データ層を作成し、データ層カテゴリにデータ層を追加できます。
|
[カテゴリ] パラメーターを構成した後、このパラメーターの値を変更することはできません。ビジネス要件に基づいて適切なデータ層カテゴリを選択してください。
データ層を作成する
デフォルトでは、システムは ODS、DIM、DWD、DWS、および ADS の層を作成します。これらの層は、ほとんどのシナリオでビジネス要件を満たすことができます。特別な要件がある場合は、このセクションで説明する手順を実行してデータ層を作成できます。
特別な要件のサンプルシナリオ: 一時 (TMP) 層を抽象化し、この層に一時テーブルを格納します。テーブルの命名規則や TTL など、この層の標準と検証ルールを指定します。これにより、この層で作成されたテーブルがこの層に指定された標準とルールに準拠することが保証されます。
[データ層] ページに移動します。
DataWorks コンソール にログインします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、 を選択します。表示されるページで、ドロップダウンリストから目的のワークスペースを選択し、[データモデリングに移動] をクリックします。
[データモデリング] ページの上部ナビゲーションバーで、[データウェアハウス計画] をクリックします。[データ層] ページが表示されます。
データ層を作成します。
[作成] をクリックします。[データ層の作成] ダイアログボックスで、パラメーターを構成します。
パラメーター
説明
略語
データ層名の略語。略語は、データ層を一意に識別します。
名前
データ層の名前。
表示名
データ層の表示名。
所有者
データ層の所有者。デフォルト値は、現在のログインアカウントです。
カテゴリ
このパラメーターの値によって、[モデルタイプ] パラメーターの値が決まります。このパラメーターは、データ層が属するデータ層カテゴリを指定します。
データインポート層: このカテゴリのデータ層は、データベースデータ、ログ、メッセージなどの基本データをインポートするために使用されます。
共通層: このカテゴリのデータ層は、共通データを処理および統合して統一ディメンションを定義し、データ分析および統計収集のための再利用可能な詳細ファクトテーブルを作成し、共通メトリックを集計するために使用されます。
アプリケーション層: このカテゴリのデータ層は、ビジネス要件に基づいて、共通層カテゴリのデータ層で処理および統合されたデータを再構築するために使用されます。
説明[カテゴリ] パラメーターを構成した後、このパラメーターの値を変更することはできません。ビジネス要件に基づいて適切なデータ層カテゴリを選択してください。
モデルタイプ
このパラメーターの値は、[カテゴリ] パラメーターの値によって決まります。このパラメーターは、格納できるモデルテーブルのタイプを指定します。
[データインポートレイヤーのテーブル]: [カテゴリ] を [データインポートレイヤー] に設定した場合にのみ、[モデルタイプ] をこの値に設定できます。
[ファクトテーブル]: [カテゴリ] を [共通レイヤー] に設定した場合のみ、[モデルの種類] をこの値に設定できます。
[アプリケーションテーブル]: [カテゴリ] を [アプリケーション層] に設定した場合のみ、[モデルタイプ] をこの値に設定できます。
[集計テーブル]: [共通レイヤー] にカテゴリを設定した場合にのみ、モデルタイプをこの値に設定できます。
[ディメンションテーブル]、[ディメンション]、および [ディメンションテーブルとディメンション]: [共通レイヤー] または [アプリケーションレイヤー] に [カテゴリ] を設定した場合にのみ、[モデルの種類] をいずれかの値に設定できます。
説明[モデルタイプ] パラメーターを構成した後、その値を変更することはできません。したがって、注意して進めてください。
データ層の名前または表示名にキーワード
dim
、DIM
、Dim
、またはdimension
が含まれている場合、DataWorks はデフォルトで [モデルタイプ] パラメーターの値を [ディメンションテーブルとディメンション] に変更します。
説明
データ層の説明。データ層の説明に基づいて、特定のビジネスデータを格納するデータ層を選択できます。
データ層の説明は、最大 2,048 文字です。
[確認] をクリックします。
次の手順
データ層を作成した後、データ層チェッカーを追加して、データ層のテーブルの命名規則を指定する必要があります。詳細については、「データ層でチェッカーを構成して使用する」をご参照ください。