このトピックでは、Data Integration、Data Modeling、DataStudio、DataAnalysis、DataService Studio など、DataWorks のさまざまなサービスにおけるデータ開発に関連する用語について説明します。
共通用語
ワークスペース
ワークスペースは、DataWorks でタスク、メンバー、ロール、および権限を管理するために使用される基本単位です。ワークスペースの管理者は、ユーザーをメンバーとしてワークスペースに追加し、各メンバーにワークスペース管理者、開発、O&M、デプロイ、セキュリティ管理者、またはビジターのロールを割り当てることができます。このように、異なるロールが割り当てられたワークスペースメンバーは、互いに連携できます。
部門または事業単位ごとにワークスペースを作成して、リソースを分離することをお勧めします。
リソースグループ
リソースグループは、DataWorks によって提供される基本サービスです。リソースグループは、DataWorks のさまざまなサービスと機能に計算リソースを提供します。 DataWorks を使用してデータ開発操作を実行するには、リソースグループが必要です。リソースグループのステータスは、関連機能の実行ステータスに影響します。リソースグループのクォータは、タスクまたはサービスの実行効率に影響します。
DataWorks のリソースグループは、Alibaba Cloud アカウント内のリソースグループとは異なります。 Alibaba Cloud アカウント内のリソースグループは、アカウントのリソースをグループごとに管理するために使用されます。これは、アカウントのリソースと権限の管理を簡素化するのに役立ちます。 DataWorks のリソースグループは、タスクを実行するために使用されます。 2 種類のリソースグループの違いに注意する必要があります。
特に指定がない限り、DataWorks で使用されるリソースグループは、旧バージョンのリソースグループではなく、サーバーレスリソースグループを指します。サーバーレスリソースグループは、汎用の目的で使用できます。
サーバーレスリソースグループは、データ同期、データスケジューリング、および DataService Studio で使用できます。
基本モードと標準モード
セキュリティ制御要件が異なるユーザーのデータ出力を容易にするために、DataWorks は 2 つのワークスペースモードを提供します:基本モードと標準モード。標準モードのワークスペースにデータソースを追加すると、データ分離のために開発環境と本番環境に 2 つのデータソースが別々に作成されます。
計算リソース
計算リソースは、関連する計算エンジンがデータ処理および分析タスクを実行するために使用するリソースインスタンスです。たとえば、クォータグループが構成された MaxCompute プロジェクトと Hologres インスタンスは、計算リソースです。
ワークスペースに複数の計算リソースを関連付けることができます。関連付けの後、ワークスペース内でこれらのリソースを使用するタスクを開発およびスケジュールできます。
Data Integration
データソース
データソースは、さまざまなデータストレージサービスに接続するために使用されます。同期タスクを構成する前に、DataWorks で使用するデータソースに関する情報を定義する必要があります。このようにして、同期タスクを構成するときに、データソースの名前を選択して、データを読み取るデータベースとデータを書き込むデータベースを決定できます。ワークスペースには複数のタイプのデータソースを追加できます。
データ同期
Data Integration のデータ同期機能を使用して、構造化データ、半構造化データ、および非構造化データを同期できます。構造化データには、ApsaraDB RDS および PolarDB-X 1.0 データソースのデータが含まれます。非構造化データには、Object Storage Service (OSS) およびテキストファイルのデータが含まれます。 Data Integration は、2 次元論理テーブルに抽象化できるデータのみを同期できます。 Data Integration は、OSS の MP3 ファイルなど、完全に非構造化されたデータを同期することはできません。 Data Integration のデータ同期機能は、バッチ同期、リアルタイム同期、単一テーブルまたはデータベース内のフルデータと増分データの同期など、複数の同期方法をサポートしています。さらに、この機能はサーバーレス同期タスクもサポートしています。サーバーレス同期タスクを構成する場合、タスクのリソースグループを構成する必要はありません。このようにして、ビジネスのみに集中できます。
Data Modeling
データモデリング
企業ビジネスの急速な発展に伴い、ビジネスデータの量は指数関数的に増加し、データの複雑さが増し、さまざまな不整合なデータ標準が現れます。これにより、データ管理の難易度が大幅に上がります。この問題を解決するために、DataWorks はデータモデリングを提供して、大量の無秩序で複雑なデータの構造化と管理を支援します。データモデリングは、企業がビジネスデータからより多くの価値を得るのに役立ちます。
リバースモデリング
リバースモデリングを使用すると、既存の物理テーブルに基づいてモデルを生成できます。このようにして、ディメンションモデリングでモデルを生成するために手動でテーブルを作成する必要はありません。これにより、モデルの生成に必要な期間を短縮できます。
モデリングワークスペース
データシステムに複数のワークスペースが関係していて、同じデータウェアハウス計画をワークスペースに適用する場合、モデリングワークスペース機能を使用して、ワークスペース間で同じデータモデリングツールを共有できます。これにより、ワークスペースのデータウェアハウスの計画、ディメンションモデリングの実行、およびメトリックの定義を統一的に行うことができます。
ディメンションテーブル
ディメンションテーブルは、ディメンションとディメンションの属性を格納するために使用されます。ディメンションは、データドメイン計画に基づいてデータドメインから抽出され、データドメインのデータの分析に使用できます。たとえば、e コマースのビジネスデータを分析する場合、考えられるディメンションには、注文、ユーザー、商品などがあります。注文ディメンションの考えられる属性には、注文 ID、注文作成時刻、購入者 ID、販売者 ID などがあります。ユーザーディメンションの考えられる属性には、性別や生年月日などがあります。商品ディメンションの考えられる属性には、商品 ID、商品名、商品発売時刻などがあります。次のディメンションテーブルを作成できます:注文ディメンションテーブル、ユーザーディメンションテーブル、商品ディメンションテーブル。各ディメンションの属性は、ディメンションテーブルのフィールドとして使用されます。
ファクトテーブル
ファクトテーブルは、ビジネスアクティビティの状況を反映する実際のデータを格納するために使用されます。実際のデータは、さまざまなビジネスプロセスで生成され、ビジネスプロセスの計画に基づいて整理および分析できます。たとえば、注文ビジネスプロセスのファクトテーブルを作成し、ファクトテーブルのフィールドとして次の情報を記録できます:注文 ID、注文作成時刻、商品 ID、商品数、売上高。ファクトテーブルをデータウェアハウスにデプロイし、抽出、変換、ロード (ETL) 操作を実行して、ファクトテーブルで定義された形式でデータを要約および格納できます。これにより、ビジネス担当者は後続のデータ分析のためにデータにアクセスできます。
集計テーブル
集計テーブルは、データドメイン内の同じ統計期間とディメンションを持つ複数の派生メトリックの統計データを格納するために使用されます。集計テーブルは、ビジネスデータのビジネス抽象化とソート結果に基づいて取得され、後続のビジネスクエリ、オンライン分析処理 (OLAP) 分析、およびデータ配布の基礎として使用できます。
アプリケーションテーブル
アプリケーションテーブルは、さまざまなビジネスシナリオに適しています。アプリケーションテーブルは、同じ統計期間、ディメンション、および統計粒度の原子メトリックと派生メトリックによって収集された統計データを整理するために使用されます。これにより、後続のビジネスクエリ、OLAP 分析、およびデータ配布を効率的に実行できます。
データマート
データマートは、ビジネスタイプに基づくデータ組織です。データマートを使用して、特定の製品またはシナリオのデータを整理できます。ほとんどの場合、データマートはアプリケーション層に属し、共通層の集計データに依存します。
データウェアハウス計画
DataWorks を使用してデータモデリングを実行するデータウェアハウスアーキテクトまたはモデルグループメンバーは、DataWorks コンソールのデータウェアハウス計画ページで、データ層、ビジネスタイプ、データドメイン、ビジネスプロセス、データマート、および主題領域を設計できます。設計が完了すると、モデル設計者は、データ層、ビジネスタイプ、データドメイン、ビジネスプロセスなどのオブジェクトに基づいて、作成されたモデルを管理できます。
データインポート層:データインポート層は、データベースデータ、ログ、メッセージなどの基本的な生データを格納するために使用されます。生データは、さまざまな ETL 操作によって処理された後、データインポート層に格納されます。データインポート層には、オペレーショナルデータストア (ODS) テーブルのみを格納できます。
共通層:共通層は、データインポート層に格納されている共通データを処理および集計するために使用されます。共通層では、統一されたメトリックディメンションを作成し、データ分析と収集に使用される再利用可能なファクトデータと集計データを作成できます。共通層には、ファクトテーブル、ディメンションテーブル、および集計テーブルを格納できます。
アプリケーション層:アプリケーション層は、共通層で処理および集計されたデータを格納するために使用されます。アプリケーション層には、特定のアプリケーションシナリオまたは特定の製品で収集された統計データを格納できます。アプリケーション層には、アプリケーションテーブルとディメンションテーブルを格納できます。
データ層
デフォルトでは、データウェアハウスは次の層に分割されます:ODS、ディメンション (DIM)、データウェアハウスの詳細 (DWD)、データウェアハウスサマリー (DWS)、およびアプリケーションデータサービス (ADS)。詳細については、データウェアハウスの階層化ディレクトリのトピックを参照してください。
ODS
この層は、データウェアハウスに格納する必要がある生データを受信および処理するために使用されます。 ODS 層のデータテーブルの構造は、生データが格納されているデータテーブルの構造と同じです。 ODS 層は、データウェアハウスのステージングエリアとして機能します。
DWD
この層では、企業のビジネスアクティビティに基づいてデータモデルが構築されます。特定のビジネスアクティビティの特性に基づいて、最高粒度レベルを使用するファクトテーブルを作成できます。ファクトテーブルのディメンションのいくつかのキー属性フィールドを複製し、企業のデータ使用習慣に基づいてワイドテーブルを作成できます。また、ファクトテーブルとディメンションテーブル間の関連付けを減らして、ファクトテーブルの使いやすさを向上させることもできます。
DWS
この層では、分析する特定の主題オブジェクトに基づいてデータモデルが構築されます。上位層のアプリケーションと製品のメトリック要件に基づいて、一般的な集計テーブルを作成できます。
ADS
この層は、製品固有のメトリックデータを格納し、さまざまなレポートを生成するために使用されます。
DIM
この層では、ディメンションに基づいてデータモデルが構築されます。ビジネス要件に基づいて、この層に論理ディメンションテーブルと概念ディメンションを格納できます。ディメンションテーブルのディメンションの定義、プライマリキーの決定、ディメンション属性の追加、および異なるディメンションの関連付けを行うことができます。これにより、データ分析におけるデータの整合性が確保され、データ計算仕様とアルゴリズムの不整合のリスクが軽減されます。
主題領域
主題領域は、ビジネスタイプのコレクションであり、さまざまな分析の観点からデータマートのデータを分類するために使用されます。ビジネス要件に基づいて、ビジネスタイプをさまざまな主題領域に分類できます。たとえば、e コマースデータのトランザクション主題領域、メンバー主題領域、および商品主題領域を作成できます。
データドメイン
データドメインには、同じタイプのデータが格納されます。ビジネスタイプ、データソース、データの使用状況など、さまざまなディメンションに基づいて、ビジネスデータのデータドメインを設計および作成できます。データドメインは、データを効率的に検索するのに役立ちます。データドメインの分類基準は、データの使用状況によって異なります。たとえば、e コマースデータのトランザクションデータドメイン、メンバーデータドメイン、および商品データドメインを作成できます。
ビジネスプロセス
ビジネスプロセスとは、企業が特定のデータドメインで実行するビジネスアクティビティを指します。ビジネスプロセスは、データモデリングで分析する必要がある論理的な主題です。たとえば、トランザクションデータドメインには、ショッピングカートへの商品の追加、注文、注文の支払いなどのビジネスプロセスを含めることができます。
複合メトリック
複合メトリックは、特定の派生メトリックと計算ルールに基づいて計算されます。派生メトリックは、特定の期間内のビジネスアクティビティに関する統計のみを収集し、成長率やデータ値の差などの項目を計算するためのユーザーの要件を満たすことができません。たとえば、派生メトリックを使用して、ビジネスアクティビティの前週比成長率を計算することはできません。この問題を解決するために、DataWorks は、特定の派生メトリックと計算ルールに基づいて計算される複合メトリックを提供します。複合メトリックは、ビジネスに関する統計を柔軟に収集するのに役立つ詳細なメトリックです。
データメトリック
データモデリングは、統一されたメトリックシステムを確立できるデータメトリック機能を提供します。
メトリックシステムは、原子メトリック、修飾子、期間、および派生メトリックで構成されます。
原子メトリック:原子メトリックは、ビジネスプロセスに使用される測定値です。たとえば、「注文」ビジネスプロセスに「支払い金額」という名前の原子メトリックを作成できます。
修飾子:修飾子は、特定のメトリックがデータを収集するビジネスの範囲を制限します。たとえば、「マタニティ&ベビー用品」という名前の修飾子を作成して、「支払い金額」原子メトリックの統計範囲を制限できます。
期間:期間は、メトリックがデータを収集する時間範囲または時点を指定します。たとえば、「支払い金額」原子メトリックに「過去 7 日間」という名前の期間を作成できます。
派生メトリック:派生メトリックは、原子メトリック、期間、および 1 つ以上の修飾子で構成されます。たとえば、「過去 7 日間のマタニティ&ベビー用品の支払い金額」という名前の派生メトリックを作成できます。
ルックアップテーブル
ルックアップテーブルは、フィールド標準で定義されているフィールドの値の範囲を定義します。たとえば、「性別」という名前のフィールド標準によって参照されるルックアップテーブルには、「男性」と「女性」が含まれています。
フィールド標準
フィールド標準は、同じ意味を持つが名前が異なるフィールドの値を一元的に管理するために使用されます。フィールド標準を使用して、フィールドの値の範囲と測定単位を定義することもできます。フィールド標準に変更が加えられた場合、フィールド標準で定義されたフィールドを含むテーブルをすばやく識別して変更できます。これにより、データアプリケーションの効率とデータの精度が大幅に向上します。
DataStudio
ノード
DataWorks のDataStudioサービスでは、データ同期ノード、データクレンジングに使用される計算エンジンノード、複雑なロジックを処理するために計算エンジンノードと一緒に使用される汎用ノードなど、さまざまなタイプのノードを作成できます。計算エンジンノードには、ODPS SQL ノード、Hologres SQL ノード、EMR Hive ノードなどがあります。汎用ノードには、他の複数のノードを管理するために使用できるゼロロードノードや、ノードコードをループで実行できる do-while ノードなどがあります。ビジネスでさまざまなタイプのノードを組み合わせて、さまざまなデータ処理要件を満たすことができます。
ワークフロー
概念ワークフローはビジネスから抽象化されており、ビジネス要件に基づいてコードを管理および開発し、タスク管理効率を向上させるのに役立ちます。
ワークフローは、ビジネス要件に基づいてコードを開発および管理するのに役立ちます。ワークフローは次の機能を提供します。
タスクタイプ別にコードを開発および管理できます。
階層ディレクトリ構造をサポートしています。ワークフローのサブディレクトリは最大 4 レベルまで作成することをお勧めします。
ビジネスの観点からワークフローを表示および最適化できます。
ワークフロー内のタスク全体をデプロイし、O&M 操作を実行できます。
効率を向上させてコードを開発するためのダッシュボードを提供します。
自動トリガーワークフロー
自動トリガーワークフローは、ビジネスの観点から視覚化された DAG 開発インターフェースを提供する新しい開発方法です。視覚化された方法でドラッグ操作を実行することにより、自動トリガーワークフローに複数のタイプのタスクまたはノードを統合できます。これにより、タスクまたはノードの依存関係を簡単に構成し、データ処理を容易にし、タスク開発効率を向上させ、複雑なタスクとプロジェクトの管理を簡素化できます。
Notebook
DataWorks のNotebook機能は、インタラクティブな環境を提供し、ユーザーは SQL や Python コードなどのコード、テキスト、コード実行結果、データ視覚化チャートを統合して、直感的なデータ探索、データ分析、AI ベースのモデル開発を実行できます。
SQL スクリプトテンプレート
SQL スクリプトテンプレートとは、SQL スクリプトからロジックを抽象化してまとめたもので、コードの再利用を容易にします。SQL スクリプトテンプレートは、MaxCompute タスクの開発にのみ使用できます。
各 SQL スクリプトテンプレートには、1 つ以上のソーステーブルが含まれます。ビジネス要件に基づいて、ソーステーブルデータをフィルタリングし、ソーステーブルを結合し、ソーステーブルを集計して結果テーブルを生成できます。 SQL スクリプトテンプレートには、複数の入力パラメーターと出力パラメーターが含まれています。
スケジューリング依存関係
スケジューリング依存関係は、タスクを実行する順序を定義するために使用されます。ノード B はノード A の実行が完了した後にのみ実行できる場合、ノード A はノード B の先祖ノードであり、ノード B はノード A に依存します。有向非巡回グラフ (DAG) では、ノード間の依存関係は矢印で表されます。
データタイムスタンプ
データタイムスタンプとは、ビジネスアクティビティに直接関連する日付を指します。日付は、ビジネスデータが実際に生成された時刻を反映しています。データタイムスタンプの概念は、オフラインコンピューティングシナリオでは非常に重要です。たとえば、小売業では、2024 年 10 月 10 日の売上高の統計を収集する場合、売上高は 2024 年 10 月 11 日の早朝に計算されます。この場合、データタイムスタンプは 20241010 です。
出力名
出力名は、タスクによって生成される出力の名前です。各タスクには出力名があります。Alibaba Cloud アカウント内でタスク間の依存関係を構成する場合、タスクの出力名を使用して、タスクをその子孫タスクに接続します。
タスクの依存関係を構成するときは、タスク名または ID ではなく、タスクの出力名を使用する必要があります。依存関係を構成した後、タスクの出力名は、タスクの子孫タスクの入力名として機能します。
説明タスクの出力名は、同じ Alibaba Cloud アカウント内の他のタスクと区別されます。デフォルトでは、タスクの出力名は次の形式です:
ワークスペース名.ランダムに生成された 9 桁の数字.out。タスクのカスタム出力名を指定できます。タスクの出力名が Alibaba Cloud アカウント内で一意であることを確認する必要があります。出力テーブル名
タスクによって生成されたテーブルの名前を出力テーブル名として使用することをお勧めします。出力テーブル名を適切に構成すると、子孫タスクの依存関係を構成するときに、データが予期された先祖テーブルからのものであるかどうかを確認できます。自動解析に基づいて生成された出力テーブル名は手動で変更しないことをお勧めします。出力テーブル名は識別子としてのみ機能します。出力テーブル名を変更しても、SQL ステートメントを実行することによって実際に生成されるテーブルの名前は影響を受けません。実際に生成されたテーブルの名前は、SQL ロジックに従います。
説明出力名はグローバルに一意である必要があります。ただし、出力テーブル名にはそのような制限はありません。
スケジューリングパラメーター
スケジューリングパラメーターは、タスクのスケジューリングと実行に使用されるコード内の変数です。スケジューリングパラメーターの値は、タスクが実行されるようにスケジュールされると動的に置き換えられます。コードの繰り返し実行中に、日付や時刻などのランタイム環境に関する情報を取得する場合、DataWorks でのスケジューリングパラメーターの定義に基づいて、コード内の変数に動的に値を割り当てることができます。
データカタログ
データカタログは、データベース、テーブル、ファイルなど、組織内のすべてのデータ資産を表示するために使用される構造化リストまたはマップです。データカタログは、DataWorks 内のこれらのデータ資産のメタデータ情報を記録します。
計算リソース、データソース、およびデータカタログ間の関係
計算リソース、データソース、およびデータカタログは独立したオブジェクトですが、相互に関連しています。それらは次の関係にあります。
計算リソースをワークスペースに関連付けると、システムは計算リソースに基づいてデータソースとデータカタログを生成します。
ワークスペースにデータソースを追加すると、システムはデータソースに基づいてデータカタログを生成します。
データカタログを作成する場合、システムはデータカタログに基づいてデータソースまたは計算リソースを生成できません。
オペレーションセンター
スケジューリング時間
スケジューリング時間は、自動トリガータスクが実行される予定の時点です。スケジューリング時間は分単位まで正確にすることができます。
重要タスクの実行には複数の要因が影響します。場合によっては、スケジューリング時間が到着してもタスクが実行されないことがあります。タスクが実行を開始する前に、DataWorks はタスクに対して次の条件が満たされているかどうかを確認します。タスクの先祖タスクが想定どおりに実行され、タスクのスケジューリング時間が到着し、タスクを実行するための十分なリソースが利用可能です。条件が満たされると、タスクの実行がトリガーされます。
データタイムスタンプ
データタイムスタンプとは、ビジネスアクティビティに直接関連する日付を指します。日付は、ビジネスデータが実際に生成された時刻を反映しています。データタイムスタンプの概念は、オフラインコンピューティングシナリオでは非常に重要です。たとえば、小売業では、2024 年 10 月 10 日の売上高の統計を収集する場合、売上高は 2024 年 10 月 11 日の早朝に計算されます。この場合、データタイムスタンプは 20241010 です。
自動トリガータスク
自動トリガータスクは、タスクに構成されたスケジューリングプロパティに基づいてスケジューリングシステムによってトリガーされるタスクです。オペレーションセンターの自動トリガータスクのリストでは、自動トリガータスクで O&M および管理操作を実行できます。たとえば、自動トリガータスクの DAG の表示、テスト、データのバックフィル、所有者の変更を行うことができます。
自動トリガーインスタンス
自動トリガーインスタンスは、自動トリガータスクのスケジューリングプロパティに基づいて、実行のために自動的に生成されるインスタンスです。たとえば、自動トリガータスクが 1 時間ごとに 1 回実行されるように構成されている場合、自動トリガータスクに対して毎日 24 個のインスタンスが生成されます。インスタンスの 1 つは、1 時間ごとに自動的にトリガーされて実行されます。インスタンスのみに実行ステータスなどの情報があります。オペレーションセンターの自動トリガーインスタンスのリストでは、自動トリガーインスタンスで O&M 操作を実行できます。たとえば、インスタンスを停止して再実行し、インスタンスのステータスを成功に設定できます。
データバックフィル
データバックフィル操作を実行すると、選択した時間範囲に基づいて、指定されたタスクのデータバックフィルインスタンスが自動的に生成されます。データバックフィル機能は、主に既存データの書き戻しとデータ修正に使用されます。データバックフィル機能を使用して、過去または将来の一定期間のデータを計算し、データの完全性と精度を確保できます。
ベースライン
DataWorks では、タスクをベースラインに関連付けてタスクを監視できます。タスクをベースラインに関連付けると、システムはベースラインの優先度、コミットされた完了時間、およびアラートマージンしきい値に基づいてタスクを自動的に監視し、タスクの通常のデータ出力に影響を与える可能性のあるリスクが検出された場合はアラートを報告します。ベースラインの優先度を示す数値が大きいほど、優先度は高くなります。 DataWorks は、タスクの出力適時性を確保するために、優先度の高いベースラインのタスクに優先的にリソースを割り当てます。アラートマージンしきい値は、例外を処理するために予約されている期間です。 DataWorks は、ベースラインのコミットされた完了時間からアラートマージンしきい値を引くことによってアラート時間を計算します。 DataWorks は、ベースライン内のタスクがアラート時間前にデータを生成できないことを検出すると、ベースラインの構成時に指定したアラート連絡先にアラート通知を送信します。
データガバナンスセンター
ヘルススコア
ヘルススコアは、データ資産のヘルスステータスを評価するために使用される包括的なメトリックです。ヘルススコアの範囲は 0 ~ 100 です。スコアが高いほど、データ資産が健全であることを示します。ヘルススコアは、DataWorks によって提供されるヘルス評価モデルを使用してガバナンス項目に基づいて計算され、テナント、ワークスペース、またはユーザーのデータガバナンスの有効性を反映します。データガバナンスセンターは、ストレージ、コンピューティング、R&D、品質、セキュリティの各ディメンションでヘルススコアを提供します。各ディメンションには対応するヘルススコアメトリックがあり、ユーザーはデータガバナンスの有効性を簡単に理解し、データ資産のヘルスステータスを直感的に把握できます。
ガバナンス項目
ガバナンス項目は、データガバナンス中にデータ資産で最適化または解決が必要な問題 (R&D 仕様、データ品質、セキュリティコンプライアンス、リソース使用率などの側面の問題) を検出するために DataWorks によって使用されます。ガバナンス項目は、必須ガバナンス項目とオプションガバナンス項目に分類されます。デフォルトでは、必須ガバナンス項目はグローバルに有効になっており、無効にすることはできません。ビジネス要件に基づいてオプションガバナンス項目を有効にすることができます。たとえば、ガバナンス項目を使用して、タイムアウトするタスク、複数回連続して実行に失敗するノード、またはユーザーがアクセスしないリーフノードを検出できます。
チェック項目
チェック項目は、データ生成プロセスに作用するアクティブなガバナンスメカニズムです。チェック項目を使用して、タスクがコミットおよびデプロイされる前に、制約に対する違反がないかタスクをチェックし、フルテーブルスキャンやスケジューリング依存関係の欠落などの潜在的な問題を特定できます。特定の要件を満たさないコンテンツが検出されると、システムはチェックイベントを生成し、コンテンツをインターセプトして処理します。チェック項目は、データ開発プロセスを制限および管理し、データ処理の標準化と正規化を確実にするのに役立ちます。
データガバナンス計画
データ資産ガバナンスは、データガバナンス計画テンプレートをさまざまなシナリオに提供し、特定の期間内に事前に決定されたガバナンス目標を達成することに重点を置いています。データガバナンス計画テンプレートを使用すると、関連性の高いガバナンス項目とチェック項目をすばやく特定し、最適化できるオブジェクトを特定できます。これにより、ガバナンス所有者はデータガバナンスの有効性を綿密に監視でき、チームは定量的評価を実行することでガバナンス目標をタイムリーに実現できます。
ナレッジベース
ナレッジベースは、データガバナンスセンターの組み込みチェック項目とガバナンス項目の定義を提供し、データガバナンスエンジニアがデータガバナンス中に発生する問題をすばやく特定して理解できるようにします。ナレッジベースは、問題の解決策と操作ガイダンスも提供し、データガバナンスの効率を向上させるのに役立ちます。
セキュリティセンター
データ権限
セキュリティセンターは、詳細な権限要求、要求処理、および権限監査をサポートしています。これにより、最小権限の原則に基づいて権限を管理できます。さらに、セキュリティセンターでは、要求処理の進捗状況を表示し、リアルタイムで要求処理をフォローアップできます。詳細については、データアクセス制御ディレクトリのトピックを参照してください。
データセキュリティ
セキュリティセンターは、データカテゴリとデータ秘密度レベル、機密データ識別、データアクセス監査、データソーストラッキングなどのさまざまな機能を提供します。これらの機能は、ワークフロー処理中にできるだけ早く潜在的なセキュリティリスクのあるデータを特定するのに役立ちます。これにより、データのセキュリティと信頼性が確保されます。詳細については、概要を参照してください。
Data Quality
データ品質監視
データ品質監視とは、パーティションテーブルの特定のパーティションなど、データオブジェクトのステータスと変更を継続的に追跡および検出し、データオブジェクトが事前に定義された品質基準を満たしていることを確認することです。データ品質監視は、データ品質に影響を与える可能性のある問題をできるだけ早く特定して解決するのに役立ちます。 DataWorks でスケジューリングイベントを有効にしてデータ品質監視をトリガーし、自動品質チェックを実装し、DataWorks がデータ監視結果に関連するアラート通知を指定されたアラート受信者に送信できるようにすることができます。
監視ルール
監視ルールは、データ品質が期待どおりであるかどうかを評価するための特定の条件または論理基準として機能します。たとえば、「顧客の年齢は 0 未満にすることはできません」は監視ルールです。 DataWorks では、ビジネス要件に基づいてさまざまな監視ルールを構成し、特定のデータ範囲に監視ルールを適用できます。一部のデータが監視ルールを満たしていない場合、システムはデータを識別し、データ品質アラートを報告します。
ルールテンプレート
ルールテンプレートは、事前に定義された検証ロジックを含む品質ルールのサンプルです。ルールテンプレートを直接使用するか、ルールテンプレートで指定されたしきい値を変更して、ビジネス要件に基づいて監視ルールを作成できます。 DataWorks は複数のタイプのルールテンプレートを提供します。カスタム SQL ステートメントを実行してルールテンプレートを作成することもできます。
組み込みルールテンプレート:DataWorks によって提供される組み込みルールテンプレートに基づいて監視ルールを作成できます。
カスタムルールテンプレート:組み込みルールテンプレートがパーティションフィルター式で指定されたデータの品質を監視するための要件を満たしていない場合は、カスタムルールテンプレートに基づいて監視ルールを作成できます。頻繁に使用するカスタムルールをルールテンプレートとして保存して、後で再利用できます。
Data Security Guard
データカテゴリとデータ秘密度レベル
データカテゴリとデータ秘密度レベル:データ値、コンテンツの秘密度、影響、および配布範囲に基づいて、データの秘密度レベルを指定できます。データ管理の原則とデータ開発の要件は、データ秘密度レベルによって異なります。
機密データ識別ルール
機密データ識別ルール:データのソースと使用状況に基づいて、データのカテゴリを定義し、データの機密フィールドタイプを構成できます。これにより、現在のワークスペース内の機密データを特定できます。 DataWorks は、組み込みのデータカテゴリと機密データ識別ルールを提供します。ビジネス要件に基づいて、データカテゴリと機密データ識別ルールを作成することもできます。
データマスキングルール
データマスキングルール:特定された機密データのデータマスキングルールを構成できます。ビジネス管理と制御の要件により、データマスキング管理はデータ秘密度レベルによって異なります。
リスク識別ルール
リスク識別ルール:Data Security Guard は、インテリジェント分析テクノロジーとリスク識別ルールに基づいて、データに対する危険な操作を事前に特定し、アラートを報告できます。これにより、より包括的なリスク管理を実行し、リスクを効果的に特定して防止できます。
データマップ
メタデータ
メタデータは、データ属性、データ構造、およびその他の関連情報を記述します。データ属性には、名前、サイズ、データ型などがあります。データ構造には、フィールド、タイプ、長さなどがあります。その他の関連情報には、場所、所有者、出力タスク、アクセス許可などがあります。
データリネージ
データリネージは、データ処理、データ転送、およびデータ統合中に形成されるデータ間の相関関係を記述するために使用されます。データリネージは、データ作成、データ処理、データ同期からデータ消費までのプロセス全体と、プロセスに含まれるデータオブジェクトを表示します。 DataWorks では、データリネージは視覚化された方法で表示されます。これにより、ユーザーは問題をすばやく特定し、ユーザーがテーブルまたはフィールドを変更した場合に影響を受ける可能性のあるオブジェクトを評価できます。データリネージの視覚化された表示は、複雑なデータ処理手順を維持するために非常に重要です。
データアルバム
データアルバムは、ビジネスの観点からテーブルカテゴリを整理および管理するために使用されます。特定のテーブルをデータアルバムに追加できます。このようにして、テーブルを効率的に検索して見つけることができます。
DataAnalysis
SQL クエリ
DataAnalysis では、標準 SQL ステートメントを実行して、さまざまなタイプのデータソースのデータをクエリおよび分析できます。詳細については、SQL クエリと分析を参照してください。
ワークブック
ワークブックは、データをオンラインで編集および管理するために設計されたツールです。 SQL クエリ結果またはオンプレミスファイルのデータをワークブックにインポートして、さらにクエリ、分析、および視覚化を行うことができます。また、ワークブックからデータをエクスポートまたはダウンロードしたり、ワークブック内のデータを他のユーザーと共有したりして、データ分析要件を柔軟に満たすこともできます。ワークブックの作成と管理方法については、ワークブックの作成と管理を参照してください。
データインサイト
データインサイトとは、詳細なデータ分析と解釈に基づいて、データの深い理解と発見を獲得することです。データインサイトは、データ探索とデータ視覚化をサポートしています。データインサイト機能を使用して、データ分布を理解し、データカードを作成し、データカードを組み合わせてデータレポートを作成できます。さらに、データインサイトの結果は長い画像を使用して共有できます。データインサイト機能は人工知能 (AI) テクノロジーを使用して、ビジネス意思決定のためにデータを分析し、複雑なデータを解釈するのに役立ちます。
DataService Studio
API
API は Application Programming Interface の略です。 DataService Studio では、開発者はさまざまなタイプのデータソースに基づいて API をすばやくカプセル化できます。 API は、ビジネスアプリケーション、ソフトウェア、システム、およびレポートシナリオで呼び出して、データの取得と消費を容易にすることができます。
関数
関数は、API のフィルターとして使用できます。関数を API のプリフィルターとして使用する場合、関数を使用して API のリクエストパラメーターを処理できます。たとえば、関数を使用して、リクエストパラメーターの値を変更したり、リクエストパラメーターに値を割り当てたりできます。関数を API のポストフィルターとして使用する場合、関数を使用して API の戻り値を二次処理できます。たとえば、関数を使用して、戻り値のデータ構造を変更したり、戻り値にコンテンツを追加したりできます。
データプッシュ
DataWorks によって提供されるデータプッシュ機能を使用すると、データプッシュタスクを作成できます。データプッシュタスクで単一テーブルまたは複数テーブルクエリの SQL ステートメントを記述して、プッシュするデータを定義し、リッチテキストまたはテーブルを使用してデータを整理できます。さらに、データプッシュタスクのスケジューリングプロパティを構成して、データを宛先 Webhook URL に定期的にプッシュできます。
オープンプラットフォーム
OpenAPI
OpenAPI モジュールを使用すると、DataWorks API 操作を呼び出して DataWorks のさまざまな機能を使用し、アプリケーションを DataWorks と統合できます。
OpenEvent
OpenEvent モジュールを使用すると、イベントメッセージをサブスクライブできます。 DataWorks のさまざまな変更イベントに関する通知を受信し、できるだけ早く構成に基づいてイベントに応答できます。たとえば、テーブル変更イベントをサブスクライブして、コアテーブルの変更に関する通知をリアルタイムで受信できます。また、タスク変更イベントをサブスクライブして、リアルタイム同期タスクのステータスを表示するダッシュボードのカスタムデータ監視を実装することもできます。
拡張機能
拡張機能モジュールは、DataWorks が提供するプラグインです。 拡張機能を OpenAPI および OpenEvent と共に使用して、カスタムロジックに基づいて DataWorks のユーザー操作を処理し、ユーザー操作をブロックできます。 たとえば、タスク変更コントロール用の拡張機能を開発し、その拡張機能を使用してカスタムタスクデプロイメントコントロールを実装できます。