すべてのプロダクト
Search
ドキュメントセンター

Dataphin:データプロファイリングレポートとレコードの表示

最終更新日:Mar 06, 2025

データプロファイリングタスクの完了後、さまざまなフィールドデータ型とフィールドの統計分布について、生成されたレポートを確認できます。このトピックでは、データプロファイリングレポートとレコードへのアクセス方法について説明します。

前提条件

データプロファイリング機能を利用するには、Data Quality 機能モジュールを有効にする必要があります。

権限 の説明

  • スーパー管理者と運用管理者は、すべてのデータテーブルのプロファイリングレポートとレコードにアクセスできます。現在のデータテーブルの所有者は、自分が管理するテーブルのプロファイリングレポートとレコードにのみアクセスできます。

  • プロジェクト管理者は、自分のプロジェクト内の物理テーブルのプロファイリングレポートとレコードにアクセスできます。

  • セクション管理者は、自分のセクション内の論理テーブルのプロファイリングレポートとレコードにアクセスできます。

  • 一般メンバーは、表示権限を持つプロファイリングレポートとレコードを表示できます。

データプロファイリング結果の表示

  1. Dataphin ホームページで、トップメニューバーから [管理] > [アセットインベントリ] を選択します。

  2. [テーブル] タブをクリックします。ここでは、物理テーブル、論理テーブル、物理ビュー、論理ビュー、マテリアライズドビューなどのテーブルタイプでフィルタリングできます。

  3. テーブルリストで、ターゲットテーブル名または [アクション] 列の image アイコンをクリックして、オブジェクト詳細ページに移動します。

  4. [オブジェクトの詳細] ページで、[データプロファイル] タブをクリックして、正常に実行され、表示権限のあるプロファイリング結果を表示します。

    • [プロファイリングレコード]: プロファイリングパーティション、範囲、フィールド数、プロファイリングされたレコードの詳細など、正常に実行され、表示権限のあるプロファイリングレコードが表示されます。

    • [プロファイリング設定の表示]: 設定済みのプロファイリングタスクの詳細を確認できます。

    • [ログの表示]: 選択したレコードに関連付けられたプロファイリングタスクの実行ログを検査できます。

データプロファイリングレポートの表示

説明

機密データのセキュリティを強化するために、フィールドに機密化ルールが適用されている場合、統計には機密化前の元の値が使用されますが、プロファイリングレポートには機密化された値が表示されます。

正常に実行されたプロファイリングレコードについて、対応するレポートを表示できます。このレポートには、さまざまなプロファイリングシナリオにおける各フィールドのプロファイリング結果が表示されます。

image

フィールド値の分布

フィールド値の分布に関する統計情報がコンパイルされ、対応するグラフが作成されます。これにより、値の分布の概要を簡単に把握できるため、データパイプライン内でのデータ開発と アプリケーション に役立ちます。すべてのデータ型がサポートされており、フィールドデータ型ごとに特定の統計指標があります。

フィールド値のヒストグラムと横棒グラフの詳細は次のとおりです。

  • 数値 フィールドの場合、レコード値を 20 の間隔に分割した概算ヒストグラムが表示されます。折れ線グラフは、各間隔のレコード数と平均値を示しています。

  • テキスト日時、または ブール値 フィールドの場合、横棒グラフの その他の値 カテゴリには、上位 20 件の重複以外の値と Null 値レコードの数が表示されます。

    image.png

    image.png

  • 数値 フィールドの場合: 統計には、最大値 (Max)、最小値 (Min)、平均値 (Avg)、Null 値の数、一意の値の数、標準偏差、25% 分位数、中央値、75% 分位数が含まれます。

  • テキスト フィールドの場合: 統計には、最大 文字 長と最小 文字 長、平均 文字 長、Null 値の数、一意の値の数が含まれます。

  • 日時 フィールドの場合: 統計には、最大値 (Max)、最小値 (Min)、Null 値の数、一意の値の数が含まれます。

  • ブール値 フィールドの場合: 統計には、Null 値の数が含まれます。

Null 値の統計

この分析は、フィールドに Null 値またはその他の異常レコードが存在するかどうかを特定するのに役立ちます。これは、タスク実行時のエラーを回避したり、ダウンストリームデータ計算の精度に影響を与えたりする上で非常に重要です。特に、プライマリキーフィールドまたは Null 値を含まないフィールドに推奨されます。すべてのデータ型がサポートされており、数値 フィールドのゼロ値レコードと テキスト フィールドの空の文字列レコードに関する追加の統計情報があります。

Null 値統計ドーナツチャートの詳細は次のとおりです。

  • 数値 フィールドの場合: 統計には、プロファイリングされたレコードの総数、Null 値の数、Null 値の割合、ゼロ値の数、ゼロ値の割合、その他の値が含まれます。ドーナツチャートは、これらの指標の概要を示しています。

  • テキスト フィールドの場合: 統計には、プロファイリングされたレコードの総数、Null 値の数、Null 値の割合、空の文字列の数、空の文字列の割合、その他の値が含まれます。ドーナツチャートは、これらの指標の概要を示しています。

  • 日時 フィールドと ブール値 フィールドの場合: 統計には、プロファイリングされたレコードの総数、Null 値の数、Null 値の割合、その他の値が含まれます。ドーナツチャートは、これらの指標の概要を示しています。

image.png

フィールドに Null 値または空の文字列が存在する場合、次の管理上の推奨事項が適用されます。

  • フィールドが プライマリキー (または Null 値を含まない) で、数値またはテキスト であり、Null 値が検出された場合は、ダウンストリーム ビジネスプロセス の中断を防ぐために、フィールド Null 値チェック品質監視ルールを設定することをお勧めします。

  • フィールドが プライマリキー (または Null 値を含まない) で、テキスト であり、Null 値または空の文字列値が検出された場合は、ダウンストリーム ビジネスプロセス の中断を防ぐために、フィールド Null 値チェックまたは フィールド空文字列チェック品質監視ルールを設定することをお勧めします。

一意の値の統計

統計には、一意の値を持つレコードの数と、重複 発生 回数が最も多い上位 5 つのフィールド値が含まれます。このプロファイリングシナリオは、一意の値を持つプライマリキーフィールド、または 発生 回数の多いフィールドに推奨されます。ブール値 フィールドでは、一意の値の統計はサポートされていないことに注意してください。

image.png

フィールドに重複値が見つかった場合は、次の管理上の推奨事項が適用されます。

フィールドが プライマリキー として機能し、プロファイリングで 重複値 が示されている場合は、ダウンストリーム ビジネスプロセス のスムーズな 運用 を確保するために、フィールド値の一意性品質監視ルールを設定することをお勧めします。

データプロファイリングレコードの表示

  1. [プロファイリングレコードの表示] ボタンをクリックして、[プロファイリングレコードの表示] パネルにアクセスします。

  2. [プロファイリングレコードの表示] パネルには、プロファイリングレコードの名前、プロファイリングタイプ、ステータス、および実行時間が表示されます。

  3. 名前で特定のプロファイリングレコードを検索したり、プロファイリングのステータスとタイプでフィルタリングしたりできます。

  4. ターゲット プロファイリングレコード 操作列では、さまざまな操作を実行できます。

    操作

    説明

    [プロファイリング結果の表示]

    プロファイリングタスクが正常に実行された後、プロファイリングレポートを表示できます。

    [プロファイリング設定の表示]

    プロファイリングタスクの構成情報を表示できます。手動プロファイリングタスクの場合は、下部にある [現在の設定に基づいてプロファイリングを開始] ボタンをクリックして、いくつかの情報をすばやく変更し、新しいプロファイリングを開始できます。

    [実行ログの表示]

    選択したプロファイリングレコードに対応するプロファイリングタスクの実行ログを表示できます。

    [停止]

    実行中または待機中の手動または自動プロファイリングタスクを [停止] できます。

    [現在の設定に基づいてプロファイリングを開始]

    手動プロファイリングタスクの場合、このプロファイリングタスクに基づいて設定をすばやく入力し、新しいプロファイリングを開始できます。タスクが進行中の場合は、再度開始することはできません。