Data Management (DMS) を使用すると、テーブルおよびカラムに対して品質ルールを定義し、タスクフロー内の監査タスクを用いてスケジュールに従って自動的にデータを検証できます。これにより、データの一貫性、一意性、可用性が保たれ、下流の分析および開発プロセスで信頼できるデータを利用できます。
前提条件
開始する前に、以下の点を確認してください。
データベースインスタンスが セキュリティコラボレーション モードで管理されていること。詳細については、「コントロールモード」をご参照ください。
以下のいずれかの権限要件を満たしていること:
DMS 管理者、データベース管理者 (DBA)、またはスキーマ読み取り専用ロールを持つユーザーであること。詳細については、「システムロール」をご参照ください。
お客様は、対象のデータベースインスタンスのインスタンス所有者または DBA です。詳細については、「データベースインスタンスを変更する」をご参照ください。
対象データベースインスタンスまたはそのテーブルに対して、クエリ、変更、またはエクスポート権限を持っていること。詳細については、「所有する権限の表示」をご参照ください。
基本概念
品質ルール:テーブルまたはカラムに対して定義する条件です。DMS はこの条件に基づいてデータを評価し、レポートを生成します。たとえば、「カラムの最大値が 100 を超えないこと」や「行数が 100,000 未満であること」などを要件として設定できます。
監査タスク:特定の品質ルールに基づいてデータをチェックし、レポートを生成する定期タスクです。品質ルールに監査タスクをアタッチし、スケジューリング周期を指定してタスクフローを公開すると、DMS が自動的にチェックを実行します。
品質ルールの作成
DMS コンソール V5.0 にログインします。
対象テーブルの詳細ページを開きます。以下のいずれかの方法を使用してください:SQL コンソールから: 検索バーから:
上部ナビゲーションバーで ホーム をクリックし、検索ボックスにテーブル名を入力します。
検索結果一覧から テーブル を選択し、対象テーブルを見つけ、詳細 をクリックします。
データ品質 タブをクリックします。
ルールの作成 をクリックし、以下のパラメーターを設定します。たとえば、上記の設定は「
columns_testカラムの最大値が 100 以下であることをチェックする」という意味です。パラメーター 説明 例 ルール名 品質ルールの名称 カラムの最大値は 100 ルールタイプ ルールの適用範囲。テーブルルール はテーブルレベルのメトリック(例:行数)をチェックします。カラムルール はカラムレベルのメトリック(例:NULL 値、値の範囲)をチェックします。 カラムルール ルールテンプレート 適用する事前定義済みのチェック項目です。利用可能なすべてのオプションについては、「ルールテンプレート」をご参照ください。 カラム内の最大値 カラム名 チェック対象のカラムです。ルールタイプ を カラムルール に設定した場合のみ表示されます。 columns_test 比較方法 実際のメトリックと期待値を比較する方法です。選択肢: より大きい、以上、等しい、以下、より小さい、等しくない。 以下 期待値 ルールのしきい値 100 OK をクリックします。
ルールは 有効 状態で作成されます。
既存のルールを管理するには、操作 列の その他 にカーソルを合わせ、以下のオプションから選択します。
編集 — ルールを変更します。
ログ — ルールのバージョン履歴を表示します。
無効化 — ルールを無効化します。ただし、監査タスクで使用中のルールは無効化できません。まず監査タスクを削除してから、ルールを無効化してください。
自動チェックのスケジュール設定
品質ルールを作成した後、スケジュールに従って自動チェックを実行するタスクフローを設定します。
品質ルールの 操作 列で その他 にカーソルを合わせ、新しいタスクフロー を選択します。

タスクオーケストレーションページで、監査タスク ノードを追加し、作成済みの品質ルールを参照するよう構成します。
スケジューリング周期を設定してタスクフローを公開します。
DMS は、設定されたスケジューリング周期に基づいてデータのチェックを自動的に開始し、各実行後にレポートを生成します。タスクフローの構成方法については、「概要」をご参照ください。
ルールテンプレート
データ品質の目標に応じて、適切なテンプレートを選択してください。
| ルールタイプ | ルールテンプレート | チェック内容 | 使用例 |
|---|---|---|---|
| テーブルルール | テーブル内の行数。値は固定値 | 総行数が要件を満たすかどうか | 行数は 100,000 未満でなければならない |
| カラムルール | カラム内の最大値 | カラムの最大値が許容範囲内かどうか | 主キーは 2,147,483,647(2³¹ − 1)を超えてはならない |
| カラムルール | カラム内の最小値 | カラムの最小値が許容範囲内かどうか | 最小値は 3 未満であってはならない |
| カラムルール | ワイルドカードを含む式に一致する文字列数。値は固定値 | ワイルドカードパターンに一致する値の数が要件を満たすかどうか | a で始まる値は 10 未満でなければならない |
| カラムルール | 正規表現に一致する文字列数。値は固定値 | 正規表現に一致する値の数が要件を満たすかどうか | 正規表現にマッチする値は 100 より大きくなければならない |
| カラムルール | カラム内の NULL 値数。値は固定値 | NULL 値の数が要件を満たすかどうか | NULL 値は 0 以下でなければならない |
| カラムルール | カラム内の固有値数。値は固定値 | 異なる値の数が要件を満たすかどうか | 少なくとも 100 の異なる値が存在しなければならない |
| カラムルール | カラム内の重複値数。値は固定値 | 重複値の数が要件を満たすかどうか | 重複値は 100 未満でなければならない |
テンプレートの選択方法:
分析パイプラインへの不適切なデータの流入を防ぐには、まず NULL 値 および 重複値 のチェックから始めます。
値の範囲(例:ID の上限/下限、スコア制限など)を強制するには、最大値 または 最小値 のチェックを使用します。
データ形式(例:電話番号、コードなど)を検証するには、ワイルドカード または 正規表現 のチェックを使用します。
テーブルサイズのモニタリングや予期せぬデータ損失の検出には、行数 のチェックを使用します。