コンピューティングソースとストレージソースのデータサンプリングを有効にする - Dataphin

データサンプリングは、ビジネスユーザーがデータパターンを理解し、SQL 開発を支援するのに役立ちます。このトピックでは、データサンプリングの構成方法について説明します。

前提条件

サンプリング設定を使用するには、Agile R&D Edition 以降のバージョン、または資産運用機能が有効になっている必要があります。

制限事項

自動サンプリングは、1500 以下のフィールドを持つデータテーブルでのみサポートされます。この制限を超えるテーブルは自動的に無視されます。

権限

スーパー管理者、運用管理者、および [サンプリング構成] - [管理] 権限を持つカスタムグローバルロールを割り当てられたユーザーは、サンプリング構成を管理できます。

手順

Dataphin ホームページの上部のメニューバーで、[管理] > [メタデータ] を選択します。

左側のナビゲーションウィンドウで、[一般設定] > [サンプリング構成] を選択します。[サンプリング構成] ページで、計算ソースとデータソーステーブルのサンプリングを構成できます。

基本構成

ページ下部の [編集] をクリックしてパラメーターを構成します。

パラメーター		説明
データサンプリング		サンプリング構成のマスタースイッチです。この機能を有効にすると、基本設定、計算ソース、およびデータソースを構成できます。計算ソースとデータソースのページで自動データサンプリング設定がニーズを満たしていることを確認してください。この機能を無効にすると、自動サンプリングも手動サンプリングもトリガーできなくなります。関連するシナリオでサンプルデータを使用することはできません。サンプルデータを削除するか、保持するかを選択できます。同期的に削除: 保存されたサンプルデータを削除します。データを保持: 保存されたサンプルデータは表示も使用もできませんが、次回サンプリングを有効にしたときに直接使用できます。
クエリ構成	自動サンプリングトリガーシナリオ	データサンプリングクエリを自動的にトリガーするノードタイプを構成します。サポートされているタイプには、メタデータ収集、データプロファイル、およびセキュリティ検出ルール/標準ラベルマッピングルールの実行があります。システムは、最後のサンプリング更新時間と更新ポリシーに基づいて、新しいサンプリングクエリを開始するかどうかを自動的に決定します。データプロファイル: データプロファイリングを使用するには、グローバル品質またはドメイン固有の品質機能を有効にする必要があります。セキュリティ検出ルール/標準ラベルマッピングルールの実行: セキュリティ検出ルールにコンテンツベースの検出が含まれる場合、または検出機能に基づくインテリジェントマッピング用に標準ラベルマッピングが構成されている場合は、このオプションを有効にします。そうしないと、各検出で一時的なデータクエリが実行され、大量の計算リソースが消費される可能性があります。
	自動サンプリング更新ポリシー	データサンプリングクエリの更新頻度を制御します。システムは、最後のサンプリング更新時間 (自動および手動サンプリングを含む) とこのポリシーに基づいて、前述のシナリオでサンプリングクエリを実行するかどうかを決定します。固定間隔で更新するか、更新しないかを選択できます。固定間隔で更新: 最後の更新が N 日以上前の場合に再サンプリングします。N は 1 から 60 までの整数です。たとえば、N が 7 の場合、最後のサンプリング成功から 7 日以上経過していると、システムはノード実行中に再サンプリングします。更新しない: データを 1 回だけサンプリングして保存します。サンプリングが成功した場合、データは後でアクティブに更新されません。
	NULL 値の補完	データサンプリングクエリ中にフィールドの NULL 値を処理するためのポリシーです。補完しないか、完全に NULL のフィールドに対して補完クエリを実行するかを選択できます。補完しない: サンプルデータの一部のフィールドが完全に NULL の場合、システムはこれらのフィールドに対して別の非 NULL サンプリングを実行せず、検出も実行しません。サンプル結果の一部のフィールドが NULL の場合、クエリを実行して NULL フィールドを補完する: サンプルデータの一部のフィールドが完全に NULL の場合、システムはこれらのフィールドに対して別の非 NULL サンプリングを実行します。サンプリングが成功した場合、その結果は次の検出に使用されます。サンプリングが失敗した場合、そのフィールドでは検出は実行されません。以下はサンプルスクリプトです。 `-- tableA のフィールド a、b、c に対する最初のサンプリングクエリ select a,b,c from tableA limit 100; -- フィールド a の最初の 100 行がすべて NULL であるため、フィールド a に対して 2 回目のサンプリングクエリが実行されます select distinct a from tableName where a is not null limit 100;` 重要 NULL 値の補完は検出精度を向上させますが、より多くの計算リソースを消費します。必要に応じてこの機能を構成してください。
ストレージ構成	サンプルストレージ	単一のフィールドに保存するサンプル値の数。デフォルト値は 100 です。1 から 100 までの整数を入力できます。
使用構成	データプレビュー用	資産チェックリストおよび資産フォルダでのデータプレビューに使用されます。データテーブルにすでにサンプルデータがある場合、デフォルトでサンプルデータが表示されます。最新データのクエリを手動でトリガーすることもできます。サンプルデータが存在しない場合、データプレビュークエリが自動的にトリガーされます。各フィールドのサンプルデータは独立して保存およびソートされます。行レコードの存在と正確性は保証されません。プレビュー中、システムはまず現在のアカウントの列レベルの権限とフィールドのマスキングポリシーを確認します。アクセス権のあるフィールドのサンプルデータのみを表示できます。データは行レベルの権限に基づいてフィルタリングされません。たとえば、テーブル A の `field_b` にマスキングポリシーが構成されています。生データとサンプルデータを次の図に示します。
	セキュリティ/標準検出用	この設定は、データセキュリティまたはデータ標準機能を購入した場合にのみ表示されます。セキュリティ検出ルールにコンテンツベースの検出が含まれる場合、または検出機能に基づくインテリジェントマッピング用に標準ラベルマッピングが構成されている場合、デフォルトでサンプルデータが使用されます。データが利用できない場合は、一時的なデータクエリが実行されます。
	スマートアプリケーション用	この設定は、スマートアプリケーションを有効にしている場合にのみ表示されます。Super X > スマートアプリケーション管理 > スマートアプリケーションページで、スマートアプリケーションのサンプリングデータ構成を編集できます。

[OK] をクリックして、基本構成を完了します。

計算ソース

自動サンプリングを有効にできるデータテーブルの範囲を構成します。

ページ下部の [編集] をクリックしてパラメーターを構成します。

パラメーター		説明
自動サンプリング		この機能を有効にすると、計算ソーステーブルの自動データサンプリングを構成できます。基本構成ページで自動サンプリングのトリガーシナリオを変更できます。
自動サンプリング構成	物理テーブルの範囲	自動サンプリングを有効にする物理テーブルと物理ビューの範囲を選択します。すべてのプロジェクト、すべての本番プロジェクト (Basic および Prod)、または特定のプロジェクトを選択できます。すべてのプロジェクト: 既存および将来のプロジェクトを含む、すべてのプロジェクトの物理テーブルと物理ビューで自動サンプリングを有効にできます。すべての本番プロジェクト (Basic および Prod): 既存および将来の本番プロジェクトを含む、すべての本番プロジェクトの物理テーブルと物理ビューで自動サンプリングを有効にできます。特定のプロジェクト: 自動サンプリングを有効にするプロジェクトを選択します。複数のプロジェクトを選択できます。
自動サンプリング構成	論理テーブルの範囲	データボードごとに自動サンプリングを有効にする論理テーブルと論理ビューの範囲を選択します。すべてのデータボード、すべての本番データボード (Basic および Prod)、または特定のデータボードを選択できます。すべてのデータボード: 既存および将来のデータボードを含む、すべてのデータボードの論理テーブルと論理ビューで自動サンプリングを有効にできます。すべての本番データボード (Basic および Prod): 既存および将来の本番データボードを含む、すべての本番データボードの論理テーブルと論理ビューで自動サンプリングを有効にできます。特定のデータボード: 自動サンプリングを有効にするデータボードを選択します。複数のデータボードを選択できます。
サンプリング実行説明自動サンプリングが無効になっている場合に、コンテンツベースの識別を必要とするセキュリティ検出ルールによってトリガーされる自動サンプリングと一時的なサンプリングクエリの両方に適用されます。	実行スペース	データサンプリングクエリノードを実行するための計算リソースを選択します。データが存在するプロジェクトまたは指定されたプロジェクトを使用できます。データが存在するプロジェクト: 選択したデータ資産が属するプロジェクトで実行します。指定されたプロジェクト: 選択したデータ資産の環境に基づいて、対応する環境のプロジェクトで実行します。開発テーブルは開発プロジェクトの計算リソースを使用し、本番テーブルは本番プロジェクトの計算リソースを使用します。説明データサンプリングクエリは計算リソースを消費します。データ資産が存在するプロジェクトで実行することをお勧めします。データが存在するプロジェクトのリソースへの負荷とクエリコストを削減したい場合は、サンプリングクエリ専用のプロジェクトリソースまたはキューを割り当てることができます。たとえば、別のサブスクリプションプロジェクトを選択できます。これにより、通常のビジネスプロジェクトとの干渉を回避できます。選択したプロジェクトの計算ソースで構成されたアカウントが、関連するサンプルデータテーブルに対する読み取り権限を持っていることを確認してください。
	同時リクエストのスロットリング	同時に実行できるデータサンプリングクエリノードの数を制御します。デフォルト値は 16 です。1 から 100 までの整数を入力できます。説明同時クエリは、計算クラスターの安定性を確保し、短期間に多数のクエリが実行されることによるシステム障害を防ぐのに役立ちます。同時クエリの数を増やすと、サンプリングクエリノードの速度は上がりますが、クラスターへの負荷が大きくなります。必要に応じてこの設定を構成してください。スキャンはクラスターの計算リソースを消費します。
	クエリタイムアウト	データサンプリングクエリノードの合計実行時間 (開始から終了まで、リソースとスケジューリングの待機時間を除く) が設定されたしきい値を超えた場合、システムは自動的にノードを停止し、失敗としてマークします。デフォルト値は 0.5 時間です。0 から 12 時間までの値を、小数点以下 1 桁まで設定できます。
	[スキャン無効期間]	この機能を有効にした後、開始時刻と終了時刻を設定します。この期間中、自動的にトリガーされたデータサンプリングクエリは開始されず、すぐに失敗としてマークされます。これにより、過剰な計算リソースの消費を防ぎ、本番環境タスクの安定した運用を保証します。

[OK] をクリックして、計算ソーステーブルのデータサンプリング構成を完了します。

データソース

[データソース] タブには、データサンプリングをサポートし、メタデータが収集されているデータソースタイプが表示されます。このタブでは、自動サンプリングが有効になっているデータソーステーブルの範囲を構成できます。

各データソースの名前、タイプ、最大同時ノード数、自動データサンプリングステータス、クエリタイムアウト、および最終変更時刻を表示できます。
データソース名で検索したり、データソースタイプでフィルタリングしたりできます。

ターゲットデータソースのデータサンプリングを構成するには、[アクション] 列の [編集] アイコンをクリックします。[サンプリング構成] ダイアログボックスで、パラメーターを構成します。

パラメーター		説明
自動サンプリング範囲	開発/本番環境	これは、データソース内の対応する環境に収集ノードが構成されている場合にのみ構成できます。本番環境と開発環境の自動サンプリング範囲を個別に構成できます。この機能を有効にすると、データソースタイプごとに異なる収集範囲を構成できます。詳細については、「収集範囲」をご参照ください。
サンプリング実行説明自動サンプリングが無効になっている場合に、コンテンツベースの識別を必要とするセキュリティ検出ルールによってトリガーされる自動サンプリングと一時的なサンプリングクエリの両方に適用されます。	同時リクエストのスロットリング	同時に実行できるデータサンプリングクエリノードの数を制御します。デフォルト値は 16 です。1 から 100 までの整数を入力できます。説明同時クエリは、計算クラスターの安定性を確保し、短期間に多数のクエリが実行されることによるシステム障害を防ぐのに役立ちます。同時クエリの数を増やすと、サンプリングクエリノードの速度は上がりますが、クラスターへの負荷が大きくなります。必要に応じてこの設定を構成してください。スキャンはクラスターの計算リソースを消費します。
	クエリタイムアウト	データサンプリングクエリノードの合計実行時間 (開始から終了まで、リソースとスケジューリングの待機時間を除く) が設定されたしきい値を超えた場合、システムは自動的にノードを停止し、失敗としてマークします。デフォルト値は 0.5 時間です。0 から 12 時間までの値を、小数点以下 1 桁まで設定できます。
	[スキャン無効期間]	この機能を有効にした後、開始時刻と終了時刻を設定します。この期間中、自動的にトリガーされたデータサンプリングクエリは開始されず、すぐに失敗としてマークされます。これにより、過剰な計算リソースの消費を防ぎ、本番環境タスクの安定した運用を保証します。

[OK] をクリックして、データソーステーブルのデータサンプリング構成を完了します。