Dataphin に同期する前にデータを探索することで、データ分布、null 値、その他の情報を事前に把握し、より標準化されたデータ活用を促進できます。このトピックでは、データ探索の設定方法について説明します。
前提条件
データ探索機能を使用するには、Data Quality を購入する必要があります。
制限事項
データ探索は、特定のデータソースタイプのテーブルでサポートされています。サポートされているデータソースについては、「さまざまなデータソースでサポートされているパーティション探索と探索範囲」をご参照ください。
コンピュートエンジンが AnalyticDB for PostgreSQL、ArgoDB、または StarRocks に設定されている場合、この機能はコンピュートソーステーブルではサポートされていません。
権限 の説明
スーパー管理者、運用管理者、および [探索と分析] - [データ探索構成] 権限を持つカスタムグローバルロールは、データ探索を設定できます。
データ探索の構成
Dataphin ホームページの上部メニューバーで、[管理] > [メタデータ] を選択します。
左側のナビゲーションウィンドウで、[一般設定] > [探索と分析] を選択します。[データ探索と分析] ページでは、コンピュートソーステーブルとデータソーステーブルのデータ探索を個別に設定できます。
基本構成
すべてのデータソースタイプのレコード保持ポリシーを構成します。
下部の [編集] ボタンをクリックし、パラメーターを構成します。
プロファイリングレコード: 2 つのオプションがあります。
最新の探索レコードとレポートのみを保持する:
最新の実行が成功し、レポートが生成された場合、成功したレコードと失敗したレコードの両方を含む以前のすべてのレコードが削除されます。
最新の実行が失敗した場合、失敗したレコードと最新の成功したレポートのみが保持され、他の失敗したレコードは削除されます。成功したレコードが存在しない場合は、現在の失敗したレコードのみが保持されます。
過去 N 日間の探索レコードを保持する: 過去 n 日間のすべてのレコードとレポート(成功と失敗の両方)を保持します。デフォルトは 15 日で、1 ~ 90 日の任意の整数を設定できます。
[確認] をクリックして、基本構成を完了します。
コンピュートソース
自動データ探索の対象となるデータテーブルの範囲を構成します。
重要データ探索は、データテーブルが存在するプロジェクトのコンピュートリソースを消費します。実際のビジネスニーズに基づいて慎重に構成してください。
下部の [編集] ボタンをクリックし、パラメーターを構成します。
パラメーター
説明
同時実行レート制限
データ探索タスクとメトリック分析タスクの両方を含む、同時に実行されるタスクの数を制御します。システムは最小 1 つの同時実行タスクをサポートし、デフォルトは 5 です。1 ~ 5 の整数を 入力 してください。
詳細パラメーター構成
有効にすると、グローバル探索タスクのパラメーターを設定して、パフォーマンスを最適化したり、探索タスクとメトリック分析タスクの両方で特定のコンピュートエンジンに対応したりできます。
[参照例] ボックスをクリックして、ステートメントの例を表示およびコピーします。
[一般的なシナリオの説明] をクリックして、パラメーター構成による一般的な探索タスクエラーとその解決策を表示します。詳細については、「一般的なシナリオの説明」をご参照ください。
探索タイムアウト
リソースの長期使用を防ぐために、探索タスクの最大期間を制限します。設定時間を超えたタスクは失敗としてマークされます。1 ~ 24 時間の任意の値を、小数点以下 1 桁まで設定します。
物理テーブルの範囲
プロジェクトごとに自動探索の対象となる物理テーブルとビューの範囲を選択します。オプションには、すべてのプロジェクト、すべての本番プロジェクト(Basic および Prod)、または特定のプロジェクトが含まれます。
すべてのプロジェクト: 既存および将来のすべてのプロジェクトのすべての物理テーブルとビューを自動探索に含めます。
すべての本番プロジェクト (basic および Prod): 既存および将来の本番プロジェクトのすべての物理テーブルとビューを自動探索に含めます。
指定されたプロジェクト: 自動探索の対象となる特定のプロジェクトを選択できます。複数選択がサポートされています。
論理テーブルの範囲
データセクションごとに自動探索の対象となる論理テーブルとビューの範囲を選択します。オプションには、すべてのセクション、すべての本番セクション(Basic および Prod)、または特定のセクションが含まれます。
すべてのセクション: 既存および将来のすべてのセクションのすべての論理テーブルとビューを自動探索に含めます。
すべての本番セクション (basic および Prod): 既存および将来の本番セクションのすべての論理テーブルとビューを自動探索に含めます。
指定されたセクション: 自動探索の対象となる特定のセクションを選択できます。複数選択がサポートされています。
[確認] をクリックして、コンピューティングソーステーブルデータ探索構成を完了します。
説明自動探索でサポートされるテーブルの範囲が変更された場合、サポートされなくなったテーブルでは自動探索スイッチがオフになります。実行中の探索タスクは影響を受けません。
データソース
データソースページには、メタデータに収集され、データソースの探索とメトリック分析をサポートするデータソースの種類が表示されます。自動データ探索の対象となるデータソーステーブルの範囲を構成します。
データソースの名前、タイプ、最大同時タスク数、データ探索ステータス、探索タイムアウト、および最終変更時刻を表示できます。
データソース名で検索したり、データソースの種類でフィルタリングしたりできます。
ターゲットデータソースのデータ探索を構成するには、操作列の [編集] アイコンをクリックします。 [コントロール設定] ダイアログボックスで、パラメーターを構成します。
パラメーター
説明
同時実行設定
同時実行レート制限
同時に実行されるデータソーステーブル探索タスクの数を制御します。システムは最小 1 つの同時実行タスクをサポートし、デフォルトは 5 です。1 から 5 までの整数を入力します。
詳細パラメーター 構成
有効にすると、グローバル探索タスクのパラメーターを設定して、パフォーマンスを最適化したり、データソーステーブルの探索タスクとメトリック分析タスクの両方で特定のコンピュートエンジンに対応したりできます。
パラメーター構成ボックスの [参照例] をクリックして、参照文を表示およびコピーします。
一般的なシナリオの説明 をクリックすると、一般的な探索タスクエラーとそのパラメーター構成による解決策が表示されます。 詳細については、「一般的なシナリオの説明」をご参照ください。
データ探索
データプロファイル
デフォルトでは無効になっています。有効にすると、データ探索をサポートするデータソーステーブルを探索できます。
探索タイムアウト: データ探索が有効になっている場合に利用できます。探索タスクの最大期間を制限して、リソースの長期使用を防ぎます。設定された時間を超えたタスクは、失敗としてマークされます。1 から 24 時間までの値を小数点以下 1 桁まで設定します。
[確認] をクリックして、データソーステーブルデータ探索構成を完了します。
次の手順
データ探索構成を完了したら、データテーブルの自動探索を構成できます。詳細については、「データ探索タスクを作成する」をご参照ください。