収集タスクは、収集アダプターを介して指定されたデータソースに接続し、ソースデータベースから Dataphin にオブジェクトメタデータ情報を収集し、組み込みのレゾルバーを介して解析し、保存し、統一された方法で表示します。 このトピックでは、メタデータ収集タスクを作成および管理する方法について説明します。
前提条件
アプリケーションシステムタイプの収集ソースを使用する前に、[管理センター] > [データソース管理] > [アプリケーションシステム]でアプリケーションシステムを作成する必要があります。
制限事項
収集されたメタデータに、名前は同じで大文字と小文字が異なるオブジェクトが含まれている場合、システムは計算エンジンでサポートされているデフォルトの書き込み形式のみを認識します(Oracle はデフォルトで大文字のオブジェクト名を認識し、DM(DaMeng)は最初に収集されたオブジェクトを認識するなど)。 同じ名前の他のメタデータは処理されません。
バージョン 2.0 以降の PolarDB-X (旧 DRDS) データソースは、ビューオブジェクトの収集をサポートしています。
リレーショナルデータベースのメタデータ収集はデフォルトでサポートされています。 他のデータソースタイプのメタデータを収集するには、対応する機能を購入する必要があります。
バージョン 5.3 より前は、一部のデータソースでは、収集を開始する前にメタデータウェアハウステナントで [メタデータセンター] を初期化する必要がありました。これらのデータソースには、AnalyticDB for MySQL 3.0、PolarDB-X (旧 DRDS)、SAP HANA、Hologres が含まれます。バージョン 5.3 以降では、メタデータセンターを初期化する必要はありません。収集タスクを直接構成できます。
収集ワークフローのアップグレードのため、PostgreSQL、MySQL、Microsoft SQLServer、Oracle、IBM DB2、Hive(MySQL メタデータベース)、StarRocks の V5.1 より前のバージョンで収集タスクを作成し、V5.1 以降にアップグレードしても収集タスクを再実行しない場合、過去の収集インスタンスの実行ログを表示することはできません。
Elasticsearch データソースは、リスト管理をサポートしていません。
権限要件
スーパー管理者、システム管理者、およびメタデータ収集タスク管理権限を持つカスタムグローバルロールは、メタデータ収集タスクを作成および管理できます。
メタデータ収集ワークフローの説明
収集されたデータソースのネットワーク環境が Dataphin クラスタが配置されているネットワーク環境に接続されていない場合は、登録スケジューリングクラスタ機能を使用する必要があります。 収集されたデータは、Dataphin デプロイメントが依存するオブジェクトストレージシステム(OSS など)に一時的に書き込まれ、その後 Dataphin システムに書き込まれます。 このプロセスでは、追加のストレージコストが発生します。
収集タスクの作成
Dataphin ホームページの上部ナビゲーションバーで、[管理] > [メタデータ] を選択します。
左側のナビゲーションウィンドウで [収集タスク] をクリックし、[+ 新しい収集タスク] ボタンをクリックして [新しい収集タスク] ダイアログボックスを開きます。
[新規コレクションタスク] ダイアログボックスで、パラメーターを構成します。
パラメーター
説明
コレクションタスク名
収集タスクの名前。 グローバルに一意である必要があり、512 文字を超えることはできません。
所有者
収集タスクの所有者。 収集タスク管理権限を持つメンバーを選択できます。
コレクションタスクの説明
収集タスクの説明を追加できます。1,000 文字を超えることはできません。
データソース
メタデータを収集するデータソースに基づいて、収集ソース範囲を選択します。 サポートされているデータソースには、データソースとアプリケーションシステムが含まれます。
データソース: リレーショナルデータベースとビッグデータストレージデータベースをサポートします。 詳細については、「Dataphin でサポートされているデータソース」をご参照ください。
アプリケーションシステム: 現在、Quick BI のみをサポートしています。 メタデータを収集するアプリケーションシステムを選択します。
[表示] をクリックしてデータソース管理ページに移動すると、システムによって関連するデータソースがフィルターされます。
説明選択したデータソースにデータソースエンコーディングが構成されていない場合、後で JDBC 経由または BI プラットフォームで収集されたメタデータを使用できない可能性があります。 データソースエンコーディングの構成方法については、「Dataphin でサポートされているデータソース」をご参照ください。
1 つのデータソースには、1 つの収集タスクのみを構成できます。 同じデータソースの 2 つの異なる環境ソース(開発環境と本番環境)には、個別の収集タスクを構成できます。
収集範囲
データソースタイプまたはアプリケーションシステムに基づいて、さまざまなタスク収集範囲を構成できます。
データソースタイプが Hive の場合、システムはデータソースに構成された JDBC URL に基づいて、対応する dbname(データベース名)を自動的に解析します。
データソースタイプが MySQL、AnalyticDB for MySQL 3.0、PolarDB-X、StarRocks、OceanBase (MySQL テナント)、ClickHouse、Amazon RDS for MySQL、SelectDB、Doris、DolphinDB、または TDSQL for MySQL の場合、データソースインスタンス配下のデータベースに基づいて収集範囲を構成できます。[すべてのデータベース] または [指定されたデータベース] を選択できます。
すべてのデータベース: データソース構成に基づいて、クエリ権限を持つすべてのデータベースを動的に取得します。
指定されたデータベース: データソース構成に基づいて、権限を持つ他のデータベースを指定します。 データベースがデータソースにすでに構成されている場合は、デフォルトで入力されます。 カスタムデータベースを入力する場合、文字は大文字と小文字が区別されます。
データソースタイプが Oracle、PostgreSQL、Microsoft SQL Server、SAP HANA、IBM DB2、Hologres、OceanBase (Oracle テナント)、Greenplum、Amazon RDS for PostgreSQL、Amazon RDS for SQL Server、Amazon RDS for Oracle、Amazon RDS for DB2、Amazon Redshift、DM (DaMeng)、または openGauss の場合、データソースインスタンス下のデータベース名であるスキーマに基づいて収集範囲を構成します。[すべてのスキーマ] または [指定されたスキーマ] を選択します。
すべてのスキーマ: データソース構成に基づいて、クエリ権限を持つすべてのスキーマを動的に取得します。
指定されたスキーマ: データソース構成に基づいて、権限を持つ他のスキーマを指定するか、ワンクリックでデフォルトスキーマにすばやく入力します。 カスタムスキーマを入力する場合、文字は大文字と小文字が区別されます。
データソースが Quick BI の場合、ワークスペースに基づいて収集範囲を構成できます。 すべてのワークスペースまたは指定されたワークスペースを選択できます。
すべてのワークスペース: アプリケーションシステム構成に基づいて、クエリ権限を持つすべてのワークスペースを動的に取得します。
指定されたワークスペース: アプリケーションシステム構成に基づいて、権限を持つ他のワークスペースを指定します。
説明Hive、StarRocks データソースの場合、システムは作成時刻に基づいて、単一のパーティションテーブルの最新の 100,000 パーティションを収集します。
データソースが OceanBase の場合、収集範囲はデータソースに構成されたテナントモードによって決まります。 MySQL テナントはデータベースに基づいてメタデータを収集し、Oracle テナントはスキーマに基づいてメタデータを収集します。
コレクションオブジェクトタイプ
デフォルトで選択されており、変更できません。 データソースがデータソースとして選択されている場合、テーブル、ビュー、および フィールド をサポートします。 データソースがアプリケーションシステムの場合、ダッシュボード の収集をサポートします。
説明データソースが Elasticsearch の場合、インデックスの収集オブジェクトタイプはテーブルであり、インデックスエイリアスの収集オブジェクトタイプはビューです。
データソースが StarRocks の場合、同期されたマテリアライズドビューは収集でサポートされていません。
ソースシステム
データソースがデータソースの場合にのみサポートされます。 このソースから収集されたメタデータが属するソースシステムを選択します。 これは、アセットオブジェクトのフィルタリング、ソースシステム系列関係の表示、およびその他のシナリオに使用できます。 ソースシステムの作成方法については、「ソースシステムの作成と管理」をご参照ください。
自動データサンプリング
このオプションは、[管理] > [メタデータ] > [サンプリング構成] でデータサンプリングが有効になっており、トリガーシナリオにメタデータ収集が含まれ、データプレビューがサポートされている場合に使用できます。このオプションを有効にすると、[サンプリング構成] > [データソース] で定義された収集範囲に基づいて、実行中にサンプルデータが自動的に収集されます。収集範囲は変更できます。
[次へ] をクリックして、収集戦略を構成します。
パラメータ
説明
データ更新戦略
新規/変更されたメタデータ
以前の収集と比較して、ソースシステムに新規または更新されたデータがある場合、システムは 新しいメタデータを追加し、変更されたメタデータを更新します。 ダッシュボードの場合、作業が変更されていても公開されていない場合(作業ステータスが「保存済みだが公開されていない」)、システムは以前に収集された公開データを更新せずに保持します。
削除されたメタデータ
前回の収集と比較して、ソースシステムに削除されたデータがある場合、メタデータリストとアセットリストから削除 または 削除操作を無視 を選択できます。 ダッシュボードの場合、ワークステータスが「公開済み」から「オフライン」に変更された場合、削除済みとして扱う または 削除操作を無視 を選択できます。
メタデータリストとアセットリストから削除/ワークステータスが「公開済み」から「オフライン」に変更された場合、削除済みとして扱う: 収集されたメタデータ情報を同期的に削除します。削除後は復元できません。
削除操作を無視: ソースシステムの削除操作を無視します。 メタデータリストとアセットリストでオブジェクトの詳細と履歴バージョンを引き続き表示でき、後で手動で削除できます。
データ収集スケジュール
収集頻度
タスク収集の頻度を制御するために使用されます。 [スケジュールされた収集] と [手動収集] をサポートします。
スケジュールされた収集: 構成されたスケジュール時間に従ってタスク収集を自動的に実行します。 収集タスクの更新に高い適時性が必要なシナリオに適しています。 毎日、毎週、および 毎月 のスケジュールをサポートします。 構成可能なスケジュールされた開始実行時間範囲は 00:00 から 23:59 です。 毎月 のスケジュール時間を選択すると、月末 を選択できます。
システムタイムゾーン(ユーザーセンターのタイムゾーン)がスケジューリングタイムゾーン([管理センター] > [システム設定] > [基本設定] で構成されたタイムゾーン)と異なる場合、システムは両方のタイムゾーンを表示します。 収集タスクにスケジュールされた収集時間が構成されている場合、システムはスケジューリングタイムゾーンの対応する時間を自動的に計算し、その時間に従って実行します。
手動収集: タスク収集を手動でトリガーする必要があります。 メタデータの変更頻度が少なく、リソースの節約が望ましいシナリオに適しています。
ランタイム構成
エラーリトライ
失敗したコレクションインスタンスについては、設定された[リトライ回数]と[リトライ間隔]に基づいて、再実行するかどうかを決定できます。
リトライ回数: 収集インスタンスが失敗した後、自動的に再実行を試行するかどうか、および自動再試行の最大回数。 デフォルトは 1 回で、1 ~ 10 回の正の整数を構成できます。
[リトライ間隔]: 各自動再実行の時間間隔。デフォルトは 5 分で、設定可能な時間範囲は 1 ~ 60 分です。
説明エラーリトライとスケジュールされた収集が競合する可能性があります。 前の収集タスクがまだ実行されている間に次の収集時点に達した場合、次のスケジュールされた収集は自動的に遅延されます。 収集インスタンスリストでタスクの実行を手動で終了できます。 詳細については、「収集インスタンスの表示と管理」をご参照ください。
ランタイムタイムアウト
収集タスクの合計実行時間(開始から終了まで、リソースの待機時間とスケジューリングの待機時間は含まない)が設定されたしきい値を超えても終了しない場合、システムは自動的にタスクを終了し、失敗としてマークします。 構成可能な時間範囲は 0 ~ 24 時間で、小数点以下 1 桁までです。
スケジュールリソース
収集タスクは、スケジュールされるときに、このリソースグループのリソースクォータを占有します。 高い同時実行性が多くのリソースを占有し、他のシステムタスクの通常の動作に影響を与えるのを避けるため、グローバルにすべてのテナントによって作成されたすべての収集タスクは、統一された同時実行数に従います。 スケジューリングリソースを適切に割り当ててください。 現在のテナントで 通常 のステータスを持つリソースグループを選択できます。
[接続テスト]選択したデータソースのネットワーク環境とスケジューリングリソースグループのネットワーク環境は相互接続されている必要があります。そうでない場合、収集タスクを実行できません。 選択後、 をクリックしてネットワーク接続をテストできます。 接続テストが失敗した場合は、[ログの表示] をクリックして、具体的な失敗理由を確認できます。
接続構成
選択した収集ソースの接続構成情報を、収集頻度と収集時間の構成の参考として表示できます。 詳細については、「Dataphin でサポートされているデータソース」をご参照ください。
説明現在の接続構成は、オフライン統合タスク、グローバル品質監視ルール、およびメタデータ収集タスクに適用されます。
[OK] をクリックして、収集タスクの作成を完了します。
コレクションタスクの管理
収集タスクページには、収集タスクに関する情報(名前、データソースとデータソースエンコーディング、データソースタイプ、収集方法、最新の収集のステータスと時刻、説明、所有者、有効ステータス、タスクステータス、最終更新時刻など)が表示されます。 右上隅にある [データソース管理] ボタンをクリックすると、[管理センター] > [データソース] ページに移動して、収集ソースを管理できます。
タスクステータス: 収集タスクリストで対応するタスクのタスクステータスを表示します。 異なるステータスは、異なる個々の操作に対応します。 それぞれのタスクステータスで実行できる操作を次の表に示します。
タスクステータス
操作
[正常]
表示、編集、一時的な手動実行 (スケジュールされたコレクションタスクでサポート)、手動実行 (手動タスクでサポート)、クローン、削除、メタデータの表示、コレクションインスタンスの表示、有効ステータスの有効化または無効化。
[作成失敗]
再試行、実行ログの表示、表示、編集、削除。
[更新失敗]/[削除失敗]/[有効化失敗]/[無効化失敗]
再試行、実行ログの表示、表示、編集、削除、メタデータの表示、コレクションインスタンスの表示。
[有効化中]/[無効化中]
表示。
有効化中または無効化中は、有効ステータスの変更はサポートされていません。
[作成中]/[更新中]/[削除中]
表示。
[異常]
表示、編集、削除、メタデータの表示、コレクションインスタンスの表示。
(オプション) 収集タスクまたはデータソース名でターゲット収集タスクを検索し、担当するタスクまたは有効なタスクをすばやくフィルタリングするか、タスクステータス、有効ステータス、所有者、データソース、または収集方法でターゲット収集タスクをフィルタリングできます。
ターゲット収集タスクの操作列で次の操作を実行できます。
操作
説明
再試行
失敗したコレクションタスクの再実行をサポートします。
実行ログの表示
失敗したコレクションタスクの実行ログの表示をサポートします。
表示
コレクションタスクの構成情報の表示をサポートします。
編集
データソースタイプとデータソースの変更はサポートされていません。その他の情報の変更は、有効ステータスに影響しません。
一時的な手動実行
通常のステータスにあるスケジュールされたコレクションタスクのみが、一時的な手動実行をサポートします。この実行によるインスタンスが、次のスケジュールされた実行時間に達してもまだ終了していない場合、データの不整合を引き起こす可能性があります。タスクにすでに実行中のインスタンス (スケジュールされたコレクションインスタンスまたは一時的に手動で実行されたコレクションインスタンス) がある場合は、まずそのインスタンスを終了してから、操作を再度実行する必要があります。
手動実行
通常のステータスにある手動コレクションタスクのみが、手動実行をサポートします。タスクにすでに実行中のインスタンス (スケジュールされたコレクションインスタンスまたは一時的に手動で実行されたコレクションインスタンス) がある場合は、まずそのインスタンスを終了してから、操作を再度実行する必要があります。
クローン
コレクションタスクの構成情報を迅速にコピーすることをサポートしますが、データソースとコレクション範囲を再構成する必要があります。
削除
単一削除: 操作列の
をクリックし、[削除] を選択してコレクションタスクを削除できます。バッチ削除: 削除したいコレクションタスクを選択し、下部にある
アイコンをクリックしてコレクションタスクをバッチ削除します。
説明タスクを削除しても、現在実行中のインスタンスには影響しません。必要に応じて、手動で終了させることができます。タスクが正常に削除されると、新しいコレクションインスタンスは生成されません。削除戦略として [収集されたメタデータを同期的に削除] または [タスクのみを削除し、収集されたメタデータを保持] を構成できます。
収集されたメタデータを同期的に削除: このタスクを通じて指定されたデータソースから収集されたメタデータを、メタデータリストとアセットリストから同期的に削除します。
タスクのみを削除し、収集されたメタデータを保持: コレクションタスク自体のみを削除し、指定されたデータソースからすでに収集されたメタデータをメタデータリストとアセットリストに保持します。後で同じデータソースで新しいコレクションタスクを作成すると、保持されているメタデータ情報が上書きされる可能性があります。
メタデータリストの表示
メタデータリストページへのジャンプをサポートします。このページでは、システムがこのタスクに構成されたデータソースに関連するメタデータ情報をフィルターします。
コレクションインスタンスの表示
コレクションインスタンスリストページへのジャンプをサポートします。このページでは、システムがこのタスクに関連するインスタンスをフィルターします。
有効ステータスの変更
単一の有効ステータスの変更: 有効ステータス列の
スイッチをクリックして、有効ステータスを有効または無効にできます。有効ステータスのバッチ変更: 有効ステータスを変更したいコレクションタスクを選択し、下部にある
アイコンをクリックして有効ステータスを有効または無効にします。
説明有効にすると、コレクションタスクは構成されたスケジュールに従って自動的に実行されます。無効にしても、現在実行中または生成されて実行を待機しているインスタンスには影響しませんが、その後生成されるコレクションインスタンスは自動的に実行されません。タスクは手動で実行できます。
次の手順
収集タスクが完了したら、収集インスタンスリストでタスクの実行ステータスを表示できます。 詳細については、「収集インスタンスの表示と管理」をご参照ください。
収集タスクが正常に実行されたら、収集されたメタデータをメタデータリストで表示できます。 詳細については、「メタデータリストの表示と管理」をご参照ください。