統合およびコンピューティングタスクインスタンスの管理 - Dataphin

統合およびコンピューティングタスクインスタンスは、スケジュールされた定期統合およびコンピューティングタスクが実行されると生成されます。これらのインスタンスに対して運用保守 (O&M) を実行できます。サポートされている操作には、操作ログの表示、現在のインスタンスの再実行、現在のインスタンスの強制再実行、子孫ノードの強制再実行、ノードコードの表示などがあります。このトピックでは、統合およびコンピューティングタスクインスタンスを表示および管理する方法について説明します。

前提条件

ガントチャートを表示するには、IT 運用向け AI 付加価値サービス (VAS) を購入し、現在のテナントで IT 運用向け AI モジュールを有効にする必要があります。

統合およびコンピューティングタスクインスタンスページへのアクセス

Dataphin ホームページの上部のメニューバーで、[開発] > [O&M] を選択します。
左側のナビゲーションウィンドウで、[インスタンス O&M] > [定期インスタンス] を選択します。
上部のメニューバーで、本番または開発環境を選択します。
[定期インスタンス] ページで、[統合およびコンピューティングタスク] タブをクリックします。

統合および計算タスクインスタンスリストでサポートされる操作

定期統合およびコンピューティングタスクによってインスタンスが生成されると、そのインスタンスは [統合およびコンピューティングタスク] タブのリストに表示されます。このリストには、インスタンスオブジェクト、インスタンス ID、ステータス、スケジュールサイクル、データタイムスタンプ、スケジュール実行時刻、開始時刻、終了時刻、実行時間、再試行/自動再試行、優先度、オーナー、プロジェクト、関連ベースラインインスタンス、HTTP パス、スケジュールリソースグループ、タグ、およびサポートされている操作が表示されます。

インスタンスオブジェクト：定期タスクが実行されると、定期インスタンスオブジェクトが生成されます。この列には、インスタンスオブジェクトの名前と ID が表示され、タスクのスケジュールタイプが示されます。列名の横にあるアイコンをクリックすると、オブジェクト名で昇順または降順にソートできます。詳細については、「定期インスタンスマーカーの説明」および「」をご参照ください。
ステータス: インスタンスの現在のステータス。指定できる値は、成功、失敗、実行中、スケジュール時刻待ち、調整済み、スケジュールリソース待ち、未実行です。ステータスアイコンとその詳細については、「定期インスタンスのステータスの説明」をご参照ください。
実行開始時刻: インスタンスの実行が開始された時刻。列名の横にあるアイコンをクリックすると、開始時刻で昇順または降順にソートできます。
説明
論理テーブルノードの開始時刻は、インスタンスオブジェクトの最も早い内部マテリアライズノードが実行を開始した時刻です。
実行終了時刻: インスタンスの実行が停止した時刻。列名の横にあるアイコンをクリックすると、終了時刻で昇順または降順にソートできます。
説明
論理テーブルノードの終了時刻は、インスタンスオブジェクトの最新の内部マテリアライズノードが実行を停止した時刻です。
リトライ/自動リトライ: 手動リトライと自動リトライの回数。リトライ回数 = 実行回数 - 1。
実行時間: インスタンスが実行された合計時間。列名の横にあるアイコンをクリックすると、実行時間で昇順または降順にソートできます。
説明
論理テーブルノードの実行時間は、最も早い内部マテリアライズノードの開始時刻と最も遅い内部マテリアライズノードの終了時刻の差です。
優先度: インスタンスの優先度レベル。
説明
ベースライン機能が有効な場合、ベースラインタスクの優先度は、そのすべてのベースラインの中で最も高い優先度になります。これは、タスクに設定された元の優先度をオーバーライドします。
プロジェクト: タスクが属するプロジェクト。プロジェクトは プロジェクト英語名 (プロジェクト中国語名) のフォーマットで表示されます。
関連ベースラインインスタンス: ノードが保証するベースライン、およびこのノードを先祖ノードとして持つ関連ベースライン。
説明
ベースライン機能が無効な場合、このフィールドは表示されません。
HTTP パス：選択した本番環境または開発環境に基づいて、この列には Databricks SQL インスタンスの本番または開発 HTTP パスが表示されます。
説明
この列は Databricks SQL インスタンスに対してのみ表示されます。他のタイプのタスクでは、ハイフン (-) が表示されます。
リソースグループ: インスタンスが実行時に使用するスケジュールリソースグループの名前。
タスクに指定されたカスタムリソースグループがアクティブでない場合、プロジェクトのデフォルトリソースグループが使用されます。プロジェクトのデフォルトリソースグループもアクティブでない場合、テナントのデフォルトリソースグループが使用されます。優先順位は、カスタムリソースグループ > プロジェクトのデフォルトリソースグループ > テナントのデフォルトリソースグループです。
説明
プロジェクトのデフォルトリソースグループを変更した場合、その変更は UI にすぐに反映されないことがあります。ただし、変更されたリソースグループは次の実行で使用されます。
テナントのデフォルトリソースグループ：このリソースグループはどのプロジェクトにも属しません。各テナントには、デフォルトのリソースグループが 1 つだけあります。タスクにカスタムリソースグループが指定されていない場合、またはプロジェクトにプロジェクトのデフォルトリソースグループが指定されていない場合に、タスクのスケジュールに使用されます。これは、排他リソースタスクにのみ適用され、SQL タスクや仮想タスクなどのタスクタイプは除外されます。

次の表に、統合およびコンピューティングタスクインスタンスリストでサポートされる操作を示します。

操作	説明
DAG	アイコンをクリックして、定期インスタンスの有向非巡回グラフ (DAG) を表示します。詳細については、「定期インスタンスの DAG」をご参照ください。
操作ログの表示	アイコンをクリックして、定期インスタンスの操作ログを表示します。操作ログはインスタンスタイプによって異なります。実際の操作ログが優先されます。
再実行	アイコンをクリックして、定期インスタンスを再実行します。成功または失敗した統合およびコンピューティングタスクインスタンスのみを再実行できます。インスタンスを再実行すると、システムはすべての先祖ノードが成功したかどうかを確認します。チェックが失敗した場合、現在のインスタンスのステータスは [未実行] に設定されます。ビジネスシナリオで再実行が必要な場合は、強制的に再実行できます。
ガントチャートの表示	アイコンをクリックし、[ガントチャートの表示] を選択します。[ガントチャートの表示] ダイアログボックスで、次のパラメーターを設定します。選択したノードを次のように設定: 現在のノードを [開始ノード] または [終了ノード] として設定します。開始ノードを選択した場合、現在のノードが開始ノードフィールドでデフォルトで選択され、変更できません。終了ノードを選択した場合も同じルールが適用されます。開始ノード: ガントチャートの開始ノードを選択します。キーワードでノードを検索できます。リスト内のノードは `{ノード名}({ノード ID, {インスタンスのスケジュール実行時間}})` のフォーマットで表示されます。選択したノードを終了ノードとして設定した場合、開始ノードはデフォルトでテナントのルートノードになります。説明時間単位および分単位のタスクには複数のノードがあります。各インスタンスがノードです。ノードはインスタンスのスケジュール実行時間によって区別されます。終了ノード: ガントチャートの終了ノードを選択します。キーワードでノードを検索できます。リスト内のノードは `{ノード名}({ノード ID, {インスタンスのスケジュール実行時間}})` のフォーマットで表示されます。説明論理テーブルを終了ノードとして選択した場合、論理テーブルは全体として扱われるため、フィールドを選択することはできません。ガントチャートの詳細については、「クリティカルパスのガントチャートを表示する」をご参照ください。
先祖ノードと子孫ノードのダウンロード	現在のノードの上流および下流ノードのリストをダウンロードします。リストにはすべての列 (表示されていないリスト項目を含む) が含まれます。 [先祖ノードと子孫ノードのダウンロード] をクリックします。[先祖ノードと子孫ノードのダウンロード] ダイアログボックスで、先祖ノードと子孫ノードのレイヤーを選択します。[レイヤー 1] から [レイヤー 10] または [無制限レイヤー] を選択でき、両方ともデフォルトはレイヤー 1 です。レイヤーを選択した後、[OK] をクリックして Excel ファイルをダウンロードします。ファイル名は `{task_name}_ancestor_and_descendant_nodes_{timestamp}.xlsx` です。
ノードコードの表示	アイコンをクリックし、[ノードコードの表示] を選択して現在のインスタンスのノードコードを表示します。Flink_SQL 統合およびコンピューティングタスクインスタンスの場合、クリックして論理コードと物理コードを切り替えることができます。論理コード: 作成したタスクコード。物理コード：Flink エンジンで実行できるコンパイル済みコードです。
定期タスク	アイコンをクリックし、[定期タスク] を選択して、現在のインスタンスが属する自動トリガータスクを表示します。
開発ノードの編集	アイコンをクリックし、[開発ノードの編集] を選択して、インスタンスの開発ページに移動します。このページで、インスタンスを変更できます。説明 Dev-Prod モードのプロジェクトでは、統合およびコンピューティングタスクインスタンスの開発ノードのみを編集できます。
本番ノードの表示	アイコンをクリックし、[本番ノードの編集] を選択して、インスタンスの本番ページに移動します。説明 Dev-Prod モードのプロジェクトでは、統合およびコンピューティングタスクインスタンスの開発ノードのみを表示できます。
ノードの編集	アイコンをクリックし、[ノードの編集] を選択します。インスタンスリストまたは DAG から、Basic プロジェクトに移動して、インスタンスを生成する統合またはコンピューティングタスクを編集します。説明 Basic モードのプロジェクトでは、統合およびコンピューティングタスクインスタンスのノードのみを編集できます。
ダウンストリームの再実行	アイコンをクリックし、[下流の再実行] を選択して、インスタンスの子孫ノードを再実行します。成功または失敗した統合およびコンピューティングタスクインスタンスの子孫ノードのみを再実行できます。待機中 (スケジュール時刻待ちまたはスケジュールリソース待ち) または実行中状態の子孫ノードは再実行できません。詳細については、「下流の再実行」をご参照ください。依存関係チェーン全体を再実行するには、下流インスタンスの強制再実行をお勧めします。詳細については、「下流インスタンスの強制再実行」をご参照ください。下流の再実行操作は、次のシナリオでよく使用されます: 現在のインスタンスノードのデータが更新された後、その子孫ノードのデータを同期する必要があります。インスタンスの子孫ノードの実行に失敗した後、子孫ノードを再実行する必要があります。
成功に設定 & 再開	アイコンをクリックし、[成功に設定して再開] を選択します。これにより、失敗または未実行のインスタンスのステータスが手動で [成功] に設定され、スケジューリングに参加できるようになります。[成功に設定して再開] をクリックし、[成功に設定して再開] 確認ダイアログボックスで [OK] をクリックします。
停止	アイコンをクリックし、[停止] を選択して実行中のインスタンスを停止します。インスタンスのステータスは [失敗] に変わります。インスタンスが停止すると、その子孫ノードは実行されません。説明成功、失敗、または未実行状態のインスタンスは停止できません。他の状態のインスタンスは停止できます。停止操作は、次のシナリオでよく使用されます: Dataphin のエラーまたは操作ミスにより、統合またはコンピューティングタスクインスタンスを停止する必要があります。統合またはコンピューティングタスクインスタンスが [実行中] 状態ですが、データが生成されません。インスタンスを手動で停止し、操作ログでエラーを確認できます。
強制再実行	アイコンをクリックし、[強制再実行] を選択します。次に、[現在のインスタンスを強制的に再実行] または [下流インスタンスを強制的に再実行] を選択します。現在のインスタンスを強制的に再実行: 強制再実行では、先祖ノードのステータスはチェックされません。すべての先祖ノードが成功していない場合、現在のインスタンスの再実行に失敗したり、データエラーが発生したりする可能性があります。注意して進めてください。現在の統合またはコンピューティングタスクインスタンスを強制的に再実行すると、インスタンスのデータが更新されます。下流インスタンスを強制的に再実行: この操作を実行すると、すべてのインスタンスが最初に [未実行] に設定されます。これにより、上流インスタンスの再実行中に下流インスタンスが実行されることで発生する可能性のあるデータの不整合を防ぎます。上流の依存関係とスケジュールされた実行時間のチェックは、開始ノードに対してのみスキップされます。子孫ノードは、引き続き依存関係ルールとインスタンストリガー条件に従う必要があります。詳細については、「下流インスタンスの強制再実行」をご参照ください。インスタンスのトリガー条件の詳細については、「依存関係と実行ルール」をご参照ください。重要強制再実行では、すべての上流インスタンスが正常に実行されたかどうか、または現在のインスタンスのスケジュールされた実行時間に達したかどうかはチェックされません。これにより、実行の失敗やデータ品質の問題が発生する可能性があります。続行する前に、操作が下流のデータに影響しないことを確認してください。
上流依存関係の削除	アイコンをクリックし、[上流依存関係の削除] を選択して、ステータスに関係なく、統合またはコンピューティングタスクインスタンスの上流依存関係を削除します。重要少なくとも 1 つの上流インスタンスを保持する必要があります。
一時停止	アイコンをクリックし、[一時停止] を選択して実行中のインスタンスを一時停止します。現在のインスタンスを一時停止しても、同じタスクの他のインスタンスには影響しません。インスタンスを一時停止すると、そのインスタンスとその子孫ノードはスケジュールされません。説明未実行、スケジュール時刻待ち、または調整済み状態のインスタンスのみを一時停止できます。一時停止操作は、リソースが限られている場合によく使用されます。優先度の低いインスタンスを一時停止して、優先度の高いタスクが最初に実行されるようにすることができます。
再開	アイコンをクリックし、[再開] を選択して一時停止中のインスタンスを再開します。インスタンスを再開すると、そのインスタンスとその子孫ノードは通常どおりスケジュールされます。
HTTP パスの変更	タスクの本番環境 HTTP パスを変更します。本番プロジェクトに対応するクラスターに設定されている任意の HTTP パスを選択できます。説明この操作は、本番環境で Databricks SQL タスクを選択した場合にのみサポートされます。
スケジュールリソースグループの変更	アイコンをクリックし、[スケジュールリソースグループの変更] を選択して、インスタンスが実行時に使用するスケジュールリソースグループを変更します。説明複数のプロジェクトからタスクを選択した場合、選択したすべてのプロジェクトに承認されているスケジュールリソースグループのみが一覧表示されます。バッチ設定を実行する前に、単一のプロジェクトでフィルター処理することをお勧めします。この変更は現在のインスタンスにのみ影響し、タスクの他のインスタンスには影響しません。
優先度の変更	アイコンをクリックし、[優先度の変更] を選択します。[優先度の変更] ダイアログボックスで、現在のタスクの優先度を変更します。[最高]、[高]、[中]、[低]、または [最低] を選択できます。

統合およびコンピューティングタスクインスタンスの DAG ノードでサポートされる操作

有向非巡回グラフ (DAG) は、インスタンスノードの上流および下流の依存関係を示します。上流および下流のインスタンスノードで O&M を実行することもできます。デフォルトでは、DAG にはメインノード (選択したノード) とその直接の先祖ノードおよび子孫ノードが表示されます。統合またはコンピューティングタスクインスタンスノードを選択して、インスタンスで O&M 操作を実行できます。

Dataphin は、異なるプロジェクト間のインスタンスノードの O&M をサポートしています。クロスプロジェクトインスタンスノードで O&M 操作を実行するには、インスタンスが存在するプロジェクトに対する必要な表示権限と操作権限が必要です。

DAG でサポートされる操作

操作	説明
親ノードの展開	DAG 内のメインノードの異なるレベルの依存ノードを展開します。
子ノードの展開	DAG 内のメインノードの異なるレベルの依存ノードを展開します。
タスクの表示	現在のインスタンスノードを生成するタスクノードの DAG に移動します。タスクノードの詳細、その上流および下流ノードに関する情報を表示し、タスクノードで O&M を実行できます。詳細については、自動トリガータスクをご参照ください。
操作ログの表示	インスタンスで実行された操作のログを表示します。

DAG ノードでサポートされる操作
DAG ノードにカーソルを合わせると、その名前、タイプ、スケジュールサイクル、オーナー、および説明が表示されます。DAG ノードでサポートされる操作は、インスタンスリストでサポートされる操作と同じです。詳細については、「統合およびコンピューティングタスクインスタンスリストでサポートされる操作」をご参照ください。

統合およびコンピューティングタスクインスタンスのバッチ操作

次の表に、定期統合およびコンピューティングタスクでサポートされるバッチ操作を示します。

操作	説明
再実行	成功または失敗状態のインスタンスのみを再実行できます。選択したインスタンスのいずれも成功または失敗状態でない場合、バッチ再実行操作はサポートされません。成功または失敗状態のインスタンスと他の状態のインスタンスを選択した場合、システムは成功または失敗状態のインスタンスのみを再実行します。
停止	成功、失敗、または未実行状態のインスタンスは停止できません。他の状態のインスタンスは停止できます。選択したすべてのインスタンスが成功、失敗、または未実行状態の場合、バッチ停止操作はサポートされません。これらの状態のインスタンスと他の状態のインスタンスを選択した場合、システムは成功、失敗、または未実行状態のインスタンスを停止しません。
成功に設定して再開	複数のインスタンスを選択して、失敗または未実行のインスタンスのステータスをバッチで [成功] に手動で設定します。これにより、それらがスケジューリングに参加できるようになります。
一時停止	未実行、スケジュール時刻待ち、または調整済み状態のインスタンスのみを一時停止できます。選択したインスタンスのいずれも未実行、スケジュール時刻待ち、または調整済み状態でない場合、バッチ一時停止操作はサポートされません。これらの状態のインスタンスと他の状態のインスタンスを選択した場合、システムは未実行、スケジュール時刻待ち、または調整済み状態のインスタンスのみを一時停止します。
再開	一時停止中の定期インスタンスをバッチで再開します。
[HTTP パスの変更]	複数の Databricks SQL インスタンスの本番環境 HTTP パスを変更します。選択した Databricks SQL インスタンスが異なる Databricks クラスターに属している場合は、各クラスターに HTTP パスを指定します。対応するクラスターに設定されている任意の HTTP パスを選択できます。説明この操作は、本番環境で Databricks SQL インスタンスを選択した場合にのみサポートされます。
スケジュールリソースグループの変更	インスタンスが実行時に使用するスケジュールリソースグループを変更します。説明スケジュールリソースグループは、本番環境プロジェクトのインスタンスに対してのみ変更できます。この変更は現在のインスタンスにのみ影響し、タスクの他のインスタンスには影響しません。
優先度の変更	選択したインスタンスの優先度をバッチで変更します。[最高]、[高]、[中]、[低]、または [最低] を選択できます。
すべてダウンロード	統合、コンピューティング、モデリングタスクインスタンスを含むすべての定期インスタンスのデータをコンピューターにダウンロードします。ダウンロードされたファイルは .xlsx 形式です。ファイル名は `Dataphin_recurring_instance_{timestamp}.xlsx` 形式です。テーブルには次の情報が含まれます: インスタンスオブジェクト、インスタンス ID、ステータス、スケジュールサイクル、データタイムスタンプ、優先度、オーナー、プロジェクト (論理集計テーブルが複数のプロジェクトに属する場合、プロジェクト名はカンマ (`, `) で区切られます)、スケジュール実行時間、開始時刻、終了時刻、実行時間、リトライ/自動リトライ、関連ベースラインインスタンス (インスタンスが複数のベースラインに関連付けられている場合、ベースライン名はカンマ (`, `) で区切られます)、およびスケジュールリソースグループ (このパラメーターはモデリングタスクインスタンスでは空です)。

ダウンストリームの再実行

[ダウンストリームの再実行] ダイアログボックスで、パラメーターを構成します。

説明

待機中または実行中ステータスの子孫ノードは再実行できません。依存関係チェーン全体を再実行するには、下流インスタンスの強制再実行をお勧めします。詳細については、「下流インスタンスの強制再実行」をご参照ください。

パラメーター

説明

開始ノード実行モード

開始ノードの実行モードを定義します。ドライランまたは通常実行を選択できます。

ドライラン：ドライランインスタンスのステータスは [成功 (通常)] です。操作ログは空で、実行時間は記録されず、データは処理されません。
通常実行: インスタンスは通常どおりスケジュールされます。

ダウンストリーム再実行範囲

再実行する子孫ノードの範囲を選択します。

すべての失敗したインスタンス: 子孫ノードのリストは表示されません。システムは、失敗したすべての子孫インスタンスを自動的に選択して再実行します。
カスタム: 再実行する子孫インスタンスを指定する場合は、このオプションを選択します。名前または ID でノードを検索したり、ステータス、オーナー、またはプロジェクトでフィルター処理したりできます。

[OK] をクリックします。
下流ノードを再実行すると、子孫インスタンスのデータが更新されます。

下流インスタンスの強制再実行

[下流の強制再実行] ダイアログボックスで、再実行パラメーターを設定します。

パラメーター

説明

開始ノード実行モード

開始ノードの実行モードを定義します。ドライランまたは通常実行を選択できます。

ドライラン：ドライランインスタンスのステータスは [成功 (通常)] です。操作ログは空で、実行時間は記録されず、データは処理されません。
通常実行: インスタンスは通常どおりスケジュールされます。

ダウンストリーム強制再実行範囲

強制的に再実行する子孫ノードの範囲を選択します。

すべてのインスタンス: 開始ノードのすべての子孫インスタンスノードを選択します。
カスタム: 再実行する子孫インスタンスを指定する場合は、このオプションを選択します。名前または ID でノードを検索したり、ステータス、オーナー、またはプロジェクトでフィルター処理したりできます。

[OK] をクリックします。