タスクインスタンスの実行が失敗した場合、または予定より遅れて完了した場合、インテリジェント診断は、インスタンスが実行を開始する前に満たす必要がある 4 つの条件(上流依存関係、スケジュール時刻、リソース可用性、実行)を順に確認し、障害が発生した正確な箇所を特定します。また、失敗したインスタンスについては、組み込みの AI 分析機能がエラーログを解析し、対応策を提案します。
制限事項
-
インテリジェント診断は DataWorks Professional Edition 以上でご利用いただけます。それ以外のエディションをご利用の場合、本機能を無料で試用できます。フル機能をご利用いただくには、Professional Edition へアップグレードしてください。詳細については、「DataWorks の各エディションの違い」をご参照ください。
-
インテリジェント診断は、以下のリージョンでご利用いただけます:中国 (杭州)、中国 (上海)、中国 (北京)、中国 (張家口)、中国 (深セン)、中国 (香港)、日本 (東京)、シンガポール、マレーシア (クアラルンプール)、インドネシア (ジャカルタ)、ドイツ (フランクフルト)、米国 (シリコンバレー)、米国 (バージニア)、UAE (ドバイ)。
仕組み
インテリジェント診断では、タスクインスタンスを以下の 4 つの観点から分析します:
-
実行詳細:祖先インスタンスが正常に完了したか、スケジュール時刻が到来したか、スケジューリングリソースが利用可能か、および当該インスタンス自体がエラーなく実行されたかを順次確認します。
-
一般情報:当該インスタンスの主要なタイムスタンプおよび基本的なスケジューリングプロパティを表示します。
-
影響を受けるベースライン:当該タスクを監視対象として含むベースラインと、それぞれの現在のステータスを表示します。
-
履歴インスタンス:実行時間、開始時刻、リソース待機時間、完了時刻の過去 15 日間の傾向を表示します。
オープンインテリジェント診断
前提条件
開始する前に、以下の条件を満たしていることをご確認ください:
-
DataWorks Professional Edition 以上のワークスペースへのアクセス権限があること
オペレーションセンターに移動するには、次の手順を実行します:
-
DataWorks コンソール にログインします。画面上部のナビゲーションバーから、対象リージョンを選択します。
-
左側のナビゲーションウィンドウで、データ開発および O&M > オペレーションセンター を選択します。
-
ドロップダウンリストから対象のワークスペースを選択し、オペレーションセンターへ移動 をクリックします。
診断ページへの移動
オペレーションセンターから、以下のいずれかの方法で インテリジェント診断 ページを開きます:
オプション 1:インスタンス一覧からの起動
-
左側のナビゲーションウィンドウで、自動トリガー型ノード O&M > 自動トリガー型インスタンス を選択します。
-
インスタンスの視点 タブで、対象のインスタンスを検索します。
-
診断の実行 を、操作 列からクリックします。
オプション 2:DAG ページからの起動
-
左側のナビゲーションウィンドウで、自動トリガー型ノード O&M > 自動トリガー型インスタンス を選択します。
-
インスタンスの視点 タブで、対象のインスタンスを検索し、DAG を、操作 列からクリックします。
-
DAG ページで、対象インスタンスを右クリックし、インスタンス診断 を選択します。
オプション 3:インスタンス ID による検索
左側のナビゲーションウィンドウで、O&M アシスタント > インテリジェント診断 を選択し、インスタンス ID のみを指定してインスタンスを検索します。
インスタンスの診断
実行詳細タブ
実行詳細 タブでは、インスタンスが実行を開始する前に満たす必要がある 4 つの条件を順に確認します。DataWorks はこれらのチェックを順次実行します。
上流ノード
祖先インスタンスのステータスを表示します。祖先インスタンスの実行が失敗した場合、当該インスタンスはブロックされます。
失敗した祖先インスタンスを診断するには、そのインスタンスの インスタンス診断 を、操作 列からクリックします。
ヒント: 上流依存関係チェーンが複雑で、複数の祖先インスタンスが未完了である場合、DAG ページの 上流分析 タブにある 上流分析
タイミングチェック
当該インスタンスのスケジュール時刻が到来したかどうかを確認します。このチェックは、上流ノード のチェックが正常に完了した後にのみ実行されます。
DataStudio ページでタスクのスケジューリングプロパティを設定する際、スケジューリングシステムでタスクを実行する時刻を指定する必要があります。ただし、祖先タスクの失敗などの問題により、タスクの実際の開始時刻がスケジュール時刻より遅れる場合があります。
リソース
当該インスタンスに割り当てられたスケジューリングリソースグループのリソース使用状況を表示します。このチェックが失敗した場合、スケジューリングリソースがすべて占有されており、インスタンスはリソースが解放されるまで待機します。
| セクション | 説明 |
|---|---|
| スケジューリングリソース情報 | リソースグループ名、そのリソースグループ上で実行中のインスタンス数、および待機中のインスタンス数 |
| 診断結果 | 当該インスタンスの実行ステータス |
| リソース使用量の傾向 | リソースグループの時間帯別リソース使用量。共有リソースグループの場合は、インスタンスの待機時間が併記されます |
リソース競合を軽減するには、サーバーレスリソースグループ をご活用ください。共有リソースグループをご利用の場合、毎日 00:00~09:00 がピーク需要時間帯となります。待機時間を短縮するため、この時間帯を避けてタスクをスケジュールすることを推奨します。
実行
当該インスタンスの実行ログ、データ品質 (DQ) モニタリングルールの詳細、およびノードコードを表示します。失敗したインスタンスについては、インテリジェント診断 タブで、大規模言語モデル (LLM) を用いてエラーログを分析し、修正案を提示します。
| タブ | 説明 |
|---|---|
| ログ | 当該インスタンスの完全な実行ログです。EMR ノードの場合は、EMR Web UI の URL をクリックして EMR リソースの詳細を表示できます。右下隅の インテリジェント診断 をクリックすると、AI 分析タブに直接移動します。 |
| インテリジェント診断 | 大規模言語モデル Tongyi Qianwen、DeepSeek、または DW Knowledge Base を用いてエラーログを分析します。Tongyi Qianwen および DeepSeek はエラーログを解析し、修正案を含む分析結果を生成します。DW Knowledge Base は関連するナレッジベース記事を提示します。 |
| DQC | データ品質モニタリングルールの詳細です。タスクに関連付けられた DQ ルールがある場合、タスク実行後に自動的にトリガーされます。 |
| コード詳細 | 当該インスタンスを生成したノードのコードです。 |
AI 分析結果を確認した後、インテリジェント診断 タブから直接以下の操作を実行できます:インスタンスのコード編集、インスタンスの再実行、インスタンスステータスを「成功」に設定、スケジューリングまたはデータ統合用のリソースグループ変更、チケットの送信、テーブル権限の申請。
一般情報タブ
一般情報 タブでは、当該インスタンスの主要なタイムスタンプおよび基本的なスケジューリングプロパティを表示します。スケジューリングプロパティの詳細については、「基本プロパティの設定」をご参照ください。
インパクトベースラインタブ
影響を受けるベースライン タブでは、当該タスクを監視対象として含むベースラインと、それぞれの現在のステータスを表示します。ベースラインの詳細については、「概要」をご参照ください。
履歴インスタンスタブ
履歴インスタンス タブでは、当該ノードの過去 15 日間の傾向および履歴実行一覧を表示します。
傾向チャート
傾向チャートでは、当該ノードの直近 15 日間における以下のメトリックを表示します:
| チャート | 説明 |
|---|---|
| 実行時間 | 当該ノードの実行時間の傾向 |
| 実行開始時刻 | 当該ノードの実行開始時刻の傾向 |
| スケジューリングリソース待機時間の消費 | 当該ノードのリソース待機時間の傾向 |
| 完了時刻 | 当該ノードの完了時刻の傾向 |
履歴インスタンス一覧
一覧には、過去 15 日間の各インスタンスの開始時刻、完了時刻、実行時間、およびリソース待機時間が表示されます。インスタンス診断 を、操作 列からクリックすると、任意の履歴インスタンスの診断ページを開けます。