全部產品
Search
文件中心

Dataphin:執行個體運行診斷

更新時間:Jan 25, 2025

周期執行個體或補資料執行個體實際運行時,除受執行個體的定時已耗用時間影響外,還受多方因素影響。例如,上遊執行個體任務的運行狀態是否成功、所剩資源是否滿足執行個體運行、執行個體是否命中限流規則等。為此,Dataphin提供執行個體運行診斷功能,對執行個體的運行流程及整體鏈路進行分析,當執行個體運行不符合預期時,您可以使用該功能快速定位問題。

使用限制

  • 僅支援離線周期執行個體和補資料執行個體(包括指令碼執行個體、明細及匯總表執行個體、萃取執行個體)的運行診斷,不支援即時執行個體(包括Realtime Compute和即時整合)、手動執行個體的運行診斷。

  • 明細及匯總表執行個體不支援欄位層級的分析,僅支援按照物化節點進行分析。

功能概述

在營運中心,執行個體的運行狀態按照不同的顏色及標識來辨識執行個體所處於運行流程中的哪個階段。您可通過執行個體運行狀態的顏色及標識,判斷執行個體啟動並執行階段或檢查執行個體未啟動並執行原因。執行個體運行狀態及執行個體運行流程如下:

運行狀態標識

標識描述

運行流程圖

test

未運行

image.png

test

等待調度時間

test

限流中

test

等待調度資源

test

運行中

test

成功

test

失敗

執行個體是否能成功運行,受其上遊依賴、調度時間、資源、執行個體本身運行情況等多方因素影響。當執行個體運行失敗或長時間處於一個運行狀態時,您可通過運行診斷功能,按照如下流程或基於以下維度對執行個體進行診斷分析:

檢查項

描述

上遊依賴

檢查上遊執行個體運行情況。上遊執行個體運行失敗時,將阻塞當前執行個體運行,您可以通過查看上遊依賴診斷結果進一步排查失敗原因。

定時時間

檢查是否已到達任務設定的定時已耗用時間。

限流規則

您可以查看當前執行個體命中的限流規則以及當前隊列中已下發的執行個體列表。

調度資源

您可以查看執行個體已等待調度資源的時間長度、以及當前佔用所在資源群組資源的全量執行個體列表,並根據診斷建議執行對應的操作。

執行個體執行

您可以查看執行個體運行結果以及執行日誌。

運行診斷入口

  1. 在Dataphin首頁的頂部功能表列中,選擇研發 > 任務營運

  2. 在左側導覽列中選擇執行個體營運 > 周期執行個體/補資料執行個體/手動執行個體

  3. 周期執行個體/補資料執行個體/手動執行個體頁面,單擊目標執行個體對象名稱,在右側DAG圖下方,單擊查看節點詳情

    下圖以周期執行個體頁面操作為例。image

  4. 在節點詳情頁面,單擊運行診斷頁簽。

上遊依賴

上遊依賴診斷為您展示執行個體最近1次運行診斷結果及上遊執行個體當前最新的狀態,只有上遊全部運行成功才會進入下一步檢查,您可以通過查看上遊依賴診斷結果進一步排查失敗原因。最近1次運行已經通過上遊依賴診斷的執行個體不會重新進行診斷,如果需要重新整理最近1次運行結果或上遊執行個體狀態,可以單擊重新整理重新整理表徵圖。

  • 如果執行個體最近1次運行結果為成功,且非強制重跑,則診斷結果為通過

    功能

    描述

    最近一次運行

    展示運行狀態和運行通過時間。

    說明

    僅全部上遊執行個體的運行狀態均為成功時,當前執行個體才會開始調度。

    當前診斷結果

    展示診斷結果。

    • 調度類型:包含空跑運行正常運行暫停運行。當前執行個體為暫停運行時,需先恢複調度才能開始運行。

    • 起始阻斷節點:展示導致當前節點無法開始啟動並執行最上層節點。上遊診斷通過的執行個體無起始阻斷節點。

    • 直接上遊列表:展示直接上遊列表。支援按照節點名稱、節點ID、執行個體ID進行搜尋,同時支援按照運行狀態負責人進行篩選。

  • 如果執行個體未開始運行且非暫停調度,則診斷結果的調度類型為正常運行。您可以根據提示,重點關注起始阻斷節點,通過調整阻斷節點的運行,使當前節點恢複運行。僅全部上遊執行個體的運行狀態均為成功時,當前執行個體才會開始調度。

  • 如果執行個體當前為暫停運行狀態,則不會繼續進行診斷,診斷結果為暫停運行

  • 強制重跑的執行個體不會校正上遊是否全部運行成功,如果執行個體最近1次運行強制重跑,則診斷結果為跳過

定時時間

定時時間的診斷結果為每個執行個體的最近1次啟動並執行診斷結果。執行個體需要到達定時已耗用時間才會開始調度,否則會處於等待調度時間狀態。如需重新整理診斷結果,可單擊重新整理重新整理表徵圖。

  • 如果執行個體當前未到達設定的定時調度時間且非暫停調度,則診斷結果為等待調度時間。在確保不會對下遊資料品質產生影響的前提下,如需提前調度該執行個體,可執行強制重跑

  • 如果執行個體目前狀態為暫停運行且暫停調度,則診斷結果為暫停。如需運行,可單擊恢複調度

  • 如果執行個體最近1次運行已到達設定的定時調度時間且非強制重跑,則診斷結果為通過

  • 強制重跑的起始節點不校正是否到達定時時間,直接開始運行,跳過診斷。如果執行個體最近1次運行是強制重跑,則診斷結果為跳過

限流規則

如果您購買了智能營運增值功能,可配置限流規則。如何配置,請參見限流配置

所有執行個體運行都需要進行限流規則的診斷,上遊依賴及定時時間診斷通過後,需要同時滿足所有命中的限流規則才會下發到資源調度系統。如需重新整理診斷結果,可單擊重新整理重新整理表徵圖。

  • 如果執行個體最近1次運行滿足上遊依賴以及定時時間,且同時滿足所有命中的限流規則,則診斷結果為通過

  • 如果執行個體當前被限流等待下發且非暫停調度,則診斷結果為限流中,並展示當前已等待的時間長度。

    情境

    描述

    阻斷規則

    展示當前執行個體命中的限流規則名稱。您可以單擊目標限流規則名稱查看。

    已下發執行個體列表

    展示當前命中的限流規則隊列中已下發的執行個體,您可以根據執行個體名稱或ID搜尋或篩選已下發的執行個體。

  • 如果執行個體當前為暫停運行狀態且暫停調度,則診斷結果為暫停。此時需要恢複執行個體運行狀態,才能下發資源調度。

調度資源

共用運行資源的執行個體通常情況受調度資源影響較小,獨享運行資源的執行個體需要所屬資源群組有足夠可分配的空閑資源才會開始調度,否則為等待調度資源狀態。如需重新整理診斷結果,可單擊重新整理重新整理表徵圖。

  • 如果執行個體最近一次運行所屬資源群組有足夠可分配的空閑資源,且非暫停調度,則診斷結果為通過

  • 如果當前執行個體無足夠可分配的空閑調度資源,則診斷結果為等待調度資源。調度資源診斷頁面為您展示等待資源時間長度、診斷建議以及佔用資源執行個體列表。您可以根據頁面展示的診斷建議,結合佔用資源執行個體列表進行處理,以保證當前執行個體可獲得充足資源正常運行。

執行個體執行

到達執行環節的執行個體才會進入到執行個體執行診斷頁面,頁面中展示執行個體運行結果作業記錄。如果運行結果失敗,您可以根據作業記錄排查問題並處理。如需重新整理診斷結果,可單擊重新整理表徵圖進行重新整理。

可單擊開啟作業記錄,跳轉至作業記錄頁面。作業記錄中包含日誌資訊、異常資訊、效能診斷和異常代碼,其中效能診斷詳情請參見離線整合任務運行效能診斷