MaxCompute作業營運功能支援查看歷史作業和正在啟動並執行作業,便於瞭解作業運行詳情並分析作業運行時的資源負載情況,並對作業進行營運管理。
功能介紹
MaxCompute的作業營運功能支援查看並營運當前專案下歷史作業和正在啟動並執行作業。
對於資料開發人員,作業營運功能便於日常查看作業詳情,及時發現作業的異常情況和問題,對有問題的作業及時進行處理,例如終止或批量終止作業。
對於管理員,作業營運功能便於日常結合配額組查看某時刻的資源負載,合理分配和管理系統資源,提高作業的執行效率和效能。
可以在MaxCompute管理主控台左側導覽列,選擇工作區 > 作業營運。在作業營運頁面通過配置過濾條件式篩選目標作業,實現查看作業詳情、分析作業等功能。具體功能如下:
操作功能
過濾作業
按照過濾參數對作業進行過濾,篩選出希望查看的作業,過濾作業參數說明如下。
排序作業
作業篩選結果預設按作業結束時間從高到低排序,未結束的作業會排在最前。支援普通單列排序和進階多列排序。
普通單列排序:對列表中有排序按鈕的列進行升序或降序排列。
進階多列排序:單擊列表右上方的進階排序按鈕,通過添加排序增加多列列名,並指定每列的排序方式為升序或降序,單擊確定實現多列排序。
說明進階排序條件生效時,無法進行普通單列排序,需單擊列表右上方的進階排序按鈕,單擊重設並確定後,方可再進行普通單列排序。
查看作業詳情
您可以在作業列表,單擊目標作業操作列的LogView跳轉至LogView頁面,查看作業啟動並執行狀態、細節及結果。
終止作業
您可以對最新狀態為
正在運行(Running)狀態的作業,執行終止或批量終止操作。洞察作業
您可以對單個作業執行洞察操作,以查看作業概覽資訊、資源消耗情況及某時刻計算Quota的資源分派情況,並觸發作業智能診斷操作。
說明當前僅支援對SQL作業進行智能診斷。
運行時間長度小於2分鐘或作業類型為SQL、MapReduce、Spark、Mars以外的作業,暫時沒有作業層級資源消耗資料。
作業統計圖
根據過濾條件式篩選的結果,按時間和狀態繪製作業數統計堆疊直條圖,方便您查看作業運行整體情況。
作業列表
作業列表即根據過濾條件式篩選的作業結果,主要提供常用的作業資訊方便您進行作業營運。MaxCompute分別提供普通列表和快照列表,用於不同情境的作業資訊擷取:
普通列表:用於查看一段時間內的所有作業資訊。
快照列表:用於查看某一時刻正在啟動並執行作業快照資訊,包括快照狀態,以及在快照時間點的CPU、記憶體使用量和請求量及佔比。
目前已知如下作業資訊無法採集:
作業快照資料是三分鐘採集一次,因此有些作業快照資料擷取不到,即在採集前三分鐘以內啟動的作業,採集不到快照資料。
通過PAI發起的部分MaxCompute作業(特別是RAM使用者發起的作業)暫時採集不到。
開發人員版(即將停用)專案的作業採集不到。
由於資料處理有一定的頻率,當查看當前時刻的作業列表時,可能會出現一些作業目前狀態為Running但LogView裡看作業已經結束,特別是執行時間非常短的作業容易出現此情況,請以LogView裡看到的最新狀態為準。
普通列表
參數說明:
列名稱 | 說明 |
Instance ID | 每個MaxCompute作業都會產生一個Instance,每個Instance又會產生一個對應的Instance ID。同時顯示該作業所屬專案、計算Quota、類型資訊。 說明
|
最新狀態 | 作業當前最新狀態。 |
作業Owner | 運行MaxCompute作業的阿里雲帳號。 您可以根據帳號資訊找到作業所屬責任人。如果某個作業佔用資源較多,影響其他任務運行,可以聯絡對應責任人停止作業。停止作業的方法請參見執行個體操作。 |
優先順序 | 每個作業都有優先順序(Priority),取值為0~9,數值越小,表示優先順序越高。高優先順序作業會先於低優先順序作業擷取計算資源,具體說明請作業優先順序。 |
提交時間 | Instance的提交時間。 |
開始已耗用時間 | 作業擷取第一份計算資源的時間。對於已耗用時間過短或不消耗計算資源(如DDL語句)的作業,以作業提交時間替代。預設不顯示,可單擊自訂欄表選項設定顯示。 |
等待時間長度 | 作業從提交時間到開始已耗用時間的時間長度。預設不顯示,可單擊自訂欄表選項設定顯示。 |
運行時間長度 | 作業從開始已耗用時間到結束已耗用時間的時間長度。預設不顯示,可單擊自訂欄表選項設定顯示。 |
結束已耗用時間 | Instance運行結束時間。 |
總運行時間長度 | 作業從提交時間到結束時間總時間長度。 |
CPU累計使用量 | 作業整個執行過程的CPU消耗總和,單位: |
記憶體累計使用量 | 作業整個執行過程的記憶體消耗總和,單位: |
掃描量 | 作業的計算輸入資料量。 |
智能診斷 | 根據作業智能診斷得出結果後所產生的標籤。 |
ExtPlantFrom | 作業發起的用戶端。 例如DataWorks,需要發起端發起作業的時候主動傳入資訊。 |
ExtNodeId | 作業發起端對應的任務ID。 例如DataWorks的節點ID,需要發起端發起作業的時候主動傳入資訊。 |
ExtNodeOnDuty | 作業發起端對應的任務負責人帳號ID。 例如DataWorks的節點負責人,需要發起端發起作業的時候主動傳入資訊。 |
Signature | SQL作業簽名。 可通過此簽名尋找SQL每次執行的Instances。 |
快照列表
參數說明:
列名稱 | 參數說明 |
Instance ID | 每個MaxCompute作業都會產生一個Instance,每個Instance又會產生一個對應的Instance ID。同時顯示該作業所屬專案、計算Quota、類型資訊。 說明 您可以單擊InstanceID對應操作列的LogView跳轉至LogView頁面,查看作業的具體進度。查看LogView的方法,請參見使用Logview 2.0查看作業運行資訊。 您也可以單擊InstanceID對應操作列的洞察跳轉至作業洞察頁面,查看作業的診斷結果、資源消耗及相似作業資訊,具體請參見作業洞察。 |
快照時間 | 作業快照資訊採集的時間。 |
快照狀態 | 作業在快照採集時刻的狀態。 |
作業Owner | 運行MaxCompute作業的阿里雲帳號。 您可以根據帳號資訊找到作業所屬責任人。如果某個作業佔用資源較多,影響其他任務運行,可以聯絡對應責任人停止作業。停止作業的方法請參見執行個體操作。 |
優先順序 | 每個作業都有優先順序(Priority),取值為0~9,數值越小,表示優先順序越高。高優先順序作業會先於低優先順序作業擷取計算資源,具體說明請作業優先順序。 |
CPU使用量 | 作業在快照時間點的 CPU 使用量。單位:Core。 |
CPU請求量 | 作業在快照時間點的 CPU 請求量。單位:Core。 |
CPU滿足率 | 作業在快照時間點的CPU使用量/CPU請求量。 |
CPU使用佔比快照 | 作業在觀測時刻的CPU使用佔比( |
記憶體使用量量 | 作業在快照時間點的記憶體使用量量。單位自適應展示。 |
記憶體請求量 | 作業在快照時間點的記憶體請求量。單位自適應展示。 |
記憶體滿足率 | 作業在快照時間點的記憶體使用量量/記憶體請求量。 |
記憶體使用量佔比快照 | 作業在觀測時刻的記憶體使用量佔比( |
提交時間 | Instance的提交時間。 |
總運行時間長度 | 作業從提交時間到快照時間總時間長度。 |
ExtPlantFrom | 作業發起的用戶端。 例如DataWorks,需要發起端發起作業的時候主動傳入資訊。 |
ExtNodeId | 作業發起端對應的任務ID。 例如DataWorks的節點ID,需要發起端發起作業的時候主動傳入資訊。 |
ExtNodeOnDuty | 作業發起端對應的任務負責人帳號ID。 例如DataWorks的節點負責人,需要發起端發起作業的時候主動傳入資訊。 |
Signature | SQL作業簽名。 可通過此簽名尋找SQL每次執行的Instances。 |
常用營運情境樣本
查看具體作業運行詳情
營運情境
需要查看某個DataWorks小時調度節點發起的作業運行情況或需要審計指定的MaxCompute作業。
操作步驟
登入MaxCompute控制台,在左側導覽列,選擇工作區 > 作業營運。
根據實際需要設定時間範圍。
單擊搜尋。
在作業列表上方,選擇ExtNodeId或Instance ID參數,填入作業的實際值。
單擊
按鈕,對作業列表再次過濾。可以在查詢結果清單中,單擊目標Instance操作列的LogView,跳轉至LogView頁面,查看作業運行詳細資料。更多LogView資訊請參見使用LogView 2.0查看作業運行資訊。
查看某個時段的作業運行詳情
營運情境
需要查看負責的Project_1、Project_2兩個專案最近一天執行的作業,並分析哪些作業執行失敗,以便處理失敗作業。
操作步驟
登入MaxCompute控制台,在左側導覽列,選擇工作區 > 作業營運。
設定時間範圍為1d或設定時間範圍為從這一天
00:00:00開始到目前時間。在專案選擇下拉式清單選擇Project_1和Project_2。
可以在查詢結果清單中,單擊目標Instance操作列的LogView,跳轉至LogView頁面,查看作業運行詳細資料。更多LogView資訊請參見使用LogView 2.0查看作業運行資訊。
查看訂用帳戶Quota某個時間點作業佔用資源情況
營運情境
當預付費預設Quota這個Quota當前資源使用的水位很滿,很多作業在等待時,需要查看佔用Quota資源的具體作業。
操作步驟
登入MaxCompute控制台,在左側導覽列,選擇工作區 > 作業營運。
設定時間範圍為1h或自訂
開始時間,結束時間即觀測時間輸入當前的時間。設定Quota選擇參數為
預付費預設Quota。單擊搜尋。
可以在查詢結果清單中,查看最新狀態為
Running作業的CPU使用佔比快照和記憶體使用量佔比快照,可以查看佔比最大的作業是否滿足業務情況,並通過其他作業資訊輔助決定該作業是否為正常作業或者需要終止(kill)作業。說明每個作業的更多作業資訊可以單擊目標Instance操作列的LogView,跳轉至LogView頁面,查看作業運行詳細資料。更多LogView資訊請參見使用LogView 2.0查看作業運行資訊。
查看查詢加速作業運行詳情
營運情境
需要查看最近一天查詢加速作業的運行狀態和詳情。
操作步驟
登入MaxCompute控制台,在左側導覽列,選擇工作區 > 作業營運。
設定時間範圍為1d,作業類型選擇SQLRT(查詢加速)。
單擊搜尋。
在作業列表查看作業基礎資訊,每個作業的更多作業資訊可以單擊目標Instance操作列的LogView,跳轉至LogView頁面,查看作業運行詳細資料。更多LogView資訊請參見使用LogView 2.0查看作業運行資訊。
說明使用查詢加速功能的作業,會出現多個SQL命令在同一個會話(Session)中執行的情況,一個會話對應一個Instance ID,您可以通過Instance ID對應的LogView查看該會話中所有SQL的運行情況。因此在作業營運頁面查看查詢加速作業時,您需要注意:
會話未退出時,即部分SQL已完成,部分SQL還在運行,作業的最新狀態為
Running。會話到期退出或因為關閉介面退出時,作業的最新狀態為
Cancelled。
查看作業資源消耗情況及某時刻計算Quota的資源分派情況
營運情境
當遇到作業運行較長時間仍未結束且通過LogView難以定位原因時,或在作業運行結束後,發現作業運行時間長度較慢達不到預期時,分析是否由於資源供給問題導致。
操作步驟
登入MaxCompute控制台,在左側導覽列,選擇工作區 > 作業營運。
選擇時間範圍同時配合Quota選擇參數過濾,單擊搜尋。
單擊目標Instance ID操作列的洞察,跳轉至作業洞察頁面。
在資源消耗頁簽查看作業生命週期內的資源消耗情況。
資源消耗圖展示作業層級的使用CU與等待CU隨時間的變化曲線圖,以及作業啟動並執行Quota層級的使用CU與等待CU隨時間變化。若發現作業使用CU較低,而Quota層級使用CU較高,甚至持續達到上限,說明Quota資源緊張,有其他作業在與當前作業搶佔計算資源。
您可以通過單擊資源消耗圖橫軸的時間點,查看對應時刻計算Quota層級的資源分派情況,具體為所有運行中、等待中的資源分派給的作業數量與優先順序分布,您可以單擊目標優先順序對應的色塊跳轉至作業列表,查看對應作業的詳細資料。以此判斷出具體是哪些作業在與當前作業搶佔計算資源。您可以依據業務情況最佳化任務執行情況,進行作業優先順序調整或計算資源管理,詳情請參見作業優先順序或計算資源-Quota管理。
下一步
如果某個作業資源使用佔比一直很高且還有很多作業在等待,可以採取以下措施:
如果此作業不符合業務情況,可以執行終止作業操作。
如果此作業符合業務情況,說明此時Quota資源配置不合理,需要最佳化資源配置方案,詳情請參見計算資源配置最佳化。
相關文檔
通過命令查看作業資訊、狀態和停止作業等操作,請參見執行個體操作。