MaxCompute作業營運功能支援查看歷史作業和正在啟動並執行作業,便於瞭解作業運行詳情並分析作業運行時的資源負載情況,並對作業進行營運管理。
功能介紹
MaxCompute的作業營運功能支援查看並營運歷史作業和正在啟動並執行作業。
對於資料開發人員,作業營運功能便於日常查看作業詳情,及時發現作業的異常情況和問題,對有問題的作業及時進行處理,例如終止或批量終止作業。
對於管理員,作業營運功能便於日常結合配額組查看某時刻的資源負載,合理分配和管理系統資源,提高作業的執行效率和效能。
在MaxCompute控制台作业运维頁面,通過配置過濾條件式篩選目標作業,實現查看作業詳情、分析作業等功能。具體功能如下:
操作功能
篩選作業
按照參數篩選出希望查看的作業,支援篩選參數說明如下,詳情參考作業參數說明。
排序作業
作業篩選結果預設按作業結束時間從近到遠排序,未結束的作業會排在最前。支援普通單列排序和進階多列排序。
普通單列排序:對列表中有排序按鈕的列按升序或降序排列。
進階多列排序:單擊列表右上方的高级排序按鈕,通過添加排序增加多列列名,並指定每列的排序方式為升序或降序,單擊確定實現多列排序。
進階排序條件生效時,無法進行普通單列排序,需單擊列表右上方的高级排序按鈕,單擊重設並確定後,方可再進行普通單列排序。
查看作業詳情
在作業列表,單擊目標作業對應操作列的LogView跳轉至LogView頁面,查看作業啟動並執行狀態、細節及結果。
終止作業
對最新状态為
正在運行(Running)狀態的作業,執行終止或批量終止操作。洞察作業
在作業列表,單擊目標作業對應操作列的洞察,查看作業概覽資訊、資源消耗情況及某時刻計算Quota的資源分派情況,並觸發作業智能診斷操作。
當前僅支援對SQL作業進行智能診斷。
運行時間長度小於2分鐘或作業類型為SQL、MapReduce、Spark、Mars以外的作業,暫時沒有作業層級資源消耗資料。
作業統計圖
根據過濾條件式篩選的結果,按時間和狀態繪製作業數統計堆疊直條圖,便於查看作業運行整體情況。
選擇不同的时间范围,統計圖中每根柱形代表的時間長度不同:
时间范围在24小時內:每個柱形最小時間間隔是2分鐘,柱形個數自適應,最多24個。
时间范围大於24小時小於等於48小時:則固定每個柱形時間間隔為2小時,柱形個數為自適應,最多24個。
时间范围大於48小時小於等於7天:則每個柱形時間間隔為6小時,柱形個數為自適應,最多29個。
其中統計的作業狀態包含:
運行中:快照為Running狀態。
已結束:已經成功、失敗或被終止的狀態。
由於作業快照資料是每三分鐘採集一次,因此有些作業可能採集不到快照資料,因此即使是運行中的作業,快照狀態也可能為空白。
支援通過滑鼠拖選圖表進行時間範圍篩選,即把時間段縮短。
作業列表
作業列表即根據過濾條件式篩選的作業結果,提供常用的作業資訊。MaxCompute分別提供普通列表和快照列表,用於不同情境的作業資訊擷取。
普通列表:用於查看一段時間內的所有作業資訊。
快照列表:用於查看某一時刻正在啟動並執行作業快照資訊,包括快照狀態,以及在快照時間點的CPU、記憶體使用量量、請求量及佔比。
作業列表中展示的參數,詳情參考作業參數說明。
適用範圍
如下作業資訊目前無法採集:
作業快照資料每三分鐘採集一次,因此在採集前三分鐘以內啟動的作業,無法採集作業快照資料。
通過PAI發起的部分MaxCompute作業(特別是RAM使用者發起的作業)暫時無法採集。
開發人員版(即將停用)專案的作業無法採集。
由於資料處理有一定的頻率,當查看當前時刻的作業列表時,可能會出現一些目前狀態為Running但LogView裡已經結束的作業,特別是執行時間非常短的作業容易出現此情況,請以LogView裡看到的最新狀態為準。
參數說明
作業全域篩選參數
如下參數會影響作業統計圖和作業列表的展示情況。
參數 | 說明 |
时间范围 |
|
项目选择 | 按照MaxCompute專案名稱篩選。可以同時選擇多個MaxCompute專案。預設為空白。 |
Quota选择 |
|
作业类型 |
|
作業列表檢索參數
如下參數是對作業列表的搜尋結果二次檢索,僅影響作業列表。檢索位置如圖所示:

參數 | 說明 |
Instance ID |
|
作业Owner |
|
ExtNodeId |
|
ExtNodName | 按照運行MaxCompute作業的來源端作業Name檢索。 |
Signature | 按SQL作業簽名檢索。只有SQL類型作業可用。通過此簽名尋找同一個SQL每次執行的Instances。預設為空白。 |
作業清單項目篩選參數
如下參數是對作業列表的搜尋結果二次篩選,僅影響作業列表。單擊具體參數欄欄位名右側
篩選。
參數 | 說明 |
最新状态 |
|
优先级 |
|
智能诊断 |
|
普通列表參數說明
列名稱 | 說明 |
Instance ID | 每個MaxCompute作業都會產生一個Instance,每個Instance又會產生一個對應的Instance ID。同時顯示該作業所屬專案、計算Quota、類型資訊。
|
最新状态 | 作業當前最新狀態。 |
作业Owner | 運行MaxCompute作業的阿里雲帳號。 可以根據帳號資訊找到作業所屬責任人。如果某個作業佔用資源較多,影響其他任務運行,可以聯絡對應責任人停止作業。停止作業的方法請參見執行個體操作。 |
优先级 | 每個作業都有優先順序(Priority),取值為0~9,數值越小,表示優先順序越高。高優先順序作業會先於低優先順序作業擷取計算資源,具體說明請參考作業優先順序。 |
提交时间 | Instance的提交時間。 |
开始运行时间 | 作业拿到第一份计算资源的时间。对于运行时间过短或不消耗计算资源(如DDL语句)的作业,以作业提交时间替代。 預設不顯示,可單擊自訂欄表選項設定顯示。 |
等待时长 | 作业从提交时间到开始运行时间的时长。若暂无开始运行时间,则为提交时间到快照时间的时长。 預設不顯示,可單擊自訂欄表選項設定顯示。 |
运行时长 | 作业从开始运行时间到结束运行时间的时长。 預設不顯示,可單擊自訂欄表選項設定顯示。 |
结束运行时间 | 作业运行结束的时间。 |
总运行时长 | 作业从提交时间到结束运行时间的总时长。 |
CPU累计使用量 | 作業整個執行過程的CPU消耗總和,單位: |
内存累计使用量 | 作業整個執行過程的記憶體消耗總和,單位: |
CPU使用占比快照 | 为作业在时间范围-截止时间前1min采集到的最新的CPU使用占比(CPU使用量 / (预留CPU保障+弹性预留CPU))。按量计费作业无此信息,采集不到快照信息的作业也无此信息。不支持排序,如有排序需求请前往快照列表。 |
内存使用占比快照 | 为作业在时间范围-截止时间前1min采集到的最新的内存使用占比(内存使用量 / (预留内存保障+弹性预留内存))。按量计费作业无此信息,采集不到快照信息的作业也无此信息。不支持排序,如有排序需求请前往快照列表。 |
扫描量 | 作業的計算輸入資料量。 |
智能诊断 | 根據作業智能診斷得出結果後所產生的標籤。 |
ExtPlatformId | 作業發起的用戶端,例如DataWorks。 需要發起端發起作業的時候主動傳入資訊,傳入資訊約定可參考作業通用標識約定。 |
ExtNodeId | 作业发起端对应的任务ID,如DataWorks的调度节点 ID 需要發起端發起作業的時候主動傳入資訊,傳入資訊約定可參考作業通用標識約定。 |
ExtNodeName | 作业发起端对应的任务名称,如DataWorks的调度节点名称。 需要發起端發起作業的時候主動傳入資訊,傳入資訊約定可參考作業通用標識約定。 |
ExtNodeOnDuty | 作业发起端对应的任务负责人,如DataWorks调度节点负责人。 需要發起端發起作業的時候主動傳入資訊,傳入資訊約定可參考作業通用標識約定。 |
Signature | SQL作业签名,可通过此签名查找SQL每次执行的Instances。 |
快照列表參數說明
列名稱 | 參數說明 |
Instance ID | 每個MaxCompute作業都會產生一個Instance,每個Instance又會產生一個對應的Instance ID。同時顯示該作業所屬專案、計算Quota、類型資訊。
|
快照时间 | 此作业快照信息采集的时间。 |
快照状态 | 作业在快照时间的状态。 |
作业Owner | 運行MaxCompute作業的阿里雲帳號。 可以根據帳號資訊找到作業所屬責任人。如果某個作業佔用資源較多,影響其他任務運行,可以聯絡對應責任人停止作業。停止作業的方法請參見執行個體操作。 |
优先级 | 每個作業都有優先順序(Priority),取值為0~9,數值越小,表示優先順序越高。高優先順序作業會先於低優先順序作業擷取計算資源,具體說明請參考作業優先順序。 |
CPU使用量 | 作业在快照时间点的 CPU 使用量。单位:Core。 |
CPU请求量 | 作业在快照时间点的 CPU 请求量。单位:Core。 |
CPU满足率 | 作业在快照时间点的CPU使用量/CPU请求量。 |
CPU使用占比快照 | 为作业在时间范围-截止时间前1min采集到的最新的CPU使用占比(CPU使用量 / (预留CPU保障+弹性预留CPU))。按量计费作业无此信息,采集不到快照信息的作业也无此信息。不支持排序,如有排序需求请前往快照列表。 |
内存使用量 | 作业在快照时间点的内存量。 單位自適應展示。 |
内存请求量 | 作业在快照时间点的内存请求量。 單位自適應展示。 |
内存满足率 | 作业在快照时间点的内存使用量/内存请求量。 |
内存使用占比快照 | 作业在观测时刻的内存使用占比(内存使用量/(预留内存保障+弹性预留内存))。隨用隨付作業無此資訊,採集不到快照資訊的作業也無此資訊。 |
提交时间 | 作业提交的时间。 |
总运行时长 | 作业从提交时间到结束运行时间的总时长 |
ExtPlatformId | 作業發起的用戶端,例如DataWorks。 需要發起端發起作業的時候主動傳入資訊,傳入資訊約定可參考作業通用標識約定。 |
ExtNodeId | 作业发起端对应的任务ID,如DataWorks的调度节点 ID 需要發起端發起作業的時候主動傳入資訊,傳入資訊約定可參考作業通用標識約定。 |
ExtNodeOnDuty | 作业发起端对应的任务负责人,如DataWorks调度节点负责人。 需要發起端發起作業的時候主動傳入資訊,傳入資訊約定可參考作業通用標識約定。 |
Signature | SQL作业签名,可通过此签名查找SQL每次执行的Instances。 |
常用營運情境樣本
查看具體作業運行詳情
營運情境
需要查看某個DataWorks小時調度節點發起的作業運行情況或需要審計指定的MaxCompute作業。
操作步驟
登入MaxCompute控制台,在左上方選擇地區。
在左側導覽列,選擇。
在作业运维頁面,根據實際篩選时间范围,單擊搜索。
在作業列表上方,選擇ExtNodeId或Instance ID,填寫作業的實際值。
單擊
按鈕,對作業列表再次過濾。在查詢結果清單中,單擊目標Instance操作列的LogView,跳轉至LogView頁面,查看作業運行詳細資料。更多LogView資訊請參見使用LogView 2.0查看作業運行資訊。
查看某個時段的作業運行詳情
營運情境
需要查看負責的Project_1、Project_2兩個專案最近一天執行的作業,並分析哪些作業執行失敗,以便處理失敗作業。
操作步驟
登入MaxCompute控制台,在左上方選擇地區。
在左側導覽列,選擇。
設定时间范围為1d或設定时间范围為從這一天
00:00:00開始到目前時間。在项目选择下拉式清單選擇Project_1和Project_2。
在查詢結果清單中,單擊目標Instance操作列的LogView,跳轉至LogView頁面,查看作業運行詳細資料。更多LogView資訊請參見使用LogView 2.0查看作業運行資訊。
查看訂用帳戶Quota某個時間點作業佔用資源情況
營運情境
當預付費預設Quota這個Quota當前資源使用的水位很滿,很多作業在等待時,需要查看佔用Quota資源的具體作業。
操作步驟
登入MaxCompute控制台,在左上方選擇地區。
在左側導覽列,選擇。
設定时间范围為1h或自訂開始時間及結束時間。
設定Quota选择參數為
預付費預設Quota,單擊搜索。在查詢結果清單中,查看最新状态為
Running作業的CPU使用占比快照和内存使用占比快照,可以查看佔比最大的作業是否滿足業務情況,並通過其他作業資訊輔助決定該作業是否為正常作業或者需要終止(kill)作業。在查詢結果清單中,單擊目標Instance操作列的LogView,跳轉至LogView頁面,查看作業運行詳細資料。更多LogView資訊請參見使用LogView 2.0查看作業運行資訊。
查看查詢加速作業運行詳情
營運情境
需要查看最近一天查詢加速作業的運行狀態和詳情。
操作步驟
登入MaxCompute控制台,在左上方選擇地區。
在左側導覽列,選擇。
設定时间范围為1d,作业类型選擇SQLRT(查询加速),單擊搜索。
在查詢結果清單中,單擊目標Instance操作列的LogView,跳轉至LogView頁面,查看作業運行詳細資料。更多LogView資訊請參見使用LogView 2.0查看作業運行資訊。
使用查詢加速功能的作業,會出現多個SQL命令在同一個會話(Session)中執行的情況,一個會話對應一個Instance ID,可以通過Instance ID對應的LogView查看該會話中所有SQL的運行情況。因此在作业运维頁面查看查詢加速作業時,需要注意:
會話未退出時,即部分SQL已完成,部分SQL還在運行,作業的最新状态為
Running。會話到期退出或因為關閉介面退出時,作業的最新状态為
Cancelled。
查看作業資源消耗情況及某時刻計算Quota的資源分派情況
營運情境
當遇到作業運行較長時間仍未結束且通過LogView難以定位原因時,或在作業運行結束後,發現作業運行時間長度較慢達不到預期時,應分析是否由於資源供給問題導致。
操作步驟
登入MaxCompute控制台,在左上方選擇地區。
在左側導覽列,選擇。
選擇时间范围同時配合Quota选择參數過濾,單擊搜索。
單擊目標Instance ID對應操作列的洞察,跳轉至作业洞察頁面。
在资源消耗頁簽查看作業生命週期內的資源消耗情況。
資源消耗圖展示作業層級的使用CU與等待CU隨時間的變化曲線,以及作業啟動並執行Quota層級的使用CU與等待CU隨時間變化趨勢。若發現作業使用CU較低,而Quota層級使用CU較高,甚至持續達到上限,說明Quota資源緊張,有其他作業在與當前作業搶佔計算資源。
通過單擊資源消耗圖橫軸的時間點,查看對應時刻計算Quota層級的資源分派情況,包括作業數量與優先順序分布,單擊目標優先順序對應的色塊跳轉至作業列表,查看對應作業的詳細資料。判斷具體是哪些作業在與當前作業搶佔計算資源。再依據業務情況最佳化任務執行情況,進行作業優先順序調整或計算資源管理,詳情請參見作業優先順序或計算資源-Quota管理。
下一步
如果某個作業資源使用佔比一直很高且還有很多作業在等待,可以採取以下措施:
如果此作業不符合業務情況,可以執行終止作業操作。
如果此作業符合業務情況,說明此時Quota資源配置不合理,需要最佳化資源配置方案,詳情請參見計算資源配置最佳化。
相關文檔
通過命令查看作業資訊、狀態和停止作業等操作,請參見執行個體操作。