個人資源最佳化頁面主要供個人使用,為您展示個人名下可最佳化的任務和表。
前提條件
您需要開通DataWorks專業版及以上版本,才可以使用資源最佳化功能。操作步驟
- 登入DataWorks控制台。
- 在左側導覽列,單擊工作空間列表。
- 單擊相應工作空間後的進入資料開發。
- 單擊左上方的
表徵圖,選擇,預設進入個人資源最佳化頁面。您可以單擊頂部的工作空間下拉式清單,選擇相應的工作空間,也可以選擇我的所有專案。
個人資源最佳化頁面為您展示個人資產概覽和個人資源最佳化:- 您可以在個人資產概覽查看個人名下的總任務數和總表數。 最佳化項變化趨勢為您展示最近10天內可最佳化項的變化趨勢,您可以在此查看最近完成可最佳化項的數量。說明 最佳化趨勢中的資料是離線計算產生的,您可以查看最新的日期,以擷取資料的最新動向時間。
- 個人資源最佳化從資料存放區、資料計算和資料擷取三個領域進行掃描。資料存放區和資料計算掃描的是MaxCompute表和MaxCompute任務,資料擷取掃描的是寫入至MaxCompute中的同步任務。
說明 DataWorks支援開發環境和生產環境隔離的標準工作空間模式,即一個DataWorks工作空間支援底層有兩個MaxCompute專案,此時您可以通過環境進行篩選。掃描領域 最佳化對象 可最佳化項 描述 資料存放區 MaxCompute表 未管理的表 未管理的表需要滿足以下兩個校正條件: - 未設定生命週期的表。
- 最近一個月未在DataWorks上訪問的非分區表。
同時滿足上述條件的表,會被掃描出來。針對上述掃描條件,您可以通過設定表的生命週期,解決上述掃描問題。表的生命週期詳情請參見生命週期。說明 表的生命週期到期後,會回收表資料,請謹慎操作。空表 儲存量為0的表即為空白表。不建議您直接刪除表,推薦您根據表的建立時間,對早期建立的表進行審計。 最近90天未訪問表 最近90天未訪問表的最佳化方案如下: - 根據自身業務需求,調整表的生命週期。
- 梳理您的業務,確認該表是否有效。如果無效,可以刪除。 重要 刪除後的表,無法恢複資料,請謹慎操作。
資料計算 MaxCompute任務 衝突任務 多個任務寫入同一張表,可能導致不符合預期的結果。在資料開發過程中,不建議多個任務操作同一張表的同一個分區,避免其中一個任務報錯,補資料時出現資料品質問題。 開發工作單位時,需要考慮資料等冪性問題。建議根據任務的下遊數量,暫停其中一個任務,調整暫停任務下遊節點的依賴關係。
資料扭曲 產生資料扭曲的根本原因是:有少數伏羲執行個體處理的資料量超過其它執行個體處理的資料量,導致少數執行個體的運行時間長度超過其它執行個體的平均運行時間長度,從而導致整個任務的已耗用時間較長,造成任務延遲。 資料扭曲的解決方案請參見其它計算長尾調優。
暴力掃描 如果在運行任務時未指定分區,會掃描大量資料。建議您最佳化任務,減少資料的輸入量。 暴力掃描的判定規則為:掃描的分區數大於90個,且總掃描量大於90 GB。
資料擷取 同步任務 匯入為空白 掃描出匯入資料量持續為0的資料同步任務,您可以暫停或下線該任務。 持續匯入一致 掃描出連續15天匯入資料量持續一致的資料同步任務,請關注來源資料是否不再更新。 此時需要考慮業務是否已暫停。如果業務暫時停止,建議暫停任務的調度,以節省調度、計算和儲存等資源。
同源匯入 掃描出有相同資料來源的資料同步任務,該類任務會存在重複匯入MaxCompute的情況,導致儲存及調度資源的浪費。您可以通過合并任務解決該問題。 OSS同步最佳化 掃描出通過公網進行OSS資料轉送的資料同步任務,該類任務會導致額外的網路費用。 您可以進入頁面,修改資料來源的Endpoint地址為內網地址,減少公網流量費用、提升傳輸速度。詳情請參見Endpoint。
對於業務上難以治理的內容,您可以單擊相應表或任務後的添加白名單。詳情請參見添加白名單。
- 您可以在個人資產概覽查看個人名下的總任務數和總表數。