執行個體全面診斷功能可以對執行個體的系統狀態、網路狀態、磁碟狀態等進行全方位的診斷,協助您瞭解執行個體的健康狀態,及時發現並解決常見的問題。
前提條件
在您使用執行個體費用及安全行為審計診斷功能時,系統會檢查當前帳號是否已有服務關聯角色AliyunServiceRoleForECSSelfService,如果不存在則會彈出提示,在您確認提示資訊後系統會自動建立服務關聯角色AliyunServiceRoleForECSSelfService。
AliyunServiceRoleForECSSelfService包含系統權限原則AliyunServiceRolePolicyForECSSelfService,您無法添加、修改或刪除許可權。
如果您使用RAM使用者進行執行個體費用及安全行為審計診斷,需先聯絡阿里雲帳號授權RAM使用者擁有建立關聯角色的許可權。具體操作,請參見通過指令碼編輯模式建立自訂權限原則和為RAM使用者授權。
阿里雲帳號授權RAM使用者使用執行個體自助問題排查功能的權限原則內容如下。其中,<account ID>是變數,需替換為阿里雲帳號的UID。
{ "Statement": [ { "Action": [ "ram:CreateServiceLinkedRole" ], "Resource": "acs:ram:*:<account ID>:role/*", "Effect": "Allow", "Condition": { "StringEquals": { "ram:ServiceName": [ "selfservice.ecs.aliyuncs.com" ] } } } ], "Version": "1" }如果問題情境為全面體檢或者執行個體網路異常,請確保待檢測執行個體滿足以下條件:
執行個體規格:屬於在售的執行個體規格類型系列。更多資訊,請參見執行個體規格類型系列。
說明已停售的執行個體規格類型系列不支援執行個體健康診斷功能。
執行個體狀態:處於運行中(Running)狀態。
作業系統:如果您選擇的問題情境中會同時檢測執行個體作業系統內的配置,需要確保執行個體作業系統符合下表所述的條件。
作業系統架構
作業系統版本
作業系統內配置
x86_64位
Windows Server 2008及更高版本
Alibaba Cloud Linux 2/3
AlmaLinux 8.x及更高版本
Anolis OS 7.x/8.x
CentOS 7.x/8.x
CentOS Stream 8及更高版本
Debian 8.x及更高版本
Fedora 33/34
OpenSUSE 15.x/42.x
Rocky Linux 8.x及更高版本
SUSE Linux Enterprise Server 12.x/15.x
Ubuntu 16.04/18.04/20.04/24.04
Python版本:Python3.6及以版本
已安裝雲助手Agent。具體操作,請參見安裝雲助手Agent。
說明表中未列出的作業系統發行版本均不支援,對於不支援的發行版本上的作業系統診斷運行效果不作保證。
如果問題情境為執行個體無法啟動,請確保待檢測執行個體狀態滿足以下條件:
執行個體狀態:處於已停止(Stopped)狀態。
作業系統:選擇的問題情境中會同時檢測執行個體作業系統內的配置,需要確保執行個體作業系統符合下表所述的條件。
作業系統架構
作業系統版本
x86_64位
Windows Server 2008及更高版本
Alibaba Cloud Linux 2/3
AlmaLinux 8.x及更高版本
Anolis OS 7.x/8.x
CentOS 7.x/8.x
CentOS Stream 8及更高版本
Debian 8.x及更高版本
Fedora 33/34
OpenSUSE 15.x/42.x
Rocky Linux 8.x及更高版本
SUSE Linux Enterprise Server 12.x/15.x
Ubuntu 16.04/18.04/20.04/24.04
說明表中未列出的作業系統發行版本均不支援,對於不支援的發行版本上的作業系統診斷運行效果不做保證。
使用情境
推薦您在以下情境中使用執行個體全面診斷功能瞭解執行個體健康狀態:
定位解決問題:在操作執行個體過程中遇到問題,需要進行針對性的問題診斷以尋求修複方法,例如網路連接不通。
定期全面檢查:在日常營運中,需要全面瞭解執行個體整體的健康情況,以便及時發現並處理異常情況,避免影響業務。
執行個體健康診斷功能為各診斷項提供了問題說明和修複建議。更多資訊,請參見診斷項與診斷結果說明。
操作步驟
ECS管理主控台
建立執行個體診斷
登入ECS管理主控台。
在左側導覽列,選擇。
在頂部功能表列左上方處,選擇地區。
選擇時間和執行個體ID,然後單擊發起診斷。
說明同一台執行個體只能同時存在一個進行中的診斷任務,且前後兩次診斷的時間間隔需要超過5分鐘。
問題類型
說明
執行個體效能問題
診斷ECS執行個體CPU負載高、記憶體負載高、頻寬負載高、磁碟BPS/IOPS高,或者執行個體效能受損等問題。
執行個體無法串連或啟動異常
診斷VNC無法遠端連線、SSH無法串連、執行個體出現宕機,執行個體作業系統無法啟動等問題。
網路問題
診斷ECS執行個體的網路效能受損,或者PING不通等問題。
執行個體操作未生效
診斷ECS執行個體的變更操作未生效問題,例如雲端硬碟擴容實際未生效。
資源配額不足
診斷ECS執行個體的資源配額是否達到上限,例如雲端硬碟容量配額不足、鏡像數量配額不足、彈性網卡建立數達到上限、安全性群組總數達到上限等問題。
安全風險檢測
診斷ECS執行個體是否存在安全風險,例如系統漏洞、安全警示、惡意進程等。
執行個體費用及安全行為審計
對ECS執行個體狀態類、執行個體費用類、安全性群組相關等操作行為審計、追溯。
說明使用執行個體費用及安全行為審計診斷功能時需要擁有執行個體自助問題排查的關聯角色及許可權。更多資訊,請參見服務關聯角色AliyunServiceRoleForECSSelfService。
執行個體裝置檢測
檢測執行個體GPU等裝置是否正常運行。
其他問題
直接輸入問題的詳情、執行個體ID和相應的排查周期。
具體的診斷項以頁面顯示為準,您可以在診斷報告中單擊診斷項詳情下的各頁簽查看具體的診斷項及其診斷進展。診斷過程大概需要幾分鐘,您可以在當前頁面查看進展及等待診斷報告,也可以關閉對話方塊後在診斷工作清單中查看診斷進展和報告。
查看診斷報告。
診斷報告中包含以下資訊:
基本資料:包括診斷的時間範圍、資源ID、報告ID和診斷時間。
診斷結果:如果各項檢查均正常,則顯示為執行個體未發現異常。如果存在異常診斷項,則顯示具體的異常診斷項並提供相應的修複方案,您可以參考修複方案解決問題。
診斷項詳情:包括各項診斷項的結果,層級分為嚴重、警告和通過。
說明使用執行個體費用及安全行為審計診斷功能時,您還可以通過以下方式擷取更多資訊:
如需查詢更多Action Trail資訊,可以前往ActionTrail控制台。
如需查詢賬單資訊,可以前往賬單詳情。
您可以基於診斷報告,自助解決對應問題。具體說明如下:
對於常見問題,您可以參考文檔自助解決問題。更多資訊,請參見ECS執行個體作業系統內部(GuestOS)常見問題與修複方案。
對於執行個體無法啟動的問題,您可以自行登入已掛載了修複盤的ECS執行個體,進行問題修複。
查看診斷歷史
如果想要瞭解執行個體的歷史健康情況,您可以查看執行個體的診斷歷史。
登入ECS管理主控台。
查看執行個體的診斷歷史。
在左側導覽列,選擇。
在頂部功能表列處,選擇地區。
在執行個體問題排查頁簽下,單擊查看歷史。
在檢測歷史頁面,單擊執行個體健康診斷頁簽,並輸入資源ID或報告ID,然後單擊
表徵圖。
說明在診斷歷史報告列表中,您可以單擊操作左側的
表徵圖,選擇相應的狀態進行篩選。對於單條診斷歷史,您可以單擊查看報告查看詳細報告內容,或者單擊重新診斷重新發起一次診斷。
OpenAPI
查詢診斷指標。
您可以調用DescribeDiagnosticMetrics查詢診斷指標。更多發行的診斷指標列表資訊,請參見診斷項與診斷結果說明。
管理診斷指標集合。
診斷指標集合分為以下兩種,您可以使用診斷指標集合建立診斷報告。
公用診斷指標集合:公用診斷指標集合是由使用者常見問題整理而來,協助您更方便地使用診斷能力。
公用診斷指標集合由阿里雲進行維護,使用者無法修改。您可以通過DescribeDiagnosticMetricSets查詢公用診斷指標集合。當前支援的公用診斷指標集合如下所示。
指標名稱
說明
使用情境
dms-instancedefault
預設診斷集合
用於對ECS進行全面的檢查。
自訂診斷指標集合:如果您只關注部分診斷指標,可以通過CreateDiagnosticMetricSet靈活建立診斷指標集合。建立完成後,可以通過DescribeDiagnosticMetricSets查詢已建立的診斷指標集合。
當返回結果如下所示時,說明已建立名稱為test的自訂診斷指標集合。
{ "RequestId": "6AF68D67-601A-5278-AB10-4195CCA7****", "MetricSets": [ { "Type": "User", "MetricIds": [ "Instance.ControllerError", "Instance.CPUException", "Instance.CPUSplitLock" ], "MetricSetId": "dms-uf6ck3iljpbft15i****", "ResourceType": "instance", "MetricSetName": "test" } ] }
建立診斷報告。
您可以通過CreateDiagnosticReport使用建立的診斷指標集合或者公用診斷指標集合建立診斷報告。
當返回結果如下所示時,說明已成功建立診斷報告。
{ "RequestId": "A1283ACE-2F19-54B9-9464-401EBD1A****", "ReportId": "dr-uf6aacg5g2fjp64i****" }查詢診斷報告。
您可以通過DescribeDiagnosticReports查詢報告的詳情,報告會返回診斷集每個診斷指標的診斷結果。更多診斷項結果詳情,請參見診斷項與診斷結果說明。
當返回結果如下所示時,說明診斷正常,沒有發現問題。
{ "RequestId": "20381C19-C31B-52AE-AC9B-8AD672E4****", "NextToken": "", "Reports": [ { "Status": "Finished", "EndTime": "2022-09-07T15:36Z", "ResourceId": "i-uf653eye7pkftni****", "MetricSetId": "dms-uf6ck3iljpbft15i****", "Issues": [], "StartTime": "2022-09-05T15:36Z", "CreationTime": "2022-09-07T15:36Z", "ReportId": "dr-uf6aacg5g2fjp64i****", "ResourceType": "instance", "Severity": "Normal", "FinishedTime": "2022-09-07T15:36Z" } ] }