全部產品
Search
文件中心

Elastic Compute Service:診斷項與診斷結果說明

更新時間:Jul 09, 2025

本文介紹自助問題排查功能支援的ECS管理主控台診斷項和OpenAPI診斷指標,並提供了詳細的診斷範圍及建議操作供您參考。

ECS管理主控台診斷項

執行個體健康診斷功能支援以下診斷:

說明
  • 計算服務健康診斷、網路服務健康診斷、儲存服務健康診斷、執行個體組態管理診斷髮現的異常屬於非即時態異常,診斷結果會包括過去12小時記憶體在過的異常以便查看歷史問題,不一定需要即時修複。

  • 安全控制健康診斷、費用類診斷、資源配額診斷、執行個體作業系統內相關配置診斷髮現的異常屬於即時態異常,在當前診斷時就存在,建議即時修複此類異常。

計算服務健康診斷結果說明

診斷項(控制台)

描述

診斷範圍及建議操作

執行個體申請資源異常

因CPU或記憶體資源不足,導致執行個體無法正常啟動。

檢查該執行個體所需要的CPU、記憶體等實體資源是否充足。

在需要重新為執行個體分配資源時,例如從節省停機模式啟動執行個體,如果因為庫存不足導致實體資源不足,將使執行個體無法啟動。您可以等待幾分鐘後重新嘗試開機,或者在其他地區或可用性區域嘗試重新建立執行個體。

執行個體作業系統異常

執行個體作業系統出現了核心Panic、OOM異常或內部宕機等故障。

檢查該執行個體的作業系統(Guest OS)內部是否存在核心Panic、OOM異常或內部宕機等故障。

此類故障可能是由於執行個體配置不當或使用者空間的程式配置不當導致的,您可以嘗試通過重啟執行個體進行恢複。

執行個體虛擬化異常

執行個體在運行中出現崩潰或異常暫停。

檢查該執行個體底層虛擬化層核心服務是否出現異常。

出現此類異常可能會導致執行個體崩潰或出現異常暫停,您可以嘗試通過重啟執行個體進行恢複。

執行個體所在宿主機警示

執行個體所在的物理裝置出現故障警示。

檢查該執行個體所在的底層物理機是否有故障。

如果底層物理機存在故障,則可能會影響執行個體的運行狀態或效能。您可以嘗試通過重啟執行個體進行恢複。

執行個體效能受限

積分型執行個體當前處於效能受限模式。

檢查突發效能執行個體的CPU積分餘額是否足夠支付維持高效能所需的積分。

如果積分不夠,則該突發效能執行個體在業務高峰時只能使用基準效能,而無法啟動突發效能。

執行個體CPU異常

執行個體因CPU爭搶而出現異常,或者獨享型執行個體的CPU綁定失敗。

檢查共用型執行個體底層是否存在CPU爭搶。

如果存在CPU爭搶,可能導致該執行個體無法獲得CPU或出現其他異常。您可以嘗試通過重啟執行個體進行恢複。

執行個體管控系統異常

ECS執行個體後台管控系統發生異常。

檢查該執行個體的後台管控系統是否正常工作。

如果後台管控系統未正常工作,可能會導致執行個體運行異常。您可以嘗試通過重啟執行個體進行恢複。

執行個體效能短暫受損

檢查執行個體是否受到底層軟硬體問題的影響,導致效能短暫受損。

檢查執行個體是否存在因底層軟硬體問題導致的效能受損。

如果存在效能受損,會提示發生時間,請您檢查該執行個體的歷史系統事件或者系統日誌進行確認。具體操作,請參見查看歷史系統事件查看執行個體的系統日誌和螢幕截圖

網路服務健康診斷結果說明

診斷項(控制台)

描述

診斷範圍及建議操作

執行個體的底層網路鏈路存在丟包

執行個體對應的底層網路物理設施或網路服務存在丟包。

檢查該執行個體的底層網路鏈路是否存在丟包現象。

如果存在,將影響執行個體的網路連通性或網路吞吐,例如導致執行個體無法遠端連線,或網速過慢。您可以嘗試通過重啟執行個體進行恢複。

執行個體的網路設定不一致

執行個體當前生效的網路設定與底層服務配置存在不一致。

檢查該執行個體的底層網路設定是否一致。

如果執行個體的底層網路設定不一致 ,將影響執行個體的網路效能。您可以嘗試通過重啟執行個體進行恢複。

執行個體鏈路層異常

執行個體網卡鏈路層出現異常。

通過向網卡發送ARP(位址解析通訊協定)請求來驗證執行個體基礎網路設定是否正常。

如果請求失敗,則很有可能是執行個體未正常啟動或網路設定有問題,您可以嘗試通過重啟執行個體進行恢複。

網卡載入異常

執行個體的網卡載入異常。

檢查該執行個體的網卡是否能正常載入。

如果網卡無法正常載入,將影響執行個體的網路連通性,例如執行個體無法遠端連線。您可以嘗試通過重啟執行個體進行恢複。

網卡丟包

網卡入方向或出方向存在丟包現象。

檢查該執行個體的網卡入方向或出方向是否存在丟包現象。

如果存在,將影響執行個體的網路連通性或網路吞吐,例如導致執行個體無法遠端連線,或網速過慢。您可以嘗試通過重啟執行個體進行恢複。

網路會話異常

網卡會話無法正常建立,或會話數超過上限。

檢查該執行個體的網卡是否能正常建立會話。

如果網卡無法建立會話或已建立的會話超過限制,將影響執行個體的網路連通性或網路吞吐,例如導致執行個體無法遠端連線,或網速過慢。您可以嘗試通過重啟執行個體進行恢複。

DDos攻擊的防護狀態異常

檢查執行個體的公網IP是否受到DDoS攻擊以及防護狀態。

檢查該執行個體的IP地址是否受到了DDoS攻擊。

阿里雲免費提供的DDoS原生防護服務可以幫您完成一定程度的攻擊流量清洗,緩解DDoS攻擊造成的不可用,但如果攻擊流量已超出您執行個體的防護能力,仍會導致執行個體進入不可用狀態,無法正常訪問。更多DDoS攻擊詳情,請參見什麼是DDoS攻擊

您可以視情況購買其他DDoS防護產品抵禦DDoS攻擊,更多資訊,請參見如何選擇DDoS防護產品

阿里雲DDoS預防最佳方案,請參見DDoS攻擊緩解最佳實務

網路流量達到執行個體網路頻寬上限

檢查執行個體的網路突髮帶寬是否受到限制。

檢查該執行個體的突髮網絡頻寬。

如果突髮網絡頻寬已超過執行個體規格對應的網路突髮帶寬上限,會導致網路效能成為業務瓶頸,請您將執行個體升級至網路頻寬能力更高的執行個體規格。具體操作,請參見更改執行個體規格(計算資源)

說明

不同執行個體規格的網路突髮帶寬能力,請參見執行個體規格類型系列

網路流量因達到執行個體網路頻寬上限而受限

檢查執行個體的內外網頻寬總量是否達到該執行個體規格對應的網路頻寬上限。

檢查該執行個體的內外網頻寬總量。

如果頻寬總量已超過執行個體規格對應的網路基礎頻寬上限,會導致網路效能成為業務瓶頸,請您將執行個體升級至網路頻寬能力更高的執行個體規格。具體操作,請參見更改執行個體規格(計算資源)

說明

不同執行個體規格的網路基礎頻寬能力,請參見執行個體規格類型系列

儲存服務健康診斷結果說明

診斷項(控制台)

描述

診斷範圍及建議操作

磁碟擴容未生效

在控制台對Linux執行個體的磁碟擴容後,檢查是否需要進一步執行擴容命令。

檢查在控制台對該執行個體的磁碟擴容後,是否已經生效。如果在控制台完成了擴容操作但實際沒有生效,需要手動執行擴容命令擴容分區和檔案系統。具體操作,請參見擴容雲端硬碟(Linux)

執行個體磁碟IO hang

磁碟IO hang,導致磁碟無法讀寫。

檢查該執行個體的系統硬碟是否存在IO hang的情況(即磁碟內的檔案系統因讀寫IO延遲過高導致系統不穩定或宕機)。

如果出現IO hang,雲端硬碟無法進行讀寫操作。建議您查看雲端硬碟的效能指標,具體操作,請參見查看雲端硬碟監控資訊

如果您使用的是Alibaba Cloud Linux 2作業系統,檢測IO hang的操作,請參見檢測檔案系統和塊層的IO hang

執行個體磁碟載入異常

建立或掛載磁碟時出現錯誤。

檢查該執行個體在啟動時雲端硬碟是否能正常掛載。

如果掛載失敗,則會導致執行個體無法正常啟動。請停止執行個體後再次啟動執行個體,或重新掛載雲端硬碟,進行恢複。掛載雲端硬碟的操作,請參見掛載資料盤

執行個體雲端硬碟讀寫受限

磁碟IO出現延遲過長,或達到該雲端硬碟類型的IO上限。

檢查該執行個體系統硬碟的讀寫IO是否存在延遲,以及讀寫的IOPS是否超過了該雲端硬碟的IOPS上限。

如果雲端硬碟讀寫IOPS超過上限,則雲端硬碟讀寫將被限制,查看雲端硬碟指標的操作,請參見查看雲端硬碟監控資訊

為避免該情況再次發生,請您降低磁碟的讀寫頻率或升級為更高效能的雲端硬碟類型。各類雲端硬碟的讀寫效能指標,請參見Block Storage效能

執行個體磁碟擴縮容異常

磁碟擴縮容後,作業系統調整檔案系統的大小失敗。

檢查該執行個體的系統硬碟在擴容後,雲端硬碟上的檔案系統是否也調整成功。

如果檔案系統未成功調整,表示雲端硬碟容量因資源不足或其他原因導致擴容失敗,新擴容的磁碟無法使用。請重新發起擴容操作。不同作業系統的擴容方法與限制,請參見雲端硬碟擴容指引

執行個體組態管理健康診斷結果說明

診斷項(控制台)

描述

診斷範圍及建議操作

執行個體啟動異常

執行個體無法被管控系統正常啟動。

檢查該執行個體的boot操作是否能正常執行載入。

如果執行個體無法正常啟動,您需要建立一個新的執行個體。

執行個體核心操作異常

您對執行個體進行管理控制的操作執行失敗。

檢查您對該執行個體最近執行的管理操作,例如開機、關機、升配等是否執行成功。

如果執行失敗,您需要重新發起該操作。

執行個體鏡像載入異常

執行個體所使用的鏡像無法正常載入。

檢查該執行個體在啟動時所使用的鏡像是否能正常載入。

鏡像可能因為系統原因、鏡像問題等載入失敗。您可以嘗試通過重啟執行個體進行恢複。

安全控制健康診斷結果說明

診斷項(控制台)

描述

診斷範圍及建議操作

安全性群組入方向常用連接埠未放開

對於Windows執行個體,檢查安全性群組的3389連接埠放開情況;對於Linux執行個體,檢查安全性群組的22連接埠放開情況。

檢查該執行個體關聯的安全性群組常見連接埠的放開狀態。

如果常見連接埠未允許存取,可能會導致部分服務無法正常運行或執行個體無法訪問。檢查允許存取的常見連接埠如下:

  • 入方向SSH連接埠(22),需允許存取。

  • 入方向RDP連接埠(3389),需允許存取。

費用類健康診斷結果說明

診斷項(控制台)

描述

診斷範圍及建議操作

檢查訂用帳戶執行個體是否已到期

檢查以訂用帳戶方式購買的執行個體是否已到期。

如果該執行個體是訂用帳戶的計費方式,檢查執行個體是否已到期。

到期後,執行個體將被關機停服,執行個體無法訪問。到期後資源狀態變化,請參見訂用帳戶。您需要續約來恢複服務,更多資訊,請參見如何續約訂用帳戶執行個體

檢查按量執行個體是否因為欠費導致停服

檢查以隨用隨付方式購買的執行個體是否因欠費被停止而無法使用。

如果該執行個體是隨用隨付的計費方式,檢查帳號是否欠費。

欠費後,執行個體將被關機停服,執行個體無法訪問。帳號欠費後資源狀態變化,請參見隨用隨付。您需要儲值後重啟才能恢複執行個體。

檢查執行個體的組件是否已欠費

檢查執行個體的雲端硬碟或網路頻寬是否因帳號欠費而無法正常使用。

檢查訂用帳戶執行個體關聯的隨用隨付雲端硬碟或網路頻寬是否因帳號欠費而無法正常使用。

執行個體組件欠費被停服後,執行個體的訪問也將受到影響。您需要儲值進行恢複。

資源配額健康診斷結果說明

診斷項(控制台)

描述

診斷範圍及建議操作

雲端硬碟容量配額不足

雲端硬碟容量即將達到限額。

如果當前賬戶的雲端硬碟容量即將超過配額上限,您可以在ECS管理主控台申請提升配額,具體操作,請參見ECS配額管理

鏡像數量配額不足

當前賬戶鏡像數量即將達到限額。

如果當前賬戶的鏡像總數即將達到配額上限,請您進入Elastic Compute Service通用配額列表,單擊當前賬戶保有自訂鏡像數量限額操作列的申請,提升鏡像數量配額。

彈性網卡建立數達到上限

當前賬戶擁有的彈性網卡(輔助網卡)即將達到限額。

如果當前賬戶的彈性網卡數量即將超過配額上限,您可以在ECS管理主控台申請提升配額,具體操作,請參見ECS配額管理

網卡總隊列數達到上限

當前執行個體使用的網卡隊列數已達到上限。

安全性群組總數達到上限

當前賬戶建立的安全性群組數量即將達到限額。

如果您的安全性群組總數即將達到配額上限,請您進入Elastic Compute Service通用配額列表,單擊安全性群組總數量上限操作列的申請,提升安全性群組數量配額。

資源加入安全性群組達到上限

當前網卡可加入的安全性群組即將達到限額。

如果網卡可加入的安全性群組即將達到配額上限,您可以在ECS管理主控台申請提升配額,具體操作,請參見ECS配額管理

如果您調整了一台ECS執行個體或彈性網卡可以加入的安全性群組數量限制,相應的安全性群組最大規則數量也會發生變化。更多資訊,請參見安全性群組使用限制

安全性群組內規則達到上限

當前安全性群組內的規則數即將達到限額。

如果安全性群組內的規則數即將達到配額上限,您可以在ECS管理主控台申請提升配額,具體操作,請參見ECS配額管理

如果您調整了安全性群組的最大規則數,您的ECS執行個體或彈性網卡可加入的安全性群組數量也會發生變化。更多資訊,請參見安全性群組使用限制

執行個體作業系統內相關配置診斷結果說明(Linux)

診斷項(控制台)

描述

診斷範圍及建議操作

總CPU使用率過高

執行個體當前CPU的使用率已經超過80%(基於top命令返回的資料)。

檢查該執行個體的總CPU使用率。

如果使用率過高,請您定位使用較多CPU資源的進程並判斷是否正常。查詢CPU資源使用方式的操作,請參見Linux執行個體CPU使用率或負載較高問題的排查與處理

disk中inode檢查

檢查Disk中inode是否足夠。

檢查該執行個體磁碟的inode使用率。

如果使用率過高,可能會導致無法在磁碟上建立新的檔案,請您根據需要擴容磁碟。具體操作,請參見雲端硬碟擴容指引

DHCP服務檢查

檢測DHCP配置情況下,網路相關進程是否存在,不存在的情況下可能會導致網路租約到期之後丟失。

檢查該執行個體eth0網卡的DHCP服務進程。

如果DHCP服務進程不存在,可能會導致執行個體的IP地址在租約到期後無法續租,進而導致網路中斷。開啟DHCP服務進程的方法,請參見如何在Linux鏡像中配置網路為DHCP

fstab中的裝置檢查

檢查fstab中的裝置是否存在。

檢查該執行個體的/etc/fstab檔案。

如果/etc/fstab檔案中配置了不存在的裝置,可能會導致執行個體無法啟動。移除/etc/fstab檔案中不存在裝置的方法,請參見Linux執行個體的/etc/fstab檔案配置錯誤導致系統啟動異常問題解決方案

fstab中的裝置掛載狀態檢查

檢查fstab裝置是否正確掛載。

檢查該執行個體的/etc/fstab檔案。

如果/etc/fstab檔案中裝置未配置自動掛載,會導致執行個體啟動後無法直接使用裝置。請您執行mount命令手動掛載裝置,或在/etc/fstab檔案中配置自動掛載。配置磁碟自動掛載的方法,請參見在fstab檔案中配置UUID方式自動掛載資料盤

fstab檔案的格式檢查

檢查fstab內容格式是否正確。

檢查該執行個體的/etc/fstab檔案。

如果/etc/fstab檔案中存在格式錯誤,可能會導致執行個體無法啟動。修改/etc/fstab檔案格式的方法,請參見Linux執行個體的/etc/fstab檔案配置錯誤導致系統啟動異常問題解決方案

系統防火牆狀態檢查

檢查系統防火牆是否開啟。

檢查該執行個體的防火牆。

如果執行個體開啟了防火牆,並設定了屏蔽外界訪問的規則,可能會導致無法遠端連線執行個體。開啟和關閉防火牆的方法,請參見開啟或關閉Linux系統防火牆

系統檔案狀態檢查

檢查關鍵系統檔案狀態。

fsck診斷髮現執行個體的檔案系統存在異常,可能會導致部分資料丟失,進而導致執行個體無法訪問等問題。

檢查並修複檔案系統的方法,請參見Linux執行個體的檔案系統檢查與修複

limits設定檢查

檢查limits設定是否正確。

檢查該執行個體的/etc/security/limits.conf檔案。

如果/etc/security/limits.conf檔案中nofile的值過大,可能會導致無法遠端連線執行個體。修改limits系統參數的方法,請參見Linux執行個體調整limits檔案中nofile參數值的方法

記憶體設定檢查

檢查大頁記憶體設定是否過大。

檢查該執行個體的/etc/sysctl.conf檔案。

如果/etc/sysctl.conf檔案中設定的大頁記憶體數量和大頁記憶體值過大,會導致大頁記憶體(大頁記憶體數量*大頁記憶體值)超過總記憶體。調整大頁記憶體的方法,請參見調整Linux執行個體大頁記憶體的方法

常見業務連接埠監聽狀態檢查

檢查常見業務連接埠(例如22和3389)是否處於監聽狀態。

檢查該執行個體的常見業務連接埠。

如果連接埠未處於監聽狀態,可能會導致不能訪問執行個體上的應用。檢查並修改常見業務連接埠的方法,請參見Linux系統中TCP/UDP連接埠測試方法

CPU使用率超過50%的進程

執行個體當前CPU的使用率已經超過50%(基於top命令返回的資料)。

檢查該執行個體中進程的CPU使用率。

如果一些進程的CPU使用率過高,請您判斷進程是否正常。檢查CPU使用率的方法,請參見Linux執行個體CPU使用率或負載較高問題的排查與處理

單個CPU使用率過高

單個CPU的使用率超過85%(基於top命令返回的資料)。

檢查該執行個體的單個CPU在一段時間內的使用率。

如果單個CPU的使用率過高,請您定位使用較多CPU資源的進程並判斷是否正常。檢查CPU使用率的方法,請參見Linux執行個體CPU使用率或負載較高問題的排查與處理

系統關鍵進程啟動狀態檢查

檢查系統關鍵進程是否啟動。

檢查該執行個體的系統關鍵進程。

如果系統關鍵進程處於未運行狀態,可能會導致執行個體無法訪問。

NAT環境核心參數檢查

檢查NAT環境核心參數是否正確。

檢查該執行個體內與NAT環境相關的核心參數配置。

如果NAT環境相關的核心參數配置存在異常,會導致無法通過SSH串連執行個體,以及訪問執行個體上的HTTP服務時出現異常。請您檢查並調整/etc/sysctl.conf中的net.ipv4.tcp_tw_recyclenet.ipv4.tcp_timestamps參數的取值。修複NAT環境核心參數的方法,請參見為什麼用戶端配置NAT後,無法訪問服務端的ECS或RDS?

TCP SACK設定檢查

檢查TCP SACK是否開啟。

檢查該執行個體是否開啟了TCP SACK。

如果未開啟TCP SACK,可能會影響執行個體的網路效能。開啟TCP SACK的方法,請參見Linux執行個體開啟TCP SACK的方法

檢查作業系統是否OOM

檢查作業系統是否OOM。

檢查該執行個體的作業系統是否發生了OOM(Out of Memory)問題。

如果發生了OOM問題,請您檢查執行個體當前的可用記憶體大小是否足以支撐執行個體上啟動並執行業務,並在必要時升級配置提升執行個體記憶體。分析OOM根因並解決OOM問題的方法,請參見如何處理Linux執行個體中的OOM問題?

系統關鍵檔案格式檢查

檢查系統關鍵檔案格式。

檢查該執行個體的系統關鍵檔案格式是否為Unix格式。

如果系統關鍵檔案格式錯誤(不是Unix格式),可能會導致無法遠端連線執行個體。修改系統檔案格式的方法,請參見Linux執行個體中修複非Unix格式檔案

selinux狀態檢查

檢查SELinux是否開啟。

檢查該執行個體是否開啟了SELinux服務。

如果開啟了SELinux服務,會導致SSH遠端連線執行個體時報錯,請您視情況選擇臨時或永久關閉SELinux服務。關閉SELinux服務的方法,請參見Linux執行個體中由於SELinux服務開啟導致SSH遠端連線異常

系統關鍵使用者狀態和密碼設定檢查

檢查關鍵系統使用者(Linux系統檢查root帳號、Windows系統檢查Administrator帳號)的密碼是否存在等。

檢查該執行個體作業系統的關鍵系統使用者。

如果不存在關鍵系統使用者,可能會導致無法登入執行個體。請您檢查/etc/passwd中關鍵系統使用者的狀態和密碼設定情況。檢查關鍵系統使用者的方法,請參見Linux執行個體中關鍵的系統使用者不存在

SSH存取權限檢查

檢查SSH的存取權限配置是否正確。

檢查該執行個體的SSH存取權限配置。

如果SSH存取權限配置不正確,可能會導致無法登入執行個體。修改SSH存取權限的方法,請參見SSH的存取權限異常導致無法遠端連線Linux執行個體

SSH關鍵檔案系統檢查

檢查SSH訪問所需要的關鍵檔案或目錄是否存在。

檢查該執行個體中SSH服務所需的關鍵檔案或目錄。

如果SSH服務所需的關鍵檔案或目錄不存在,可能會導致無法SSH登入執行個體。修複SSH服務所需的關鍵檔案或目錄的方法,請參見檢查Linux執行個體是否存在SSH服務所需的必備檔案或目錄

SSH是否允許root使用者登入檢查

檢查SSH配置是否允許root使用者串連。

檢查SSH配置是否允許root使用者串連。

如果禁止使用root使用者登入執行個體,會導致使用root使用者登入執行個體時返回Permission denied, please try again錯誤。修複root使用者登入執行個體報錯的問題,請參見通過SSH用戶端登入Linux執行個體時提示“Permission denied, please try again”錯誤怎麼辦?

網卡多隊列開啟狀態檢查

網卡多隊列是否開啟。

檢查該執行個體的網卡是否開啟了網卡多隊列特性。

如果未開啟網卡多隊列特性,可能會影響執行個體網路效能。開啟網卡多隊列的方法,請參見網卡多隊列

執行個體作業系統內相關配置診斷結果說明(Windows)

診斷項(控制台)

描述

診斷範圍及建議操作

Windows作業系統的版本檢查

微軟已經不再維護Windows Server 2008及之前的版本。

檢查該執行個體的Windows系統版本。

阿里雲和微軟不再維護Windows Server 2008及之前的版本,請您視情況重裝更高版本的Windows系統。執行個體重裝系統的方法,請參見更換系統硬碟(更換作業系統)

總CPU的使用率過高

檢查Windows CPU使用率總體超過85%。

檢查該執行個體的CPU使用率。

如果CPU總使用率過高,請您定位使用較多CPU資源的進程並判斷是否正常。檢查CPU使用率的方法,請參見Windows執行個體CPU使用率較高問題的排查與處理

單CPU使用率過高

檢查單CPU使用率超過80%。

檢查該執行個體的CPU使用率。

如果單個CPU的使用率過高,請您定位使用較多CPU資源的進程並判斷是否正常。檢查單個CPU使用率的方法,請參見Windows執行個體CPU使用率較高問題的排查與處理

記憶體使用量率偏高

檢查Windows系統記憶體使用量率是否超過80%。

檢查記憶體的使用率是否超過80%。

如果該執行個體當前記憶體的總使用率已經超過80%,會列出記憶體使用量率排名前5的進程,請檢查對應進程是否正常。分析Windows記憶體使用量率過高的具體操作,請參見Windows系統記憶體分析工具的介紹

Windows常用業務連接埠佔用狀態檢查

檢查Windows系統的3389連接埠是否開放。

檢查該執行個體的3389連接埠。

如果未開啟3389連接埠,會導致無法使用遠端桌面連線RDP服務訪問執行個體。開啟3389連接埠允許遠端桌面連線的方法,請參見Windows執行個體如何啟動遠端桌面連線RDP服務

Windows系統網卡狀態檢查

檢查Windows網卡是否開啟。

檢查該執行個體的網卡。

如果網卡處於不可用狀態,會導致無法遠端連線執行個體。檢查並修複網卡狀態的方法,請參見檢查網路

網卡IPv4地址檢查

檢查Windows系統網卡是否已獲得IPv4地址。

檢查網卡是否已經擷取到IPv4地址。

如果網卡未擷取到IPv4地址,可能會導致服務無法訪問。請檢查該執行個體是否已啟用DHCP服務或配置靜態IP地址。開啟DHCP服務的具體操作,請參見如何在工作群組中安裝和配置DHCP伺服器

系統網路代理程式狀態檢查

檢查系統是否設定了網路代理程式資訊。

檢查系統是否設定了網路代理程式。

如果設定了網路代理程式,可能會導致服務無法正常訪問,請根據業務需要選擇是否關閉這些網路代理程式。Windows系統關閉網路代理程式的具體操作,請參見如何重設你的Internet Explorer代理設定

DHCP配置狀態檢查

檢查Windows系統網卡的DHCP服務是否開啟

檢查網卡上DHCP服務的狀態。

如果網卡上的DHCP服務處於關閉狀態,可能會導致服務無法訪問,請根據業務需要調整對應網卡的DHCP配置。Windows配置DHCP服務的具體操作,請參見如何在工作群組中安裝和配置 DHCP 伺服器

Windows虛擬磁碟驅動狀態檢查

檢查VirtIO驅動的版本。

檢查該執行個體的VirtIO驅動版本。

如果VirtIO驅動版本過低,會導致執行個體磁碟無法線上擴容。升級VirtIO版本的方法,請參見更新Windows執行個體的virtio驅動

磁碟容量檢查

檢查系統C盤容量是否小於1 GB。

檢查該執行個體系統硬碟(C盤)的可用空間。

如果可用空間小於1 GB,可能會導致系統運行緩慢,甚至執行個體無法啟動,請您根據需要擴容磁碟。具體操作,請參見雲端硬碟擴容指引

Windows防火牆狀態檢查

檢查Windows防火牆的狀態是否為開啟狀態。

檢查該執行個體的防火牆狀態。

如果防火牆處於開啟狀態,可能會導致無法訪問執行個體上的服務,請視情況調整防火牆的相關策略配置。配置防火牆策略的方法,請參見Windows系統防火牆策略配置指南

crash dump配置狀態檢查

檢查系統是否開啟了crash dump資訊採集。

檢查是否開啟了採集crash dump資訊。

如果未開啟採集crash dump資訊,當系統出現異常重啟或藍屏時,無法儲存相關資訊進行故障排查,請根據業務需要選擇是否要開啟採集crash dump資訊。Windows開啟採集crash dump資訊的具體操作,請參見為執行個體開啟或關閉核心崩潰轉儲服務

Administrator帳號檢查

檢查Administrator帳號是否存在。

檢查是否存在Administrator帳號。

如果不存在Administrator帳號,可能會導致服務無法正常訪問,請根據業務需要選擇是否要建立Administrator帳號。Windows系統建立帳號的具體操作,請參見如何使用管理主控台添加或刪除管理員

OpenAPI診斷指標分類

基本概念

  • 診斷指標(DiagnosticMetric):執行個體或帳號狀態進行檢查的單位,如CPU使用率。

  • 診斷結果條目(Issue):對診斷指標進行檢查,發現的關聯條目,條目按照嚴重等級分為InfoWarnCritical。每個診斷指標可能關聯多個診斷結果條目,如果沒有關聯診斷結果條目,說明對該診斷指標的檢查沒有發現問題,但並不意味著該診斷指標實際中不存在問題。

  • 診斷指標集合(DiagnosticMetricSet):一組診斷指標的集合,可以一次性對診斷指標裡的所有指標進行診斷。

    重要

    診斷結果只能作為參考,不能保證100%準確,診斷正常並不代表系統相關指標不存在問題。

執行個體健康診斷功能支援以下診斷,按照功能和模組,我們對所有的診斷指標進行了分類,當前的分類如下:

分類標識碼

分類名稱

說明

ECSService.ServiceHealth

計算服務健康診斷

對雲端服務器物理機資源和虛擬化層進行檢查。

ECSService.InstanceNetwork

網路服務健康診斷

檢查執行個體內部網路組件狀態,以及外部網路環境異常等情況。

ECSService.InstanceStorage

儲存服務健康診斷

檢查執行個體磁碟的運行狀態是否存在異常。

ECSService.InstanceConfigure

執行個體組態管理診斷

檢查執行個體在啟動過程中或運行中,是否被某個操作阻塞(block)導致執行個體無法啟動或者運行異常。

ECSService.SecurityGroup

安全控制健康診斷

檢查執行個體關聯的所有安全性群組入方向常見連接埠的允許存取狀態。

ECSService.AccountBalance

費用類診斷

檢查執行個體本身和執行個體關聯組件(例如公網IP流量、EIP流量)是否欠費。

ECSService.GuestOS

執行個體作業系統內相關配置診斷(Linux)

檢查執行個體作業系統內的系統檔案、關鍵進程、常用業務連接埠佔用狀態、防火牆狀態等是否正常。

ECSService.GuestOS

執行個體作業系統內相關配置診斷(Windows)

檢查執行個體作業系統內的常用業務連接埠佔用狀態、防火牆狀態等是否正常。

ECSService.ActionTrace

使用者行為回溯診斷

對ECS執行個體狀態類、執行個體費用類、安全性群組相關等操作行為審計、追溯。

說明
  • 計算服務健康診斷、網路服務健康診斷、儲存服務健康診斷、執行個體組態管理診斷所發現的異常屬於非即時狀態異常,診斷結果會包括過去12小時記憶體在的異常,用於查看歷史問題,不一定需要即時修複。

  • 安全控制健康診斷、費用類診斷、資源配額診斷、執行個體作業系統內相關配置診斷髮現的異常屬於即時態異常,在當前診斷時就存在,建議即時修複此類異常。

計算服務健康診斷結果說明

診斷指標ID

診斷指標說明

診斷結果條目ID

診斷指標條目說明

建議操作

Instance.ControllerError

檢查該執行個體的後台管控系統是否正常工作。

Instance.ECSService.MngServiceException

後台管控系統未正常工作,可能會導致執行個體運行異常。

您可以嘗試通過重啟執行個體進行恢複。

Instance.CPUException

檢查共用型執行個體底層是否存在CPU爭搶。

Instance.ECSService.CPUBindFailure

存在CPU爭搶,可能導致該執行個體無法獲得CPU或出現其他異常。

您可以嘗試通過重啟執行個體進行恢複。

Instance.CPUSplitLock

執行個體遇到Intel CPU的Split Lock問題。

Instance.ECSService.CPUSplitLock

執行個體遇到Intel CPU的Split Lock問題。

請您檢查ECS上應用程式是否存在導致該問題的異常代碼並進行最佳化。

Instance.GuestOSCrash

執行個體的作業系統Crash。

Instance.ECSService.GuestOSCrashed

作業系統Crash。

請您檢查ECS上應用程式是否存在導致該問題的異常代碼並進行最佳化。

Instance.HostDownAlert

檢查該執行個體所在的底層物理機是否有故障。

Instance.ECSService.HostDown

底層物理機存在故障,可能會影響執行個體的運行狀態或效能。

您可以嘗試通過重啟執行個體進行恢複。

Instance.PerformanceAffected

檢查執行個體是否存在因底層軟硬體問題導致的效能受損。

Instance.ECSService.PerformanceAffected

執行個體存在效能受損,請您檢查該執行個體的歷史系統事件或者系統日誌進行確認,具體操作,請參見查看歷史系統事件查看執行個體的系統日誌和螢幕截圖

您可以嘗試通過重啟執行個體進行恢複。

Instance.PerfRestrict

檢查突發效能執行個體的CPU積分餘額是否足夠支付維持高效能所需的積分。

Instance.ECSService.BurstPerformanceRestricted

餘額積分不夠,該突發效能執行個體在業務高峰時只能使用基準效能,而無法啟動突發效能。

檢查該執行個體是否滿足您的業務需求,如果不滿足,建議對執行個體進行配置升級。具體操作,請參見訂用帳戶執行個體升配規格更改隨用隨付執行個體規格

Instance.ResourceNotEnough

檢查該執行個體所需要的CPU、記憶體等實體資源是否充足。

Instance.ECSService.ResourceOutOfStock

在需要重新為執行個體分配資源時,例如從節省停機模式啟動執行個體,如果因為庫存不足導致實體資源不足,將使執行個體無法啟動。

您可以等待幾分鐘後重新嘗試開機,或者在其他地區或可用性區域嘗試重新建立執行個體。

Instance.SystemException

檢查該執行個體的作業系統(Guest OS)內部是否存在核心Panic、OOM異常或內部宕機等故障。

Instance.ECSService.GuestOSException

作業系統內部異常,可能是由於執行個體配置不當或使用者空間的程式配置不當導致。

您可以嘗試通過重啟執行個體進行恢複。

Instance.VirtException

檢查該執行個體底層虛擬化層核心服務是否出現異常。

Instance.ECSService.VirtualizationException

出現此類異常可能會導致執行個體崩潰或出現異常暫停。

您可以嘗試通過重啟執行個體進行恢複。

Instance.RecentUtilHigh

檢查歷史負載是否超過80%。

Instance.UtilizationHigh.IntranetBandwidth

您選擇的診斷時間範圍內執行個體的內網頻寬負載達到過上限的80%,內網頻寬負載過高意味著您的執行個體進行中大量的內網流量傳輸。

目前阿里雲無法確定具體的進程資訊,請您結合業務進一步分析,詳細監控資訊請登入CloudMonitor控制台查看。

Instance.UtilizationHigh.DiskIOPS

您選擇的診斷時間範圍內執行個體的IOPS負載曾達到過上限的80%,IOPS負載高意味著您的執行個體進行中頻繁的IO讀寫。

目前阿里雲無法確定具體的進程資訊,請您結合業務進一步分析,詳細監控資訊請登入CloudMonitor控制台查看。

Instance.UtilizationHigh.DiskBPS

您選擇的診斷時間範圍內執行個體的BPS負載曾達到過上限的80%,BPS負載過高意味著您的執行個體在進行大量的資料轉送。

目前阿里雲無法確定具體的進程資訊,請您結合業務進一步分析,詳細監控資訊請登入CloudMonitor控制台查看。

Instance.UtilizationHigh.CPU

您選擇的診斷時間範圍內,執行個體的CPU負載曾達到過80%,CPU負載高意味著您的執行個體進行中高頻的計算任務。

詳細監控資訊請登入CloudMonitor控制台查看。

Instance.KMSInvalid

檢查KMS密鑰是否正常。

Instance.KMSInvalid.SecretInvalid

當前執行個體使用了Key Management Service(Key Management Service)提供的密鑰服務對系統硬碟或資料盤進行了加密,但目前因密鑰失效導致執行個體啟動失敗。

您可以登入Key Management Service控制台查看該執行個體雲端硬碟所使用的密鑰的狀態,如果出現欠費,請及時續約後再次嘗試啟動本執行個體。

如果執行個體當前已正常啟動和運行,請忽略此提醒。

網路服務健康診斷結果說明

診斷指標ID

診斷指標說明

診斷結果條目ID

診斷指標條目說明

建議操作

Instance.ArpPingError

通過向網卡發送ARP(位址解析通訊協定)請求來驗證執行個體基礎網路設定是否正常。

Instance.ECSService.ARPPingIssue

執行個體網卡鏈路層出現異常。

如果請求失敗,則很有可能是執行個體未正常啟動或網路設定有問題,您可以嘗試通過重啟執行個體進行恢複。

Instance.DDoSStatus

檢查該執行個體的IP地址是否受到了DDoS攻擊。

Instance.Security.SufferDDoSAttacks

在條目附加資訊中會返回如下範例資料:

{
 "Status": "DDoSDefense",
 "StartTime": "2022-07-07T02:25:20Z"
}

  • ${Status}表示發生的事件,分為DDoSDefense和DDoSHole,表示遭到了DDoS攻擊進入防禦或者黑洞。

  • ${StartTime} 表示事件發生時間。

阿里雲免費提供的DDoS原生防護服務可以幫您完成一定程度的攻擊流量清洗,緩解DDoS攻擊造成的不可用,但如果攻擊流量已超出您執行個體的防護能力,仍會導致執行個體進入不可用狀態,無法正常訪問。更多DDoS攻擊詳情,請參見DDoS攻擊介紹

您可以視情況購買其他DDoS防護產品抵禦DDoS攻擊,更多資訊,請參見阿里雲DDoS防護產品概述

阿里雲DDoS預防最佳方案,請參見DDoS攻擊緩解最佳實務

Instance.NetworkBoundLimit

檢查該執行個體的內外網頻寬總量。

Instance.Network.IOLimit

頻寬總量已超過執行個體規格對應的網路基礎頻寬上限,導致網路效能成為業務瓶頸。

將執行個體升級至網路頻寬能力更高的執行個體規格。具體操作,請參見更改執行個體規格(計算資源)

Instance.NetworkBurstLimit

檢查該執行個體的突髮網絡頻寬是否達到上限。

Instance.Network.BurstBoundLimit

突髮網絡頻寬已超過執行個體規格對應的網路突髮帶寬上限,導致網路效能成為業務瓶頸。

將執行個體升級至網路頻寬能力更高的執行個體規格。具體操作,請參見更改執行個體規格(計算資源)

Instance.NetworkLoadFailure

檢查該執行個體的網卡是否能正常載入。

Instance.Network.ENILoadFailure

如果網卡無法正常載入,將影響執行個體的網路連通性,例如執行個體無法遠端連線。

您可以嘗試通過重啟執行個體進行恢複。

Instance.NetworkSessionError

檢查該執行個體的網卡是否能正常建立會話。

Instance.Network.SessionException

如果網卡無法建立會話或已建立的會話超過限制,將影響執行個體的網路連通性或網路吞吐,例如導致執行個體無法遠端連線,或網速過慢。

您可以嘗試通過重啟執行個體進行恢複。

Instance.PacketDrop

檢查該執行個體的網卡入方向或出方向是否存在丟包現象。

Instance.Network.PacketDrop

如果存在丟包,將影響執行個體的網路連通性或網路吞吐,例如導致執行個體無法遠端連線,或網速過慢。

您可以嘗試通過重啟執行個體進行恢複。

Instance.NetworkConfigConsistency

檢查執行個體網路指標是否正常。

Instance.NetworkConfig.Inconsistent

系統監測到該執行個體當前生效的網路設定與底層服務配置存在不一致,可能導致執行個體的網路效能受到影響。

  • 如果執行個體當前已正常運行,請忽略此提醒。

  • 如果執行個體的丟包問題依然存在,請根據業務需要選擇合適的時間嘗試重啟執行個體進行恢複。

Instance.NetworkLinkException

檢查雲系統內部鏈路是否存在丟包。

Instance.Network.LinkException

該執行個體在檢測時間內遇到了底層網路鏈路丟包問題,可能導致執行個體效能受損,目前該問題已恢複。

  • 如果執行個體當前已正常運行,請忽略此提醒。

  • 如果執行個體的丟包問題依然存在,請根據業務需要選擇合適的時間嘗試重啟執行個體進行恢複。

儲存服務健康診斷結果說明

診斷指標ID

診斷指標說明

診斷結果條目ID

診斷指標條目說明

建議操作

Instance.DiskLimit

檢查該執行個體系統硬碟的讀寫IO是否存在延遲,以及讀寫的IOPS是否超過了該雲端硬碟的IOPS上限。

Instance.Disk.IOLimit

雲端硬碟讀寫IOPS超過上限,讀寫將被限制。查看雲端硬碟指標的操作,請參見查看雲端硬碟監控資訊

為避免該情況再次發生,請您降低磁碟的讀寫頻率或升級為更高效能的雲端硬碟類型。各類雲端硬碟的讀寫效能指標,請參見Block Storage效能

Instance.DiskLoadFailure

檢查該執行個體在啟動時雲端硬碟是否能正常掛載。

Instance.Disk.EBSLoadFailure

掛載失敗,執行個體無法正常啟動。

請停止執行個體後再次啟動執行個體,或重新掛載雲端硬碟,進行恢複。掛載雲端硬碟的操作,請參見掛載資料盤

Instance.IOHang

檢查該執行個體的系統硬碟是否存在IO hang的情況(即磁碟內的檔案系統因讀寫IO延遲過高導致系統不穩定或宕機)。

Instance.Disk.IOHang

系統硬碟出現IO hang,雲端硬碟無法進行讀寫操作。

建議您查看雲端硬碟的效能指標,具體操作,請參見查看雲端硬碟監控資訊。如果您使用的是Alibaba Cloud Linux 2作業系統,檢測IO hang的操作,請參見檢測檔案系統和塊層的IO hang

Instance.ResizeFsFailure

檢查該執行個體的系統硬碟在擴容後,雲端硬碟上的檔案系統是否也調整成功。

Instance.Disk.ResizeFailure

檔案系統未成功調整,新擴容的磁碟無法使用。

請重新發起擴容操作。不同作業系統的擴容方法與限制,請參見擴容概述

Instance.DiskFull

檢查歷史時間段內磁碟空間使用率是否達到100%。

Instance.Disk.Full

該執行個體的磁碟於某一時間段內出現了磁碟空間使用率達到100%的情況,可能導致執行個體無法正常使用。

根據需要選擇以下合適的方案進行操作,確保系統的正常運行。

執行個體組態管理診斷結果說明

診斷指標ID

診斷指標說明

診斷結果條目ID

診斷指標條目說明

建議操作

Instance.BootFailure

檢查該執行個體的boot操作是否能正常執行載入。

Instance.ECSService.BootIssue

執行個體無法正常啟動。

您可以嘗試通過重啟執行個體進行恢複。

Instance.ImageLoadFailure

檢查該執行個體在啟動時所使用的鏡像是否能正常載入。

Instance.ECSService.ImageIssue

鏡像可能因為系統原因、鏡像問題等載入失敗。

您可以嘗試通過重啟執行個體進行恢複。

Instance.OperationFailure

檢查您對該執行個體最近執行的管理操作,例如開機、關機、升配等是否執行成功。

Instance.ECSService.OperationError

存在操作執行失敗的異常。

如果執行失敗,您需要重新發起該操作。

Instance.BootScreenshot

作業系統因系統本身原因無法正常啟動。

Instance.BootScreenshot.Exception

該執行個體因作業系統內配置異常、異常關機等問題導致作業系統無法正常啟動。

您可以通過VNC登入啟動異常的執行個體進行修複。

安全控制健康診斷結果說明

診斷指標ID

診斷指標說明

診斷結果條目ID

診斷指標條目說明

建議操作

Instance.SGIngress

檢查執行個體網卡安全性群組規則入方向常用連接埠是否放開。

Instance.Network.SSHPortRuleDeny

事件資訊樣本如下,表示Linux入方向SSH連接埠(22)未允許存取。

{
 "Policy": "accept",
 "Port": "22",
 "Service": "SSH",
 "Protocol": "TCP",
 "Direction": "ingress"
}

如果您需要通過SSH訪問該執行個體,請為該執行個體安全性群組配置入方向允許SSH訪問的規則。具體操作,請參見添加安全性群組規則

Instance.SgRule.PingPortDeny

事件資訊樣本如下,表示執行個體不允許PING。

{
 "Policy": "accept",
 "Port": "-1",
 "Service": "PING",
 "Protocol": "ICMP",
 "Direction": "ingress"
}

如果您需要通過PING該執行個體,請為該執行個體安全性群組配置入方向允許PING的規則。具體操作,請參見添加安全性群組規則

Instance.SgRule.WinRemotePortDeny

表示執行個體不允許遠端桌面。

{
  "Policy": "drop",
  "Port": "3389",
  "Service": "WIN-REMOTE-DESKTOP",
  "Protocol": "TCP",
  "Direction": "ingress"
}

如果您需要通過遠端桌面訪問該執行個體,請為該執行個體安全性群組配置入方向允許遠端桌面相關的規則。具體操作,請參見添加安全性群組規則

Instance.SecurityRisk

檢查執行個體是否存在安全風險。

Instance.Security.Risk

該執行個體目前存在安全風險,可能導致執行個體無法正常使用。

更多安全風險,您可以登入Security Center查看。

費用類診斷結果說明

診斷指標ID

診斷指標說明

診斷結果條目ID

診斷指標條目說明

建議操作

Instance.ExpenseException

檢查ECS執行個體的計費狀態是否存在異常。

Account.Balance.ExpenseException

該執行個體部分組件目前的費用狀態異常(包括包月到期或者帳號欠費),導致執行個體無法遠程登入或正常使用。

費用狀態異常的組件如下,請根據業務需要,儘快對執行個體進行續約或者儲值後,重新啟動執行個體後再登入執行個體。

{$InstanceId}/{$Ip} 目前處於{status}狀態。

樣本如下:

{
 "InstanceId":"i-bp1amip45xxxxxxxx",
 "Status":"AccountNotEnough/AccountNotEnough/Expired/NotExpired"   
}

或者:

{
 "Ip":"123.x.x.x",
 "Status":"AccountEnough/AccountNotEnough/Expired/NotExpired"
}

返回結果屬性說明如下:

  • AccountEnough: 不欠費。

  • AccountNotEnough: 欠費。

  • Expired: 訂用帳戶到期。

  • NotExpired: 沒有到期。

關於ECS計費說明、欠費和續約操作可參考計費概述

執行個體作業系統內相關配置診斷結果說明(Linux)

診斷指標ID

診斷指標說明

診斷結果條目ID

診斷指標條目說明

建議操作

GuestOS.CPUUtil

檢查CPU使用率是否過高。

GuestOS.CPU.HighUtilization

該執行個體總CPU的總使用率已超過80%。

CPU使用率排名前5的進程如下,請檢查這些進程是否正常。

{
  "ProcessCPUUsageTop5": [
    {
      "Pid": "1234",
      "CommandName": "/usr/bin/cpu_load.py",
      "AverageCPU": 80
    }
  ]
}

返回結果屬性說明如下:

  • ${ProcessCPUUsageTop5} :系統內CPU使用率Top5的進程列表。

  • ${Pid}:進程ID。

  • ${CommandName}:進程名稱。

  • ${AverageCPU}:CPU平均使用率。

查詢CPU資源使用方式的操作,請參見Linux執行個體CPU使用率或負載較高問題的排查與處理

GuestOS.CoreCPU.HighUtilization

該執行個體一個或多個CPU的使用率已超過85%。

單個CPU使用率超過85%的資訊如下,請檢查如下進程是否正常。

{
  "CPUCoreUsage": [
    {
      "Processor": 1,
      "AverageCPU": 80
    }
  ]
}

返回結果屬性說明如下:

  • ${CPUCoreUsage}:CPU使用率超過85%的核心列表。

  • ${Processor}:CPU核心編號

  • ${AverageCPU}:CPU核心使用率。

查詢CPU資源使用方式的操作,請參見Linux執行個體CPU使用率或負載較高問題的排查與處理

GuestOS.MemUtil

檢查執行個體記憶體使用量率是否過高

GuestOS.Memory.HighUtilization

該執行個體當前記憶體的總使用率超過80%。

記憶體使用量率排名前5的進程樣本如下:

{
  "TotalPercent": 95,
  "TopUtilizationProcesses": [
    {
      "Pid": "1223",
      "CommandName": "/usr/bin/mem.py",
      "PhysicalMemoryPercent": 50
    }
  ]
}

返回結果屬性說明如下:

  • ${TotalPercent}:記憶體整體使用率。

  • ${TopUtilizationProcesses}:使用記憶體Top5的進程列表。

  • ${Pid}:進程ID

  • ${CommandName}:進程名稱。

  • ${PhysicalMemoryPercent}:當前進程記憶體使用量率。

請根據需要關閉不需要的服務或進程,如果是您正常的業務導致,建議您對ECS配置進行升級。

查詢CPU資源使用方式的操作,請參見Linux執行個體記憶體使用量率較高問題的排查與處理

GuestOS.DiskUtil

檢查執行個體系統硬碟使用率是否過高

GuestOS.SystemDisk.InsufficientSpace

該執行個體當前部分磁碟對應檔案系統的使用率或inode使用率已經超過了80%,可能導致在這些分區上無法建立新的檔案。

使用率過高的磁碟資訊樣本如下:

[
  {
    "FilesystemName": "ext4",
    "FilesystemType": "ext4",
    "MountPoint": "/root",
    "SpaceUsedPercent": 10,
    "InodeUsedPercent": 50
  }
]

返回結果屬性說明如下:

  • ${FilesystemName}:檔案系統名稱。

  • ${FilesystemType}:檔案系統類型。

  • ${SpaceUsedPercent}:磁碟使用率。

  • ${InodeUsedPercent}:Inode使用率。

請根據需要選擇對磁碟進行擴容,具體操作,請參見雲端硬碟擴容指引

解決Inode容量滿的方法,請參見解決Linux執行個體磁碟空間滿問題

GuestOS.SystemConfig

檢查系統關鍵配置

GuestOS.AuditConfig.AutoShutdown

該執行個體Audit服務的設定檔中存在高風險的參數配置,當存放Audit服務審計日誌的檔案系統空間不足時會導致作業系統被自動關機,且重新啟動後由於Audit服務會繼續寫入審計日誌很可能導致作業系統不斷被關機。

{
  "ActionValue": "halt",
  "ConfigPath": "/etc/audit/auditd.conf",
  "ActionKey": "space_left_action"
}

  • ${ConfigPath}:Audit服務對應的設定檔。

  • ${ActionKey} = ${ActionValue}:高風險的參數配置,該配置會導致檔案系統空間不足時作業系統會不時被自動關機。

請根據業務需要修改Audit服務對應設定檔中配置項,具體操作,請參見如何修改auditd服務配置避免因磁碟空間不足導致執行個體自動關機

GuestOS.LimitsFile.UnreasonableConfig

該執行個體系統檔案/etc/security/limits.conf中部分配置大於系統預設值,可能導致執行個體無法遠程登入。

可能的異常配置屬性如下:

[
  {
    "LimitDomain": "unused",
    "SysctlValue": 1048576,
    "LimitItem": "nofile",
    "LimitType": "hard",
    "LimitValue": 1048577
  }
]

返回結果屬性說明如下:

  • ${LimitItem}:系統檔案路徑。

  • ${LimitDomain} :Domain。

  • ${LimitValue}:Value。

  • ${LimitType} :Type。

  • ${SysctlValue}:系統配置值(nr_open)。

調整limits.conf檔案的配置,具體操作,請參見Linux執行個體調整limits檔案中nofile參數值的方法

GuestOS.HugePageSize.UnreasonableConfig

該執行個體系統檔案/etc/sysctl.conf配置的大頁記憶體數量不當,可能導致執行個體無法遠程登入。

{
  "SysctlNrhugepages": 10,
  "Hugepagesize": 100,
  "TotalMemory": 1024000
}
  • ${SysctlNrhugepages}:當前設定的大頁記憶體數量(KB)。

  • ${Hugepagesize}:每頁記憶體的大小(KB)。

  • ${TotalMemory}}:執行個體的總記憶體大小(KB)。

請根據需要調整大頁記憶體數量。具體操作,請參見調整Linux執行個體大頁記憶體的方法

GuestOS.SELinuxService.Enabled

該執行個體當前SELinux服務開啟,可能導致SSH遠端連線執行個體時無法登入。

請根據業務需要,選擇臨時或永久關閉SELinux服務解決SSH串連異常問題。具體操作,請參見Linux執行個體中由於SELinux服務開啟導致SSH遠端連線異常

GuestOS.NvmeIOTimeout.UnreasonableConfig

該執行個體系統檔案中NVMe磁碟配置的IO讀寫逾時配置的時間過小,可能導致NVMe磁碟在IO逾時後變成唯讀掛載,進而導致後續寫入操作失敗。

{
 "File": "/proc/sys/nvme_core/io_timeout",
 "CurrentSetting": 100
}

返回結果屬性說明如下:

  • ${File}:設定檔。

  • ${CurrentSetting}:IO逾時值。

請根據需要將該配置調整為4294967295。具體操作,請參見Linux系統的ECS執行個體中NVMe磁碟IO逾時參數配置不當,導致NVMe磁碟不可用如何處理?

GuestOS.SysctlUnknownNmiPanic.Enabled

該執行個體核心中不可屏蔽中斷配置不當,會導致執行個體遇到不可屏蔽中斷時出現非預期的核心panic,並導致執行個體重啟。

{
 "File": "/proc/sys/kernel/unknown_nmi_panic",
 "CurrentSetting": 100
}

返回結果屬性說明如下:

  • ${File}:設定檔

  • ${CurrentSetting}:配置值

請根據需要將該配置調整為0。具體操作,請參見為什麼Linux執行個體設定核心參數kernel.unknown_nmi_panic後,執行個體異常重啟?

GuestOS.NetworkInterfaceMultiQueue.Disabled

該執行個體某個或多個網卡未開啟網卡多隊列特性,可能對網路效能造成影響。

[
  {
    "InterfaceName": "eth1",
    "Status": "disable"
  }
]

返回結果屬性說明如下:

  • ${InterfaceName}:網卡名稱。

  • ${Status}:網卡多隊列狀態。

請根據需要將該配置調整為開啟狀態,開啟網卡多隊列的方法,請參見網卡多隊列

GuestOS.SysctlIPv4TCPSACK.Disabled

該執行個體網路tcp_sack未開啟,可能會影響執行個體的網路效能。

[
  {
    "File": "/proc/sys/net/ipv4/tcp_sack",
    "Value": 0
  }
]

返回結果屬性說明如下:

  • ${File}:設定檔。

  • ${Value}:配置值。

請根據需要將該配置調整為1,開啟tcp_sack的方法,請參見Linux執行個體開啟TCP SACK的方法

GuestOS.SysctlIPv4TCPTWRecycle.Enabled

該執行個體NAT相關的核心參數配置存在異常,導致使用者無法通過SSH串連執行個體,還會導致該執行個體上的HTTP服務訪問出現異常。

[
  {
    "File": "/proc/sys/net/ipv4/tcp_tw_recycle",
    "Value": 1
  }
]

返回結果屬性說明如下:

  • ${File}:設定檔路徑。

  • ${Value}:當前的配置值。

請根據需要將該配置調整為0,修複NAT環境核心參數的方法,請參見Linux系統常用核心網路參數介紹與常見問題處理

GuestOS.SysctlIPv4TCPTWReuse.Disabled

該執行個體的核心參數配置未開啟TIME-WAIT sockets重用能力,即不允許將TIME-WAIT狀態的socket用於新的TCP串連,可能會影響執行個體的單機網路發送請求效能。

{
  "CurrentSetting": 0
}

${CurrentSetting}:核心參數net.ipv4.tcp_tw_reuse當前的值。

請根據業務需要,將net.ipv4.tcp_tw_reuse對應值調整為1,即開啟TIME_WAIT socket重用能力,提升執行個體的網路發送請求效能。具體操作,請參見Linux執行個體常用核心網路參數介紹與常見問題處理

GuestOS.SysctlNetfilterNfMaxConnections.Unreasonable

該執行個體過去一段時間的歷史系統日誌中存在錯誤記錄檔,該問題是由於核心模組nf_conntrack (負責跟蹤網路連接條目以配合NAT地址轉換功能)所使用的雜湊表空間已滿所致,可能導致執行個體出現間歇性網路丟包。

{
  "Timeout": 432000,
  "KernelMessages": [
    {
      "source": "dmesg command",
      "message": "[14124341.747244] nf_conntrack: table full, dropping packet"
    },
    {
      "source": "/var/log/messages",
      "message": "Nov 15 23:51:16 iZm5efna3fievtdlq82p1mZ kernel: nf_conntrack: table full, dropping packet"
    }
  ],
  "ConnectionMax": 65536
}

  • ${Timeout}:net.netfilter.nf_conntrack_tcp_timeout_established的值。

  • ${ConnectionMax}:net.netfilter.nf_conntrack_max的值。

  • ${KernelMessages.source}:歷史系統日誌。

  • ${KernelMessages.message}:錯誤記錄檔內容。

請根據業務需要和系統情況,調整執行個體核心設定檔中上面兩個參數對應值的大小,避免該問題。具體操作,請參見Linux執行個體常用核心網路參數介紹與常見問題處理

GuestOS.PidMax.TooSmall

該執行個體系統內當前已啟動並執行進程數超過最大進程數(kernel.pid_max)的三分之二,可能導致系統後續無法建立新的進程。

{
  "PidMax": 900,
  "ProcessCount": 615
}

  • ${PidMax}:該參數對應的值kernel.pid_max。

  • ${ProcessCount}:目前系統中已有的進程數量。

請根據業務需要,調高kernel.pid_max對應的值。具體操作,請參見在Linux系統內啟動某個服務時提示task: Cannot allocate memory該如何處理?

GuestOS.SysctlTcpMaxTwBuckets.Unreasonable

該執行個體過去一段時間的歷史系統日誌中存在錯誤記錄檔,該問題是由於執行個體存在過多TIME_WAIT串連所致,可能導致執行個體上的串連被意外關閉或者執行個體無法響應新的串連,進而影響執行個體的訪問或執行個體上業務的響應。

{
  "TwBuckets": 262144,
  "KernelMessages": [
    {
      "source": "dmesg command",
      "message": "[336877.139205] TCP: time wait bucket table overflow"
    },
    {
      "source": "/var/log/messages",
      "message": "Nov  1 14:08:32 iZbp13lj7h3lh086kdl7kpZ TCP: time wait bucket table overflow"
    }
  ]
}

  • ${KernelMessages.source}:歷史系統日誌。

  • ${KernelMessages.message}:錯誤記錄檔內容。

  • ${TwBuckets}:核心配置參數 net.ipv4.tcp_max_tw_buckets。

該問題通常是由於核心配置參數net.ipv4.tcp_max_tw_buckets配置不當所致,請根據業務需要,調整執行個體核心配置中該參數對應值的大小,加速串連的關閉,避免該問題。具體操作,請參見Linux執行個體常用核心網路參數介紹與常見問題處理

GuestOS.SystemUserPwd

系統帳號和密碼設定檢查

GuestOS.SystemUser.MissingInfo

該執行個體的系統帳號不存在,可能會導致執行個體無法登入。

[
  {
    "MissingUsername": "postfix",
    "Source": "/etc/passwd"
  }
]

返回結果屬性說明如下:

  • ${Source}:設定檔路徑。

  • ${MissingUsername}:系統帳號。

請根據需要補充該帳號的資訊,檢查系統使用者不存在的方法,請參見Linux執行個體中關鍵的系統使用者不存在

GuestOS.SystemUserFile.NotUnixFormat

該執行個體系統帳號對應檔案的檔案格式錯誤,可能會導致執行個體無法登入。

[
  {
    "File": "/etc/passwd"
  }
]

返回結果屬性說明如下:

${File}:非法檔案路徑。

請根據需要修改該檔案的檔案格式。修改系統檔案格式的方法,請參見Linux執行個體中修複非Unix格式檔案

GuestOS.SystemUserFile.InvalidExtensionAttribute

該執行個體系統帳號對應檔案的擴充屬性配置不當,可能導致執行個體的部分功能無法正常工作,比如通過控制台修改root帳號的密碼不生效等。

[
  {
    "CorrectAttribute": "e",
    "File": "/etc/passwd",
    "CurrentAttribute": "ie"
  }
]

返回結果屬性說明如下:

  • ${File}:檔案路徑。

  • ${CurrentAttribute}:當前配置值。

  • ${CorrectAttribute}:正確配置值。

請根據需要修改該檔案的檔案格式。修改系統檔案格式的方法,請參見Linux執行個體中修複非Unix格式檔案

GuestOS.FileSystems

檔案系統狀態檢查

GuestOS.Filesystems.UUIDConflicts

該執行個體存在相同UUID的檔案系統,可能導致執行個體啟動時自動掛載非預期的檔案系統,進而導致執行個體無法正常啟動。

擁有相同UUID的檔案系統資訊如下:

[
  {
    "CorrectAttribute": "e",
    "File": "/etc/passwd",
    "CurrentAttribute": "ie"
  }
]

返回結果屬性說明如下:

  • ${FirstDevice}:衝突裝置1。

  • ${SecondDevice}:衝突裝置2。

  • ${UUID}:衝突的UUID。

請您根據需要修改檔案系統的UUID,避免重複。

修改檔案系統UUID的方法,請參見修改雲端硬碟的UUID

GuestOS.FstabFile.InvalidFormatExists

該執行個體/etc/fstab檔案中存在格式錯誤,可能會導致執行個體無法啟動。

詳細資料如下:

[
  {
    "Line": 10,
    "File": "/dev/vdb1"
  }
]

返回結果屬性說明如下:

  • ${File}:檔案路徑。

  • ${Line}:格式錯誤行號。

請根據需要進行修正/etc/fstab檔案。更多資訊,請參見Linux執行個體的/etc/fstab檔案配置錯誤導致系統啟動異常問題解決方案

GuestOS.FstabFile.InvalidDevice

該執行個體的/etc/fstab檔案中配置的某個裝置不存在,可能會導致執行個體無法啟動。

[
  {
    "MountPoint": "/mnt",
    "Device": "UUID=48609326-10e3-40c2-93b3-3f0d9798d7a9"
  }
]

返回結果屬性說明如下:

  • ${Device}:不存在的裝置UUID。

  • ${MountPoint}:裝置掛載點。

請根據需要移除/etc/fstab中不存在的裝置。更多資訊,請參見Linux執行個體的/etc/fstab檔案配置錯誤導致系統啟動異常問題解決方案

GuestOS.FstabFile.LossMountDevice

該執行個體存在未在/etc/fstab中配置自動掛載的磁碟,可能會導致執行個體無法啟動。

[
  {
    "Device": "z",
    "MountAttribute": "-rw"
  }
]

返回結果屬性說明如下:

  • ${Device}:未配置自動掛載的裝置。

  • ${MountAttribute}:建議掛載屬性。

修改磁碟建議的掛載屬性,具體操作,請參見Linux執行個體的/etc/fstab檔案配置錯誤導致系統啟動異常問題解決方案

GuestOS.FileSystems.PartitionUnaligned

該執行個體的磁碟存在未按照推薦的2048扇區進行分區對齊的情況,當雲端硬碟擴容後,可能會因分區未對齊導致Linux內部自動執行分區擴容的操作失敗,最終導致檔案系統的可用空間未增加。

[
  {
    "DeviceStart": 512,
    "Unit": "kB",
    "DeviceName": "/dev/vdb"
  }
]

  • ${DeviceName}:磁碟裝置名稱。

  • ${DeviceStart}:該裝置的第一個分區的開始位置。

  • ${Unit}:單位。

請根據業務情況,修複磁碟分割未對齊的問題。具體操作,請參見雲端硬碟擴容後使用growpart擴充GPT分區失敗該如何處理?

GuestOS.FstabFile.IncorrectType

該執行個體在/etc/fstab檔案中配置的裝置檔案系統與裝置實際的檔案系統不一致,可能會導致執行個體無法啟動或裝置掛載失敗。

{
  "ConfigFileSystem": "extext",
  "Device": "UUID=b9a7ad07-b910-4ba6-9582-e88bf440479c",
  "RealFileSystem": "ext4"
}

  • ${Device}:裝置。

  • ${RealFileSystem}:實際的檔案系統。

  • ${ConfigFileSystem}:配置的檔案系統。

請更改/etc/fstab中配置的檔案系統,使其與裝置實際的檔案系統保持一致。具體操作,請參見Linux執行個體的/etc/fstab檔案配置錯誤導致系統啟動異常問題解決方案

GuestOS.Mountpoint.Multiple

該執行個體/etc/fstab檔案中存在同一個檔案系統掛載到多個掛載點的配置記錄,可能導致檔案系統讀寫衝突。

[ {
    "Device" : {
      "filesystemFeatures" : [ "has_journal", "ext_attr", "resize_inode", "dir_index", "filetype", "needs_recovery", "extent", "64bit", "flex_bg", "sparse_super", "large_file", "huge_file", "uninit_bg", "dir_nlink", "extra_isize" ],
      "name" : "/dev/vdb1",
      "type" : "ext4",
      "uuid" : "b055d7bb-2801-40d2-9ddb-1b6fd9b208bc"
    },
    "ConfigPath" : "/etc/fstab",
    "Entries" : [ {
      "mountPoint" : "/usr/local/attachment",
      "options" : "defaults",
      "name" : "/dev/vdb1",
      "passNumberOnParallelFsck" : 0,
      "type" : "ext4",
      "dumpFrequency" : 0
    }, {
      "mountPoint" : "/home/sunmooc",
      "options" : "defaults",
      "name" : "/dev/vdb1",
      "passNumberOnParallelFsck" : 0,
      "type" : "ext4",
      "dumpFrequency" : 0
    } ]
  } ]

  • {ConfigPath}:檔案路徑。

  • {Device.name}:裝置名稱。

  • {Entries.mountPoint}:掛載點。

請根據業務需求,修改/etc/fstab檔案配置,使得檔案系統與掛載點一一對應。具體操作,請參見Linux執行個體的/etc/fstab檔案配置錯誤導致系統啟動異常問題解決方案

GuestOS.NetworkStatus

網路設定和狀態檢查

GuestOS.Network.InvalidNetmask

該執行個體的IPv4地址或對應的子網路遮罩配置不當,導致該IP地址配置無效,影響執行個體無法正常串連和訪問。

[
  {
    "IP": "10.0.0.1"
  }
]

返回結果屬性說明如下:

${IP}:未配置子網路遮罩的IP。

請根據需要修改子網路遮罩,具體操作,請參見Linux系統的ECS執行個體如何設定靜態IP地址

GuestOS.Network.InvalidDefaultRoute

該執行個體系統內未配置預設路由,可能導致執行個體無法正常串連。

{
  "Status": "unconfigured"
}

返回結果屬性說明如下:

${Status}:預設路由配置狀態。

請根據業務需要,修改網卡配置或者系統路由配置,補充所需的路由規則。具體操作,請參見在Linux執行個體中訪問外部網路地址,提示“Network is unreachable”錯誤怎麼辦?

GuestOS.DHCPService.Disabled

該執行個體上網卡的DHCP服務進程處於關閉狀態,可能導致執行個體的IP地址在租約到期之後,出現無法續租導致網路中斷的問題。

網卡{InterfaceName}的DHCP配置異常。

[
  {
    "Status": "enable",
    "InterfaceName": "eth0"
  }
]

返回結果屬性說明如下:

  • ${Status}:網卡DHCP啟用狀態。

  • ${InterfaceName}:網卡名稱。

請檢查DHCP服務相關配置,具體操作,請參見Linux執行個體網路服務異常處理方案

GuestOS.Udev.MacAddressNotExist

該執行個體核心使用的裝置動態管理udev規則中,殘留了MAC地址與網卡實際配置不一致的規則,可能導致執行個體網路無法正常使用或者網路裝置命名不符合預期。

{
  "MacAddress": "00:00:00:01:01:02",
  "DeviceName": "eth${fakeMaxInterfaceNumber}"
}

  • ${MacAddress}:udev中配置的MAC地址。

  • ${DeviceName}:網卡裝置名稱。

請根據業務需要,修改udev規則,清除與實際配置不一致的MAC地址和網卡裝置名稱。具體操作,請參見多網卡情境下,Linux執行個體作業系統的網卡名稱發生漂移如何解決?

GuestOS.DHCPService.CustomPort

CentOS、RHEL 7的某些系統的ECS執行個體上內建的dhclient版本低於4.2.5-60,低於該版本的dhclient存在軟體缺陷,會佔用除標準連接埠67/68或546/547以外的其他連接埠。如果執行個體內的其他服務或進程也使用了該連接埠,可能出現連接埠衝突問題,從而導致您的業務或者服務進程啟動失敗或不可用。

[
  {
    "OccupiedPort": 31045,
    "DhclientVersion": "isc-dhclient-4.2.5"
  },
  {
    "OccupiedPort": 38964,
    "DhclientVersion": "isc-dhclient-4.2.5"
  }
]

  • ${OccupiedPort: 該執行個體DHClient服務正在使用非預設連接埠

  • ${DhclientVersion}:該執行個體DHClient服務的版本。

請根據業務需要,儘快升級DHClient服務版本以修複此問題。具體操作,請參見在CentOS或RHEL 7執行個體上,啟動某個服務或進程時提示連接埠衝突錯誤

GuestOS.NetworkConfig.InvalidInterface

該執行個體的網路設定檔中指定了不存在的網卡裝置,可能導致系統網路服務啟動失敗或運行異常。

該問題是由於網卡設定檔中指定的網卡裝置不存在導致。可能原因如下:

  • 建立或者配置執行個體時,沒有配置指定數量的彈性網卡。

  • 卸載執行個體的輔助網卡後忘記刪除對應設定檔。

  • 製作自訂鏡像時未刪除對應設定檔。

[
  {
    "ConfigFile": "/etc/sysconfig/network-scripts/ifcfg-eth101",
    "DeviceName": "eth101"
  }
]

  • ${ConfigFile}:網卡設定檔。

  • ${DeviceName}:指定的網卡裝置。

請根據業務需要,添加所需要的彈性網卡,或者刪除不存在網卡對應的設定檔。

GuestOS.Firewall

系統防火牆狀態檢查

GuestOS.NetworkFirewall.Enabled

該執行個體的防火牆(即iptables設定)目前處於開啟狀態,如果伺服器開啟了防火牆,並設定了屏蔽外界訪問的規則,可能會導致遠端存取執行個體失敗。

請您根據業務需要,調整防火牆的配置。具體操作,請參見開啟或關閉Linux系統防火牆

GuestOS.CloudInitService

Cloud-init服務狀態檢查

GuestOS.CloudinitService.BadDriverStatus

該執行個體的cloud-init驅動目前處於異常狀態,可能導致執行個體在系統初始化階段的相關係統配置無法正確執行,進而導致執行個體無法正常訪問。

{
  "CloudinitEnabled": "enabled",
  "CloudInitSupport": "vpc",
  "GrowpartInstall": "installed",
  "CloudinitInstall": "installed"
}

返回結果屬性說明如下:

  • ${CloudInitInstall}:CloudInit安裝狀態。

  • ${CloudInitEnabled}:CloudInit啟用狀態。

  • ${GrowpartInstall}:Growpart安裝狀態。

  • ${CloudInitSupport}:CloudInit支援的網路類型。

請根據需要檢查並啟動執行個體內的cloud-init服務進程。具體操作,請參見安裝cloud-init

GuestOS.CloudinitService.StartFailed

該執行個體的cloud-init在啟動時未能正常結束,可能導致執行個體系統相關配置失敗,從而無法訪問執行個體。

您可以通過VNC登入執行個體,查看cloud-init系統日誌,並根據需要重啟執行個體

GuestOS.SSHServiceStatus

SSH服務狀態檢查

GuestOS.SSH.ForbiddenRootLogin

該執行個體SSH服務當前禁止root帳號登入,導致執行個體root帳號無法通過SSH訪問。

{
 "File" : "/etc/ssh/sshd_config"
}

返回結果屬性說明如下:

${File}:禁止root帳號登入的設定檔。

修複root遠程登入報錯的問題。具體操作,請參見通過SSH用戶端登入Linux執行個體時提示“Permission denied, please try again”錯誤怎麼辦?

GuestOS.SSH.MissingCriticalFileOrDirectory

該執行個體SSH服務對應的關鍵檔案或目錄缺失,會導致執行個體無法通過SSH訪問。

{
  "Files": [
    {
      "File": "/var/empty/*"
    }
  ]
}

返回結果屬性說明如下:

${File}:缺失的關鍵檔案或目錄。

請根據需要重新設定SSH相關目錄和檔案。具體操作,請參見檢查Linux執行個體是否存在SSH服務所需的必備檔案或目錄

GuestOS.SSH.IncorrectSSHFilePermission

該執行個體SSH服務依賴的檔案存取權限配置不當,會導致執行個體無法通過SSH訪問。

{
  "Files": [
    {
      "File": "/etc/ssh/ssh_host_ecdsa_key",
      "CurrentPermission": "0777"
    }
  ]
}

返回結果屬性說明如下:

  • ${Files}:許可權配置錯誤的檔案清單。

  • ${File}:許可權配置錯誤的檔案路徑。

  • ${CurrentPermission}:當前的檔案許可權配置。

請根據需要重新設定SSH相關目錄和檔案。具體操作,請參見檢查Linux執行個體是否存在SSH服務所需的必備檔案或目錄

GuestOS.SSH.ListeningPortMismatchWithConfig

該執行個體sshd進程當前正在監聽的地址和連接埠與配置的地址和連接埠不一致,可能導致SSH串連到預期的地址和連接埠時失敗。

sshd進程當前正在監聽的地址和連接埠,不在sshd的設定檔/etc/ssh/sshd_config內。

[
  {
    "Address": "0.0.0.0",
    "Port": 2223
  }
]

返回結果屬性說明如下:

  • ${Address}:監聽的地址。

  • ${Port}:監聽的連接埠。

請根據實際情況需要,調整sshd設定檔中的監聽地址與連接埠後,重啟sshd進程使其生效。

具體操作,請參見SSH的存取權限異常導致無法遠端連線Linux執行個體

GuestOS.TimeSyncService

時間同步服務狀態檢查

GuestOS.TimeSyncService.Disabled

該執行個體的時間同步服務目前未正常工作或配置不當,可能導致執行個體系統內的時間與實際標準時間出現偏差,進而影響執行個體內部分應用無法正常工作。

[
  {
    "Status": "disabled",
    "ServiceName": "chronyd"
  }
]

返回結果屬性說明如下:

  • ${ServiceName}:服務名稱。

  • ${Status}:服務狀態。

請根據需要調整時間同步服務相關配置。具體操作,請參見行政時間同步服務

GuestOS.OSOOM

檢查系統是否發生過OOM

GuestOS.Memory.OOM

該執行個體Guest OS內部曾經發生了OOM(Out of Memory)問題。

系統最近一次發生OOM的時間和詳情日誌如下:

[
  {
    "Message": "Mar 25 15:54:50 iZm5ej4ue05oijaudem8shZuser.err: Out of memory testing"
  }
]

請您檢查當前執行個體記憶體大小是否足以支撐執行個體上啟動並執行業務,必要時,請升級配置提升執行個體記憶體。

分析OOM的根因並解決的方法,請參見如何處理Linux執行個體中的OOM問題?

執行個體作業系統內相關配置診斷結果說明(Windows)

診斷指標ID

診斷指標說明

診斷結果條目ID

診斷指標條目說明

建議操作

GuestOS.WinCPUUtil

檢查CPU是否使用率過高

GuestOS.CPU.HighUtilization

該執行個體總CPU的總使用率已超過80%。

CPU使用率排名前5的進程如下,請檢查這些進程是否正常。

{
  "ProcessCPUUsageTop5": [
    {
      "Pid": "1234",
      "CommandName": "/usr/bin/cpu_load.py",
      "AverageCPU": 80
    }
  ]
}

返回結果屬性說明如下:

  • ${ProcessCPUUsageTop5} :系統內CPU使用率Top5的進程列表。

  • ${Pid}:進程ID。

  • ${CommandName}:進程名稱。

  • ${AverageCPU}: CPU平均使用率。

請您檢查CPU進程是否存在異常,如果是正常業務導致,建議對ECS配置進行升級。

核查單個CPU使用率過高的方法,請參見Windows執行個體CPU使用率較高問題的排查與處理

GuestOS.WinCoreCPU.HighUtilization

該執行個體一個或多個CPU的使用率已超過85%。

單個CPU使用率超過85%的資訊如下,請檢查如下進程是否正常。

{
  "CPUCoreUsage": [
    {
      "Processor": 1,
      "AverageCPU": 80
    }
  ]
}

返回結果屬性說明如下:

  • ${CPUCoreUsage}:CPU使用率超過85%的核心列表。

  • ${Processor}:CPU核心編號。

  • ${AverageCPU}:CPU核心使用率。

請檢查如下進程是否正常,核查單個CPU使用率過高的方法,請參見Windows執行個體CPU使用率較高問題的排查與處理

GuestOS.WinMemoryUtil

檢查記憶體使用量率是否過高

GuestOS.WinMemory.HighUtilization

該執行個體當前記憶體的總使用率超過80%。

記憶體使用量率排名前5的進程如下:

{
  "TopUtilizationProcesses": [
    {
      "TotalMemory": 134389760,
      "Pid": "4560",
      "CommandName": "powershell"
    }
  ],
  "AverageMemory": 87.0
}

返回結果屬性說明如下:

  • ${CPUCoreUsage}:CPU使用率超過85%的核心列表。

  • ${Processor}:CPU核心編號。

  • ${AverageCPU}: CPU核心使用率。

請根據需要關閉不需要的服務或進程,分析Windows記憶體使用量率過高的方法,請參見Windows系統記憶體分析工具的介紹

GuestOS.WinMemory.LicenseCorrupted

該執行個體的Windows許可證資料庫被破壞或配置錯誤,導致Windows系統工作管理員上顯示的硬體保留的記憶體大小遠大於可用記憶體,進而導致監控到的執行個體記憶體使用量率過高。

{
  "MemoryForHardware": 19723407362
}

返回結果屬性說明如下:

${MemoryForHardware}:硬體記憶體大小(單位B)。

恢複Windows許可證資料庫,然後重啟執行個體,即可恢複正常。

修複Windows系統許可證資料庫被破壞或配置不當的方法,請參見Windows執行個體為硬體保留記憶體過多導致執行個體卡頓如何處理

GuestOS.WinSysDiskUtil

系統硬碟容量使用率過高

GuestOS.WinFileSystem.InsufficientSpace

該執行個體系統硬碟(C盤)當前的剩餘空間過小,可能導致系統運行緩慢甚至執行個體無法啟動。

[
  {
    "FreeSize": 2860625,
    "FilesystemName": "C:"
  }
]

返回結果屬性說明如下:

  • ${FilesystemName}:執行個體系統硬碟盤符。

  • ${FreeSize}:剩餘空間(單位B)。

請您根據需要對系統硬碟進行擴容,或對執行個體規格進行升級。

具體操作,請參見雲端硬碟擴容指引

GuestOS.WinSystemConfig

檢查系統關鍵配置狀態檢查

GuestOS.WinOSVersion.Low

該執行個體Guest OS的作業系統版本過低,阿里雲和微軟已不再維護。

{
  "Version": "10.0.14393"
}

返回結果屬性說明如下:

${Version}:作業系統版本。

請您根據需要重裝系統,升級到更高版本的Windows系統。執行個體重裝系統的方法,請參見更換系統硬碟(更換作業系統)作業系統遷移

GuestOS.VirtIOVersion.Low

該執行個體作業系統的VirtIO驅動版本過低,會導致執行個體磁碟無法線上擴容。

裝置{Device}當前使用的VirtIO版本為{Version},該驅動版本不支援磁碟線上擴容。

[
  {
    "Version": 58010,
    "Device": "Red Hat VirtIO Ethernet Adapter"
  }
]

返回結果屬性說明如下:

  • ${Device}:驅動名稱

  • ${Version}:版本

請根據需要選擇是否升級VirtIO的版本。

升級VirtIO版本的方法,請參見更新Windows執行個體的virtio驅動

GuestOS.WinCrashDump.Disabled

該執行個體系統crash dump配置為關閉狀態,當系統出現異常重啟或藍屏時,系統無法儲存相關資訊進行故障排查。

{
    "Status" : "disable"
}

返回結果屬性說明如下:

${Status}:該執行個體系統crash dump配置狀態。

請根據業務需要選擇是否要開啟crash dump配置。

Windows開啟crash dump方法,請參見為執行個體開啟或關閉核心崩潰轉儲服務

GuestOS.KMSService.MismatchedKey

該執行個體採用Key Management Service進行Windows系統啟用,但KMS客戶機所使用的啟用金鑰與Windows版本不一致,導致Windows系統啟用失敗。

{
    "PartialProductKey" : "4M64B"
}

返回結果屬性說明如下:

${PartialProductKey}:KMS Client Setup key的最後5位。

請根據Windows啟用教程,選擇與Windows系統版本匹配的密鑰進行啟用。

使用KMS啟用Windows系統的方法,請參見

使用KMS網域名稱啟用ECS執行個體的正版Windows Server系統

GuestOS.KMSService.Disconnected

該執行個體當前無法正常串連到Key Management Service(KMS)的啟用伺服器,導致執行個體啟用失敗。

{
  "KMSServerStatus": "KmsServerStable"
}

返回結果屬性說明如下:

${KMSServerStatus}: KMS Server狀態。

請檢查執行個體內的防火牆配置或者第三方軟體,是否攔截KMS啟用伺服器的訪問,並根據需要修改相關配置。

檢查KMS啟用伺服器的方法,請參見ECS執行個體使用的Windows系統啟用失敗如何解決?

GuestOS.SPPSVCService.Unhealthy

該執行個體的軟體保護平台服務(SPPSVC.exe)未正常啟動或運行,會導致Windows系統無法啟用和無法進入啟用設定項。

{
  "SppsvcStatus": "Disabled"
}

返回結果屬性說明如下:

${SppsvcStatus}:sppsvc服務狀態。

請根據Windows啟用教程,嘗試重新啟動SPPSVC.exe服務,並將SPPSVC負責狀態修改為自動(延遲啟動),確保該服務下次自動啟動。

GuestOS.SystemPatch.Incorrect

該執行個體安裝了不正確的系統補丁,可能導致系統異常重啟或宕機。

執行個體當前錯誤的補丁如下:

{
  "IncorrectHotfixName": "KB5009547"
}

返回結果屬性說明如下:

${IncorrectHotfixName}:異常補丁名稱。

請根據業務需要選擇合適的時間卸載對應的錯誤補丁。

卸載Windows補丁的方法,請參見如何卸載Windows執行個體中的系統補丁?

GuestOS.WinFiles.Missing

該執行個體系統目錄(C:\Windows\)中的部分關鍵系統檔案缺失,可能導致執行個體登入後出現黑屏或運行異常。

{
    "MissingFile" : "C:\\Windows\\write.exe"
  }

${MissingFile}:缺失的系統檔案。

請根據業務需要,儘快恢複該系統檔案。具體操作,請參見遠程登入Windows執行個體出現黑屏,無法進入案頭怎麼辦?

GuestOS.OperatingSystem.Unactivated

該執行個體使用的Windows系統處於未啟用狀態,可能導致Windows的部分個人化服務無法正常使用。

請根據Windows啟用教程,使用正確的Key Management Service(KMS)啟用該執行個體的Windows系統。具體操作,請參見Windows系統ECS執行個體啟用失敗

GuestOS.WinSystemInit

系統初始化狀態檢查

GuestOS.SysPrepService.Interrupted

該執行個體因建立時過早重啟執行個體導致系統準備服務(SysPrep)的初始化過程中斷,作業系統的部分關鍵配置未能正確完成,可能導致執行個體無法正常啟動。

{
  "ImageState": "IMAGE_STATE_COMPLETE1"
}

返回結果屬性說明如下:

${ImageState}:鏡像狀態。

由於執行個體第一次建立時系統初始化未能正確完成,請您根據需要選擇通過更換系統硬碟重裝系統,或重新建立一個新執行個體來替代本執行個體。

具體操作,請參見更換系統硬碟(更換作業系統)重新初始化系統硬碟(重設作業系統)

GuestOS.SysPrepService.InitFailed

該執行個體在第一次建立時的系統初始化流程未能正常結束,可能導致執行個體無法正常工作。

報錯資訊如下:

{
  "Events": "install_virtio_error "
}

返回結果屬性說明如下:

${Events}:事件。

請您根據需要選擇通過更換系統硬碟重裝系統或重新建立一個新執行個體來替代本執行個體。

具體操作,請參見更換系統硬碟(更換作業系統)重新初始化系統硬碟(重設作業系統)

GuestOS.WinSystemUser

Administrator帳號檢查

GuestOS.WinAdministrator.NotExist

該執行個體系統帳號Administrator不存在,可能會導致服務無法正常訪問的情況。

{
  "Status": "disable"
}

返回結果屬性說明如下:

${Status}:Administrator啟用狀態。

請根據業務需要開啟Administrator帳號。

GuestOS.WinNetworkStatus

網路設定和狀態檢查

GuestOS.WinNetworkInterfaceDriver.Disabled

該執行個體的網卡目前處於不可用狀態,可能導致執行個體無法遠端連線。

網卡目前狀態為關閉。

[
  {
    "Status": "not OK",
    "Device": "Red Hat VirtIO Ethernet Adapter"
  }
]

返回結果屬性說明如下:

  • ${Device}:網卡驅動名稱

  • ${Status}:狀態

請根據需要修複網卡的狀態。

檢查並修複網卡狀態的方法,請參見檢查網路

GuestOS.WinRDPPort.Closed

該執行個體系統內連接埠目前處於未開放狀態,或者防火牆處於開啟狀態,導致無法使用遠端桌面連線RDP服務來訪問該執行個體。

[
  {
    "Status": "disable",
    "Port": 3387
  },
  {
    "Status": "disable",
    "Port": 3388
  }
]

返回結果屬性說明如下:

  • ${Port}:連接埠。

  • ${Status}:狀態。

請根據需要調整該連接埠的開放狀態。

開啟3389連接埠允許遠端桌面連線的方法,請參見Windows執行個體如何啟動遠端桌面連線RDP服務

GuestOS.WinDHCPService.Disabled

該執行個體網卡上的DHCP配置處於關閉狀態,可能會導致服務無法訪問的情況。

[
  {
    "Status": "enable",
    "Device": "Red Hat VirtIO Ethernet Adapter"
  }
]

返回結果屬性說明如下:

  • ${Device}:裝置名稱。

  • ${Status}:裝置狀態。

請根據需要調整該連接埠的開放狀態。

GuestOS.WinNetworkInterface.LackIPV4Address

該執行個體的某個網卡未擷取到IPv4地址,可能會導致服務無法訪問的情況。

[
  {
    "Name": "eth0"
  }
]

返回結果屬性說明如下:

${Name}:網卡名稱。

請根據需要檢查該執行個體的DHCP服務是否啟用或檢查執行個體的靜態地址是否配置。

GuestOS.NetworkProxy.Enabled

該執行個體配置了網路代理程式,可能會導致服務無法正常訪問的情況。

[
  {
    "Name": "ie"
  }
]

返回結果屬性說明如下:

${Name}:網卡上配置的代理。

請根據需要確定是否關閉這些網路代理程式。

GuestOS.WinPort.Conflict

該執行個體的遠端桌面通訊協定(RDP)服務所使用的連接埠被其他進程佔用,出現連接埠衝突,可能導致執行個體無法通過遠端桌面進行訪問。

{
  "ConflictPort": "3389",
  "ConflictServer": "svchost node"
}

  • ${ConflictPort}:服務連接埠。

  • ${ConflictServer}:佔用連接埠的服務。

請根據業務需要,通過VNC登入執行個體,並修改前面兩個服務使用的連接埠,確保遠端桌面服務能正常工作。具體操作,請參見遠程登入Windows執行個體發生連接埠衝突如何解決?

GuestOS.WinDiskStatus

Windows磁碟狀態檢查

GuestOS.SystemDisk.Corrupted

該執行個體的系統硬碟(C盤)目前處於異常狀態,可能會導致執行個體重啟後無法啟動,或執行個體驅動無法正常安裝等問題。

{
 "Result": "檢測結果或者報錯資訊"
}

返回結果屬性說明如下:

${Result}:系統硬碟檢查的結果。

請您選擇合適的時間,選擇以下2種方式恢複系統硬碟。

GuestOS.VirtIODriver.DiskIDConflicts

該執行個體因virtIO驅動版本過低導致出現重複的磁碟uniqueID,在做磁碟重設操作時可能會導致執行個體上磁碟資料丟失。

擁有相同uniqueID的磁碟資訊如下:

{
 "DiskUniqueIds": "磁碟uniqueid列表"
}

返回結果屬性說明如下:

${DiskUniqueIds}:磁碟uniqueid列表。

請根據需要儘快升級virtIO驅動解決此問題。

升級virtIO驅動的方法的具體操作,請參見更新Windows執行個體的virtio驅動

GuestOS.WinFirewall

Windows防火牆狀態檢查

GuestOS.WinFirewall.Enabled

該執行個體的防火牆目前處於開啟狀態,可能會導致服務無法訪問的情況。

[
  {
    "Status": "enabled",
    "Name": "Public"
  }
]

返回結果屬性說明如下:

${Name}:防火牆名稱。

${Status}:狀態。

請根據業務需要調整防火牆的相關策略配置。配置防火牆策略的具體操作,請參見Windows系統防火牆策略配置指南

GuestOS.WinDriverStatus

Windows關鍵驅動狀態檢查

GuestOS.DiskFilterDriver.Vestigital

該執行個體的磁碟過濾驅動存在殘留檔案,可能導致執行個體無法識別新掛載的磁碟。

{
 "UpperFilters": "Test"
}

返回結果屬性說明如下:

  • ${LowerFilters}:下層過濾驅動的名稱。

  • ${UpperFilters}:上層過濾驅動的名稱。

請根據業務需要,清除無效的磁碟過濾驅動,並重啟執行個體即可。清除無效的磁碟過濾驅動的具體操作,請參見如何檢查Windows執行個體註冊表中的磁碟驅動殘留項

GuestOS.VirtIODriver.Low

該執行個體的Virtio驅動版本為{VirtioVersion},此版本太低可能影響執行個體出現藍屏、網路丟包、磁碟資料丟失等風險。

{
 "VirtioVersion": "virtio驅動版本",
 "RecommendedVersion":"推薦版本"
}

請根據業務需要,選擇合適的時間儘快升級系統的VirtIO驅動版本。

升級Windows系統VirtIO驅動版本的具體操作,請參見更新Windows執行個體的virtio驅動

Instance.Type.Xen

該執行個體的執行個體規格過老(基於Xen架構),可能導致執行個體的作業系統啟動失敗或裝置管理員異常。

{
 "Status" : "disable"
}

返回結果屬性說明如下:

${Status}:Xen驅動殘留,可能造成系統啟動失敗或者裝置管理員異常。

請根據業務需要對執行個體進行變更配置,升級到新一代的執行個體規格。

具體操作,請參見訂用帳戶執行個體升配規格更改隨用隨付執行個體規格

GuestOS.WinSystemProcess

Windows關鍵系統進程狀態檢查

GuestOS.RDPService.Unavailable

該執行個體的遠端桌面連線服務(RDP)被禁用或損壞,導致執行個體無法通過遠端桌面進行訪問。

請根據業務需要重啟或重新安裝遠端桌面連線服務(RDP)。更多資訊,請參見Windows執行個體如何啟動遠端桌面連線RDP服務

GuestOS.RDP.BlockedByFirewall

該執行個體的遠端桌面連線服務(RDP)的訪問被防火牆攔截,可能導致執行個體無法通過RDP進行串連。

[
  {
    "Rule": "v2.29|Action=Block|Active=TRUE|Dir=In|Protocol=6|Profile=Public|LPort=3389|Name=RDPPORTLatest-TCP-In|"
  }
]

返回結果屬性說明如下:

${Rule}:防火牆規則。

請根據業務需要,選擇關閉防火牆,或者在防火牆規則中添加允許存取RDP(對應3389連接埠)的規則。

Windows系統中允許存取RDP訪問的具體操作,請參見 Windows系統防火牆策略配置指南

GuestOS.WSUS.Disconnected

該執行個體的伺服器更新服務(WSUS)目前串連異常,可能導致執行個體作業系統的產品更新無法正常進行。

請根據業務需要重新設定伺服器更新服務(WSUS)。

GuestOS.Metaserver.Disconnected

該執行個體的中繼資料服務(metaserver)目前無法正常串連或連線逾時,可能導致執行個體的中繼資料無法正常訪問。

請檢查執行個體的防火牆配置是否攔截了IP地址100.100.100.200,如果該IP地址被攔截,請在防火牆設定中允許存取該IP地址後再訪問中繼資料服務。

關於執行個體中繼資料的更多資訊,請參見執行個體中繼資料

GuestOS.WinLicence.Expired

該執行個體的多人遠端桌面服務的許可證已到期,導致RDP服務無法正常使用,進而導致執行個體無法通過遠端桌面進行訪問。

請通過VNC登入執行個體,並根據業務需要,購買微軟多人遠程服務授權或者卸載遠端桌面服務。

修複Windows遠端桌面許可證的方法,請參見遠端桌面服務認證到期導致遠程登入Windows執行個體失敗怎麼辦?

GuestOS.WinThirdPartSoftware

第三方軟體安裝狀態檢查

GuestOS.Operation.InfluencedByAntivirusProcess

該執行個體的安裝了第三方殺毒軟體,可能導致執行個體的某些管理操作(比如重設密碼、無法遠端連線等)無法正常工作,進而造成執行個體異常。

已安裝的殺毒軟體名稱如下:

{
 "AntivirusName": "QQPCRTP"
}

返回結果屬性說明如下:

${AntivirusName}:殺毒軟體名稱。

請根據業務需要選擇是否卸載對應軟體。

使用者行為回溯診斷結果說明

診斷指標ID

診斷指標說明

診斷結果條目ID

診斷指標條目說明

建議操作

Instance.UnexpectedSgCreationOrDeletion

通過角色扮演查詢指定時間範圍內建立、刪除安全性群組的相關操作,若未建立過AliyunServiceRoleForECSSelfService角色,則系統會自動建立。

Instance.UnexpectedSgCreationOrDeletion.Log

展示建立、刪除安全性群組的相關操作。

[
{
"accountId":"11111174379****",
"requestId":"8EB3E59F-878C-5613-8EB3-FE59FDBA****",
"eventSource":"ecs-unit-share.cn-hangzhou.aliyuncs.com",
"eventTime":"2022-11-29 14:51:00",
"eventName":"CreateSecurityGroup",
"sourceIpAddress":"cloudmonitor.aliyuncs.com",
"eventType":"ApiCall",
"referencedResources":"[[i-bp17557glrxatoi4****]]",
"userName":"AliyunServiceRoleForCloudMonitor:cloudmonitor"
}
]

您可以通過Action Trail查看更多詳情,具體操作,請參見通過Action Trail控制台查詢事件

Instance.UnexpectedSgMember

通過角色扮演查詢指定時間範圍內執行個體加入、移出安全性群組的相關操作,若未建立過AliyunServiceRoleForECSSelfService角色,則系統會自動建立,更多資訊。

Instance.UnexpectedSgMember.Log

展示執行個體加入、移出安全性群組的相關操作。

[
{
"accountId":"11111174379****",
"requestId":"8EB3E59F-878C-5613-8EB3-FE59FDBA****",
"eventSource":"ecs-unit-share.cn-hangzhou.aliyuncs.com",
"eventTime":"2022-11-29 14:51:00",
"eventName":"JoinSecurityGroup",
"sourceIpAddress":"cloudmonitor.aliyuncs.com",
"eventType":"ApiCall",
"referencedResources":"[[i-bp17557glrxatoi4****]]",
"userName":"AliyunServiceRoleForCloudMonitor:cloudmonitor"
}
]

您可以通過Action Trail查看更多詳情,具體操作,請參見通過Action Trail控制台查詢事件

Instance.UnexpectedFee

通過角色扮演查詢指定時間範圍內執行個體費用類的相關操作,若未建立過AliyunServiceRoleForECSSelfService角色,則系統會自動建立。

Instance.UnexpectedFee.Log

展示執行個體費用類的相關操作。

[
{
"accountId":"11111174379****",
"requestId":"8EB3E59F-878C-5613-8EB3-FE59FDBA****",
"eventSource":"ecs-unit-share.cn-hangzhou.aliyuncs.com",
"eventTime":"2022-11-29 14:51:00",
"eventName":"Runinstances",
"sourceIpAddress":"cloudmonitor.aliyuncs.com",
"eventType":"ApiCall",
"referencedResources":"[[i-bp17557glrxatoi4****]]",
"userName":"AliyunServiceRoleForCloudMonitor:cloudmonitor"
}
]

您可以通過Action Trail查看更多詳情,具體操作,請參見通過Action Trail控制台查詢事件

Instance.UnexpectedCreationOrRelease

通過角色扮演查詢指定時間範圍內建立、刪除執行個體的相關操作,若未建立過AliyunServiceRoleForECSSelfService角色,則系統會自動建立。

Instance.UnexpectedCreationOrRelease.Log

展示建立、刪除執行個體的相關操作。

[
{
"accountId":"11111174379****",
"requestId":"8EB3E59F-878C-5613-8EB3-FE59FDBA****",
"eventSource":"ecs-unit-share.cn-hangzhou.aliyuncs.com",
"eventTime":"2022-11-29 14:51:00",
"eventName":"Runinstances",
"sourceIpAddress":"cloudmonitor.aliyuncs.com",
"eventType":"ApiCall",
"referencedResources":"[[i-bp17557glrxatoi4****]]",
"userName":"AliyunServiceRoleForCloudMonitor:cloudmonitor"
}
]

您可以通過Action Trail查看更多詳情,具體操作,請參見通過Action Trail控制台查詢事件

Instance.UnexpectedRunningStatus

通過角色扮演查詢指定時間範圍內影響執行個體運行狀態的相關操作,若未建立過AliyunServiceRoleForECSSelfService角色,則系統會自動建立。

Instance.UnexpectedRunningStatus.Log

展示影響執行個體運行狀態的相關操作。

[
{
"accountId":"11111174379****",
"requestId":"8EB3E59F-878C-5613-8EB3-FE59FDBA****",
"eventSource":"ecs-unit-share.cn-hangzhou.aliyuncs.com",
"eventTime":"2022-11-29 14:51:00",
"eventName":"Runinstances",
"sourceIpAddress":"cloudmonitor.aliyuncs.com",
"eventType":"ApiCall",
"referencedResources":"[[i-bp17557glrxatoi4****]]",
"userName":"AliyunServiceRoleForCloudMonitor:cloudmonitor"
}
]

您可以通過Action Trail查看更多詳情,具體操作,請參見通過Action Trail控制台查詢事件