當ECS執行個體出現核心panic、記憶體溢出OOM(Out Of Memory)等問題,或收到系統事件通知執行個體出現作業系統崩潰時,可以通過宕機診斷分析系統崩潰的具體原因,並根據診斷報告中提供的修複建議進行相應的修複。
使用限制
地區限制
本功能目前僅支援中國內地與中國香港。
許可權限制
若使用RAM使用者,請確保阿里雲帳號(主帳號)已將系統策略
AliyunECSReadOnlyAccess和AliyunSysomFullAccess授予RAM使用者。作業系統限制
架構
作業系統
x86架構
Rocky Linux 9.5
Rocky Linux 9.1
Ubuntu 20.04
Alibaba Cloud Linux 3 容器最佳化版
Rocky Linux 8.8
Ubuntu 22.04
Alibaba Cloud Linux 3 Pro
Alibaba Cloud Linux 2/3
CentOS 7.6及更高版本,或CentOS 8
Anolis OS 7/8
Ubuntu 24.04
ARM架構
Alibaba Cloud Linux 3 Pro
Alibaba Cloud Linux 3
操作步驟
登入CloudMonitor2.0控制台,選擇目標工作空間,在左側導覽列單擊所有功能。
在所有功能頁面,單擊ECS洞察。
在頁面頂部單擊系統診斷(SysOM)。
在診斷模式中選擇節點診斷,在診斷類型列表中,選擇情境診斷;在診斷項列表中,選擇宕機診斷;選擇目標執行個體ID後,單擊執行診斷。
在診斷記錄地區,單擊查看報告。
診斷報告
基礎資訊
基礎資訊部分包含單次診斷的基本資料,包括診斷執行個體ID(資源ID)、診斷項、診斷報告ID及診斷髮起時間。
診斷結論
本次診斷如果系統發生宕機,總結檢測結果並給出宕機的詳細原因。
診斷建議
根據診斷情況提供相應的處理建議。
診斷詳情
基本資料
宕機標題:宕機時錯誤資訊。
現場進程:宕機時CPU上執行的進程名。
RIP函數:宕機時RIP寄存器裡存放的函數地址。
核心版本:系統核心版本。
宕機定界:對宕機的原因進行的初步定界。
宕機堆棧
列出宕機時刻的核心調用棧堆。
錯誤記錄檔
若存在核心報錯日誌,則顯示錯誤記錄檔。例如IO異常、硬體異常等。
若不存在,則不顯示。