本文介紹ECS執行個體作業系統內部(GuestOS)的常見問題,以及對應的修複方案。
Linux作業系統(GuestOS)常見問題與解決方案
無法正常啟動
檢查fstab檔案中的塊裝置資訊是否存在
如果執行個體中存在塊裝置,但塊裝置資訊在fstab檔案中不存在,重啟系統時可能導致系統無法正常啟動。您必須移除
/etc/fstab檔案中不存在的塊裝置資訊。具體操作,請參見如何移除Linux執行個體“/etc/fstab”檔案中不存在的塊裝置。檢查fstab檔案中塊裝置是否正確掛載
如果未正確掛載塊裝置,重啟系統時可能導致系統無法正常啟動。具體操作,請參見Linux執行個體中存在未正確掛載的磁碟。
檢查fstab檔案內容格式是否正確
如果
/etc/fstab設定檔存在格式錯誤,重啟系統時可能導致系統無法正常啟動。具體操作,請參見Linux執行個體的“/etc/fstab”設定檔存在格式錯誤。使用fsck命令檢查系統檔案
如果檔案系統損壞,可能會導致執行個體無法正常啟動。具體操作,請參見Linux執行個體的檔案系統檢查與修複。
無法正常登入
檢查limits設定是否正確
Linux系統的
/etc/security/limits.conf設定檔可以對系統資源進行限制,如果系統中nofile參數值超過了nr_open參數值,則可能導致無法遠端連線執行個體。具體操作,請參見調整Linux執行個體中limits系統參數的方法。檢查關鍵系統使用者(即root帳號)的密碼是否存在
執行個體中關鍵的系統使用者資訊丟失,會導致無法登入Linux執行個體。具體操作,請參見Linux執行個體中關鍵的系統使用者不存在。
檢查系統關鍵檔案格式
一些關鍵檔案的格式如果不是Unix格式,可能會導致無法登入Linux執行個體。具體操作,請參見Linux執行個體中修改檔案為Unix格式的方法。
檢查SSH的存取權限配置是否正確
Linux執行個體中關於SSH的存取權限配置異常,會導致無法登入Linux執行個體。具體操作,請參見SSH的存取權限異常導致無法遠端連線Linux執行個體。
檢查SSH訪問所需要的關鍵檔案或目錄是否存在
Linux執行個體中SSH訪問所需要的關鍵檔案或目錄丟失,例如執行個體中缺少
sshd_config設定檔,可能會導致無法登入Linux執行個體。具體操作,請參見檢查Linux執行個體是否存在SSH服務所需的必備檔案或目錄。檢查大頁記憶體設定是否過大
當執行個體的大頁記憶體設定過大,可能會導致無法登入Linux執行個體,需要調整
/etc/sysctl.conf檔案中大頁記憶體的值。具體操作,請參見調整Linux執行個體大頁記憶體的方法。檢查作業系統是否OOM
如果存在OOM問題,可能會導致無法登入Linux執行個體。具體操作,請參見Linux執行個體存在OOM問題的處理方法。
檢查系統防火牆是否開啟
如果伺服器開啟了防火牆,並設定了屏蔽外界訪問的規則,那麼在遠端連線該伺服器時,可能會導致訪問失敗。具體操作,請參見開啟或關閉Linux執行個體中的系統防火牆。
檢查TCP SACK是否開啟
當Linux執行個體未開啟TCP SACK時,可能會影響Linux執行個體的網路效能。具體操作,請參見Linux執行個體開啟TCP SACK的方法。
檢查UDP緩衝是否溢出
在Linux執行個體內如果存在UDP緩衝溢出的現象,可能會影響Linux執行個體的網路效能,導致無法登入Linux執行個體。具體操作,請參見Linux執行個體UDP緩衝溢出導致無法遠端連線。
檢查SELinux是否開啟
如果系統啟用了SELinux服務,可能在遠端連線執行個體時報錯。具體操作,請參見Linux執行個體中由於SELinux服務開啟導致SSH遠端連線異常。
無法通過SSH或VNC登入執行個體
您可以卸載異常執行個體的系統硬碟,然後掛載到其他執行個體作為資料盤,在其他執行個體中進行相應的操作。具體操作,請參見卸載Linux執行個體的系統硬碟並掛載到其他ECS執行個體作為資料盤的方法。
串連執行個體時報錯
使用root使用者通過SSH登入Linux執行個體時,報
Permission denied, please try again錯誤。具體操作,請參見使用root使用者通過SSH登入Linux執行個體時報“Permission denied, please try again”的錯誤。
無法訪問執行個體
檢查NAT環境核心參數是否正確
本網通過NAT共用的方式上網,並且Linux系統相關核心參數配置異常,導致無法通過SSH串連Linux執行個體,訪問該執行個體上的HTTP服務也出現異常。具體操作,請參見Linux系統核心配置問題導致NAT環境訪問執行個體出現異常。
檢查進程是否啟動以及常見業務連接埠是否處於監聽狀態
如果您無法訪問Linux執行個體中的服務,可能的原因之一是該服務對應的進程未處於運行中。具體操作,請參見Linux執行個體啟動常見服務並查詢連接埠監聽狀態的方法。
網路不通
檢查DHCP配置是否正確
ECS執行個體預設使用DHCP為彈性網卡自動分配IP地址,並獲得IP地址租約到期時間。如果網卡設定檔存在錯誤,或者網卡對應的dhclient進程未運行可能引發Linux執行個體的DHCP服務出現異常,導致執行個體網路不通。具體操作,請參見Linux執行個體中本地網卡的DHCP配置檢查與修複。
檢查網路相關進程是否存在
Linux系統內對應的網路進程不存在,且網路設定為DHCP,則會在IP地址的租約到期之後,出現無法續租導致網路中斷的問題。具體操作,請參見Linux系統網路進程不存在。
檢查網卡多隊列是否開啟
網卡多隊列指執行個體規格支援的最大網卡隊列數。單台ECS執行個體CPU處理網路中斷存在效能瓶頸時,您可以將執行個體中的網路中斷分散給不同的CPU處理,從而提升效能。具體操作,請參見配置網卡多隊列。
效能問題
檢查TCP backlog是否溢出
在Linux執行個體內如果存在TCP backlog緩衝溢出的現象,可能會影響Linux執行個體的網路效能,導致無法登入Linux執行個體。具體操作,請參見Linux執行個體TCP backlog緩衝溢出導致無法遠端連線執行個體。
CPU使用率是否過高
如果CPU持續保持高使用率,則會對系統穩定性和業務運行造成影響。具體操作,請參見Linux系統CPU負載的查詢和案例分析。
磁碟無法寫入檔案
隨著業務的發展和應用資料增長,您可以線上擴容指定雲端硬碟的容量,包括系統硬碟和資料盤。具體操作,請參見線上擴容雲端硬碟或者離線擴容雲端硬碟。
Windows作業系統(GuestOS)常見問題與解決方案
無法正常登入
檢查Windows網卡是否開啟
Windows執行個體中系統網卡不可用,會導致無法登入執行個體。具體操作,請參見Windows執行個體中系統網卡處於不可用狀態。
檢查Windows系統的3389連接埠是否開放
使用遠端桌面連線RDP服務,可以方便地管理和操作Windows執行個體。如果您未開啟遠端桌面連線RDP服務,則無法進行遠端桌面連線。具體操作,請參見Windows執行個體如何啟動遠端桌面連線RDP服務。
檢查virtio驅動的版本是否過低
如果virtio驅動版本過低,可能導致無法登入執行個體。具體操作,請參見Windows執行個體更新RedHat VirtIO驅動。
檢查防火牆是否設定正確
防火牆設定不當,可能導致無法登入執行個體。具體操作,請參見Windows Server執行個體防火牆策略的配置方法。
效能問題
CPU使用率是否過高
如果CPU持續保持高使用率,則會對系統穩定性和業務運行造成影響。具體操作,請參見Windows執行個體中CPU使用率較高問題的排查及解決方案。
檢查Windows作業系統的版本
微軟已經於2020年01月14日停止對Windows Server 2008和Windows Server 2008 R2作業系統提供支援。因此阿里雲不再對使用上述作業系統的ECS執行個體提供支援人員。如果您有使用上述作業系統的ECS執行個體,請儘快更新至Windows Server 2012或以上版本。當前支援的鏡像請參見公用鏡像概述,您也可以在售賣頁查看。
檢查磁碟容量
Windows系統有時會出現C盤的磁碟空間不斷減小的情況,導致系統不能正常操作。具體操作,請參見Windows系統臨時檔案佔用過多磁碟空間。