本文介绍了不同发行平台的阿里云镜像的已知故障、故障涉及范围以及解决方法。

Debian 9.6:经典网络配置问题

  • 问题描述:无法Ping通使用Debian 9公共镜像创建的经典网络类型实例。
  • 问题原因:因为Debian系统默认禁用了systemd-networkd服务,经典网络类型实例无法通过DHCP(Dynamic Host Configuration Protocol)模式自动分配IP。
  • 涉及镜像ID:debian_9_06_64_20G_alibase_20181212.vhd。
  • 修复方案:您需要运行下列命令解决此问题。
    systemctl enable systemd-networkd 
    systemctl start systemd-networkd

CentOS 6.8:装有NFS Client的实例异常崩溃的问题

  • 问题描述:加载了NFS客户端(NFS Client)的CentOS 6.8实例出现超长等待状态,只能通过重启实例解决。
  • 问题原因:在2.6.32-696 ~ 2.6.32-696.10的内核版本上使用NFS服务时,如果通信延迟出现毛刺(glitch,电子脉冲),内核nfsclient会主动断开TCP连接。若NFS服务端(Server)响应慢,nfsclient所使用的连接有机率卡顿在FIN_WAIT2状态。正常情况下,FIN_WAIT2默认在一分钟后超时并被回收,nfsclient可以发起重连。但是此版本内核的TCP实现有缺陷,FIN_WAIT2状态的连接永远不会超时,nfsclient的TCP连接永远无法关闭,无法发起新的连接,造成用户请求卡死(hang死),永远无法恢复,只能通过重启ECS实例修复。
  • 涉及镜像ID:centos_6_08_32_40G_alibase_20170710.vhd和centos_6_08_64_20G_alibase_20170824.vhd。
  • 修复方案:您可以升级内核至2.6.32-696.11及以上版本:
    yum update
    说明 操作实例时,请确保您已经提前创建了快照备份数据。

CentOS 7:重启系统后主机名大写字母被修改

Aliyun Linux 2:开启内核选项CONFIG_PARAVIRT_SPINLOCK可能导致性能问题

  • 问题描述:开启内核选项CONFIG_PARAVIRT_SPINLOCK后,当ECS实例vCPU数量较多,且应用中有大量锁竞争操作时,应用性能会受到较大影响(例如, Nginx应用的短连接处理能力会因此大幅下降),您可能会在应用中观察到性能下降的问题。
  • 涉及镜像:Aliyun Linux 2
  • 修复方案:内核选项CONFIG_PARAVIRT_SPINLOCK在Aliyun Linux 2上默认处于关闭状态。如果您不确定如何处理内核问题,请勿开启CONFIG_PARAVIRT_SPINLOCK

Aliyun Linux 2:内核特性透明大页THP开关置为always可能会导致系统不稳定或性能问题

  • 问题描述:在您的生产环境系统中,将透明大页THP(Transparent Hugepage)开关置为always,可能会引发系统不稳定和性能下降等问题。
  • 涉及镜像:Aliyun Linux 2
  • 修复方案:内核特性透明大页(Transparent Hugepage, THP)开关置为madvise。在某些特殊场景下,例如运行一些性能基准测试套件时,开关置为madvise与置为always相比,性能表现较差。但此类性能基准测试场景的测试结果不具备通用参见性。除非对THP有较为深入的理解,为了避免对系统造成其他竞争影响,建议您保持madvise选项不变。

Aliyun Linux 2:NFS v4.0版本中委托(Delegation)功能可能存在问题

  • 问题描述:NFS委托(Delegation)功能在v4.0版本中可能存在问题。详情请参见NFS委托功能v4.0版本
  • 涉及镜像:Aliyun Linux 2
  • 修复方案:使用NFS v4.0版本时建议您不要开启Delegation功能。如需从服务器端关闭该功能,请参见社区文档

Aliyun Linux 2:NFS v4.1/4.2版本中存在缺陷可能导致应用程序无法退出

  • 问题描述:在NFS的v4.1和v4.2版本中,如果您在程序中使用异步I/O(AIO)方式下发请求,且在所有I/O返回之前关闭对应的文件描述符,有一定几率触发活锁,导致对应进程无法退出。
  • 涉及镜像:Aliyun Linux 2
  • 修复方案:该问题尚无根本解决方法,但是出现概率极低,已向内核社区上报BUG跟进。

Aliyun Linux 2:Meltdown/Spectre漏洞修复会影响系统性能

  • 问题描述:Aliyun Linux 2内核中,默认打开了针对处理器硬件高危安全漏洞Meltdown和Spectre的修复,由于此修复会影响系统性能,在常见的性能基准套件测试中,可能会观察到不同程度的性能下降现象。
  • 涉及镜像:Aliyun Linux 2
  • 修复方案:Meltdown和Spectre是英特尔芯片中发现的两个高危漏洞,攻击者可通过这两个漏洞来访问核心内存,从而窃取应用程序中的敏感信息,因此,建议您不要关闭系统中此类高危漏洞的修复功能。但如果您对系统性能有极高要求,可以运行以下命令关闭该修复功能:
    #追加nopti nospectre_v2到内核启动参数中
    sudo sed -i 's/\(GRUB_CMDLINE_LINUX=".*\)"/\1 nopti nospectre_v2/' /etc/default/grub
    sudo grub2-mkconfig -o /boot/grub2/grub.cfg
    
    #重启系统
    sudo reboot