如果您在容器服务ACK控制台的组件管理页面CoreDNS组件上无法看到升级按钮,且当前组件版本较低,说明您的集群无法进行CoreDNS的自动升级。针对无法自动升级CoreDNS的情况,您可以手动升级CoreDNS。本文介绍CoreDNS手动升级的操作步骤。

前提条件

已通过kubectl工具连接集群。具体操作,请参见通过kubectl工具连接集群

升级CoreDNS过程说明

  • CoreDNS升级过程中,ACK会用新版本的YAML模板覆盖您集群中旧版本的CoreDNS YAML模板,其中CoreDNS的配置文件会被自动升级,但CoreDNS的副本数不会变化。
  • 若您此前对YAML模板进行手动自定义变更,修改了容忍Toleration、内存和CPU的资源请求和限制等字段,将会被覆盖。针对这种情况,您可以手动升级CoreDNS,或者在自动升级CoreDNS后再次更新YAML模板内容。关于如何手动升级,请参见CoreDNS手动升级
  • 如果您使用了IPVS作为kube-proxy负载均衡模式,在CoreDNS升级完成后,您可能会遇到五分钟内全集群范围内的解析超时或失败的情况,通过以下任意方式可以降低IPVS缺陷的影响:
  • 升级过程约2分钟,实际耗时可能和集群中CoreDNS副本数相关。如果遇到新副本无法调度或启动的情况,可提交工单咨询。但旧的副本不会被停止,因此不影响业务解析,升级十分钟内系统会自动回滚。

手动升级

  1. 确认集群版本与CoreDNS版本的兼容性。
    您需要先确认集群版本号,然后再确认与CoreDNS 1.6.2版本的兼容性。ACK Kubernetes集群版本与CoreDNS 1.6.2版本兼容情况如下表(Kubernetes 1.11/1.12/1.14/1.16均兼容CoreDNS 1.6.2版本)。
    版本 兼容信息
    Kubernetes版本 1.11 1.12 1.14 1.16
    CoreDNS 1.6.2 1.6.2 1.6.2 1.6.2

    确认集群版本号的操作步骤如下:

    1. 登录容器服务管理控制台
    2. 在控制台左侧导航栏中,单击集群
    3. 在集群列表中,找到目标集群,然后查看集群Kubernetes版本。version
  2. 确认集群CoreDNS的版本。
    • 您可以在ACK控制台确认CoreDNS的版本。
      1. 登录容器服务管理控制台

      2. 在控制台左侧导航栏中,单击集群
      3. 集群列表页面中,单击目标集群名称或者目标集群右侧操作列下的详情
      4. 在集群管理页面左侧导航栏选择工作负载 > 无状态
      5. 无状态页面顶部设置命名空间为kube-system,然后查看CoreDNS的版本。dns
    • 您还可以通过以下kubectl命令查找CoreDNS的版本。
      kubectl get deployment coredns -n kube-system -o jsonpath="{.spec.template.spec.containers[0].image}"

      预期输出:

      registry-vpc.cn-hangzhou.aliyuncs.com/acs/coredns:1.3.1
  3. 变更CoreDNS配置项。
    1.6.2版本CoreDNS废弃了Proxy插件,使用forward来替代。您需要先将kube-system命名空间下的配置项coredns内的proxy字段替换为forward字段。
    • 您可以在ACK控制台上更新配置项coredns
      1. 登录容器服务管理控制台

      2. 在控制台左侧导航栏中,单击集群
      3. 集群列表页面中,单击目标集群名称或者目标集群右侧操作列下的详情
      4. 在集群管理页面左侧导航栏选择配置管理 > 配置项
      5. 配置项页面顶部设置命名空间为kube-system,然后单击coredns右侧操作列下的YAML编辑
      6. 查看YAML面板,将proxy修改为forward,然后单击确定forward
    • 您还可以通过kubectl命令变更配置项CoreDNS。
      # 打开编辑。
      kubectl edit configmap/coredns -n kube-system
      
      # 替换proxy字段为forward。
      # 保存并退出。
  4. 查看CoreDNS Pod的标准输出是否正常重新加载了配置(热加载新配置一般需要30s)。
    1. 执行以下命令,查看集群内的CoreDNS Pod,确定其是否处于运行状态。
      kubectl get pods -n kube-system | grep coredns

      预期输出:

      coredns-78d4b8bd88-6g62w                           1/1     Running   0          9d
      coredns-78d4b8bd88-n6wjm                           1/1     Running   0          9d
    2. 执行以下命令,查看CoreDNS Pod的日志。
      kubectl logs coredns-78d4b8bd88-n6wjm -n kube-system

      预期输出:

      .:53
      [INFO] plugin/reload: Running configuration MD5 = 71c5f1ff539d304c630521f315dc2ac2
      CoreDNS-1.6.7
      linux/amd64, go1.13.6, da7f65b
      [INFO] 127.0.0.1:48329 - 42313 "HINFO IN 1108347002237365533.4506541768939609094. udp 57 false 512" NXDOMAIN qr,rd,ra 132 0.008874794s

      预期输出中包含plugin/reload信息,说明加载了CoreDNS配置。

  5. 变更CoreDNS应用内镜像版本到1.6.2。
    • 通过控制台操作。
      1. 登录容器服务管理控制台

      2. 在控制台左侧导航栏中,单击集群
      3. 集群列表页面中,单击目标集群名称或者目标集群右侧操作列下的详情
      4. 在集群管理页面左侧导航栏选择工作负载 > 无状态
      5. 无状态页面顶部设置命名空间为kube-system,找到coredns,然后在其右侧选择更多 > 查看Yaml
      6. 编辑YAML页面,更新image中的版本为1.6.2。然后单击更新image
    • 通过kubectl命令操作。
      # 打开编辑。
      kubectl edit deployment/coredns -n kube-system
      
      # 变更镜像版本到1.6.2。
      # 保存并退出。
  6. 验证结果。
    执行以下命令查看集群内所有CoreDNS Pod是否都处于Running的正常状态。
    kubectl get pods -n kube-system | grep coredns
    预期输出:
    coredns-78d4b8****-6g62w                           1/1     Running   0          9d
    coredns-78d4b8****-n6wjm                           1/1     Running   0          9d

配置IPVS类型集群的UDP超时时间

如果您的ACK集群使用了kube-proxy IPVS模式,IPVS的会话保持策略会导致整个集群在升级完成后五分钟内出现概率性解析失败的问题。您可以按以下方式降低IPVS UDP类型的会话保持超时时间至10秒,以减少解析失败的次数。如果您ACK集群中包含UDP类型的业务,需要您提前评估该操作是否有影响再执行该操作。如果您无法评估,您可以提交工单咨询。
说明 如果您的集群不是IPVS类型,请忽略配置IPVS类型集群的UDP超时时间的操作。关于如何查看kube-proxy代理模式,请参见查看基本信息

K8s 1.18及以上版本集群

控制台操作方式

  1. 登录容器服务管理控制台
  2. 在控制台左侧导航栏中,单击集群
  3. 集群列表页面中,单击目标集群名称或者目标集群右侧操作列下的详情
  4. 在集群管理页左侧导航栏中,选择配置管理 > 配置项
  5. 在顶部选择kube-system命名空间,然后单击配置项kube-proxy-worker右侧的YAML编辑
  6. 查看YAML面板中的ipvs字段下,添加udpTimeout: 10s,然后单击确定
    apiVersion: v1
    data:
      config.conf: |
        apiVersion: kubeproxy.config.k8s.io/v1alpha1
        kind: KubeProxyConfiguration
        // 其它不相关字段已省略。
        mode: ipvs
        // 如果ipvs键不存在,需要添加此键。
        ipvs:
          udpTimeout: 10s
  7. 重建所有名为kube-proxy-worker的容器。
    1. 在集群管理页左侧导航栏中,选择工作负载 > 守护进程集
    2. 在守护进程集列表中,找到并单击kube-proxy-worker
    3. kube-proxy-worker页面中的容器组页签下对应容器组右侧,选择更多 > 删除,然后单击确定
      重复操作删除所有容器组。删除容器组后,系统会自动重建所有容器。
  8. 验证UDP超时时间的配置是否成功。
    1. 执行以下命令安装ipvsadm

      ipvsadm是IPVS模块的管理工具。更多信息,请参见ipvsadm

      yum install -y ipvsadm
    2. 在集群任意一台ECS节点中执行以下命令查看第三个数字。
      ipvsadm -L --timeout
      如果输出结果中第三个数字是10,则说明IPVS类型集群的UDP超时时间变更成功。
      说明 变更成功后,请观察至少五分钟后再进行下一步操作。

命令行操作方式

  1. 执行以下命令修改kube-proxy的配置文件kube-proxy-worker
    kubectl -n kube-system edit configmap kube-proxy-worker
  2. 在kube-proxy配置文件中的ipvs字段下,添加udpTimeout: 10s并保存退出。
    apiVersion: v1
    data:
      config.conf: |
        apiVersion: kubeproxy.config.k8s.io/v1alpha1
        kind: KubeProxyConfiguration
        // 其它不相关字段已省略。
        mode: ipvs
        // 如果ipvs键不存在,需要添加此键。
        ipvs:
          udpTimeout: 10s
  3. 执行以下命令重建所有名为kube-proxy-worker的容器。
    1. 执行以下命令查看存在的容器组信息。
      kubectl -n kube-system get pod -o wide | grep kube-proxy-worker
    2. 执行以下命令删除上步骤中查看所有容器,系统将会自动重建名为kube-proxy-worker容器。
      kubectl -n kube-system delete pod <kube-proxy-worker-****>
      说明 将<kube-proxy-worker-****>替换为上述打印的所有容器组名称。
  4. 验证UDP超时时间的配置是否成功。
    1. 执行以下命令安装ipvsadm

      ipvsadm是IPVS模块的管理工具。更多信息,请参见ipvsadm

      yum install -y ipvsadm
    2. 在集群任意一台ECS节点中执行以下命令查看第三个数字。
      ipvsadm -L --timeout
      如果输出结果中第三个数字是10,则说明IPVS类型集群的UDP超时时间变更成功。
      说明 变更成功后,请观察至少五分钟后再进行下一步操作。

K8s 1.16及以下版本集群

此类版本集群的kube-proxy不支持udpTimeout参数,推荐使用OOS服务批量在所有集群机器上执行ipvsadm命令以调整UDP超时时间配置。命令如下:
yum install -y ipvsadm
ipvsadm -L --timeout > /tmp/ipvsadm_timeout_old
ipvsadm --set 900 120 10
ipvsadm -L --timeout > /tmp/ipvsadm_timeout_new
diff /tmp/ipvsadm_timeout_old /tmp/ipvsadm_timeout_new

关于OOS的批量操作实例介绍,请参见批量操作实例

后续步骤

升级完成后,您可以对CoreDNS进行优化,合理配置CoreDNS。具体操作,请参见合理配置CoreDNS