本文介绍混合云备份HBR备份客户端的常见网络问题。

背景信息

在非阿里云VPC的各类线下环境中安装备份客户端时,可能遇到各种未知且复杂的网络环境。例如防火墙会阻拦域名或端口的连接导致备份失败,防火墙会限制网络传输速度导致部分请求超时,网络行为检测工具会检测并修改一些HTTP请求内容,上行带宽过小时会导致请求超时甚至备份失败等。

常见网络问题概览

问题诊断工具检测客户端日志问题分析及排查方法
控制台显示打开备份库失败通过诊断工具检测,出现如下问题:
  • i/o timeout
  • An existing connection was forcibly closed by the remote host
  • No connection could be made because the target machine actively refused it.
客户端日志中出现如下相关描述:
  • i/o timeout
  • An existing connection was forcibly closed by the remote host
  • No connection could be made because the target machine actively refused it.
备份客户端到对应域名的请求失败。可能原因如下:
  • 防火墙规则禁用了某些地址或端口
  • 网络带宽比较小
  • 设置了上行或下行的带宽限速
  • 同时进行的备份任务很多,挤占带宽
  • 杀毒软件可能影响备份服务正常运行
  • 本地机器配置了代理,代理工作不正常
  • 网络行为检测工具检测到非法内容限制了对应请求
  • 专线故障
  • VPN或云企业网故障
具体排查方法,请参见请求失败排查方法
控制台显示打开备份库失败通过诊断工具检测,出现如下问题:

This is usually a temporary error during hostname resolution and means that the local server did not receive a response from an authoritative server.

客户端日志中出现如下相关描述:

This is usually a temporary error during hostname resolution and means that the local server did not receive a response from an authoritative server.

对应域名的DNS解析失败。可能原因如下:
  • 无法连接DNS服务器或超时
  • DNS服务器配置有误
  • 防火墙或网络规则限制
具体排查方法,请参见DNS解析失败排查方法

请求失败排查方法

  1. 检查网络和HBR接入点域名及端口的连通性。
    1. 检查您的网络防火墙规则。
      HBR备份客户端使用的接入点及端口,必须配置白名单或者放行规则。

      诊断工具提示的地址若为http开头,需要检查对应的地址以及80端口;若为https开头,需要检查对应的地址以及443端口。

    2. 检查您是否开启杀毒软件(例如360等)。
      杀毒软件可能会影响HBR备份服务进程正常运行,导致服务异常。建议您关闭杀毒软件后重试。
    3. 检查是否配置代理(http、socks5、tcp)及代理是否工作正常。
      代理必须能正常代理HBR备份客户端的接入点及端口消息。
    4. 若使用云企业网实现网络互通,请咨询云企业网售后,确保对应接入点及端口工作正常。
    5. 若使用阿里云VPN实现网络互通,请咨询阿里云VPN售后,确保对应接入点及端口工作正常。
  2. 执行telnet访问对应接入点及端口,确认当前网络中上行(备份)或下行(恢复)可用带宽。
    其中接入点可以为HBR客户端问题诊断工具检测到的管控(通信)网络公网域名。例如telnet访问接入点及端口的命令如下:
    telnet post-cn-mp90rcien05.mqtt.aliyuncs.com 80
    1. 若存在网络监控,请查看网络流量监控在备份、恢复的时间点对应的网络流量情况。
    2. 若使用公网,建议咨询运营商或网络管理员了解网络流量情况。
    3. 若使用云企业网或阿里云VPN,请在云企业网或阿里云VPN控制台确认带宽以及查看对应监控数据。
  3. 根据带宽以及同时进行的任务数,判断是否当前带宽不足导致。
    例如上行带宽有20 MB/s,而可用于备份的可能仅有10 MB/s,这种情况若数据量足够大,会导致类似请求失败问题。
  4. 若无法确定带宽(主要上行带宽),建议使用ossutil(oss官方工具) probe进行探测,了解网络流量情况。
    1. 获取接入点域名、AccessKey。
      可以为HBR客户端问题诊断工具检测到的管控(通信)网络公网域名。
    2. 下载及安装ossutil。
      具体操作,请参见ossutil下载和安装
    3. 探测上传带宽。
      创建一个名称为examplebucket的临时Bucket,并上传一个临时文件到examplebucket,并根据当前设备的硬件配置及上传带宽给出上传并发数的配置建议。执行命令如下:
      ./ossutil64 probe --probe-item upload-speed --bucketname examplebucket
      输出如下:
      cpu core count:2 
      parallel:2,average speed:679.72(KB/s),current speed:1344.00(KB/s),max speed:1440.00(KB/s)) 
      parallel:3,average speed:643.31(KB/s),current speed:704.00(KB/s),max speed:1632.00(KB/s)) 
      parallel:4,average speed:646.62(KB/s),current speed:512.00(KB/s),max speed:1600.00(KB/s)) 
      suggest parallel is 2, max average speed is 679.72(KB/s)
  5. 若经过上述检查,确实为可用带宽不足的问题导致,建议进行以下操作。
    1. 提升带宽配置。
    2. 配置超时重试参数,增加超时重试的间隔以及次数,用时间换取带宽,提高备份成功机率。
      具体操作,请参见配置数据备份重试次数及间隔
    3. 调整备份任务执行时间,在网络空闲时在执行备份。
    4. 若网络中有多个备份客户端及任务,合理错开不同备份任务的执行时间,充分利用带宽。

DNS解析失败排查方法

  1. 检查本机DNS配置。
    若未配置私有DNS服务器,建议配置为阿里云公共DNS地址223.5.5.5
  2. 检查防火墙规则,HBR备份客户端使用的接入点及端口,必须配置白名单或者放行规则。
  3. 咨询网络管理员是否有其他限制。
  4. 确保到诊断工具提示的地址可以正确解析后,重新尝试备份。