linux系统重启网卡后网络不通(NetworkManager篇)

一.故障现象

RHEL7.6系统,使用nmcli绑定双网卡后,再使用以下命令重启network服务后主机网络异常,导致无法通过ssh远程登录系统。

# systemctl restart network

二.理论知识

Network service的制御网络接口配置信息改动后,网络服务必须从新启动,来激活网络新配置的使得配置生效,这部分操作和从新启动系统时时一样的作用。制御(控制)是/etc/init.d/network这个文件,可以用这个文件后面加上下面的参数来操作网络服务。例如:
# /etc/init.d/network restart
同样也可以用service这个命令来操作网络服务例如:
# service network restart
# systemctl restart network
(NetworManager)是检测网络、自动连接网络的程序。无论是无线还是有线连接,它都可以令您轻松管理。对于无线网络,网络管理器可以自动切换到最可靠的无线网络。利用网络管理器的程序可以自由切换在线和离线模式。网络管理器可以优先选择有线网络,支持 VPN。网络管理器最初由 Redhat 公司开发,现在由 GNOME 管理

三.环境分析

系统版本:Red Hat Enterprise Linux Server release 7.6
内核版本:3.10.0-957.el7.x86_64
硬件类型:Huawei 2288H V5
首先检查系统网络配置,该系统配置两块bonding设备,分别是:
bond0:业务网络
bond1: Oracle RAC心跳网络
分析系统日志,当重启network服务时(systemctl restart network),系统messages日志中无明显异常,测试发现,当停止NetworkManager服务后,问题现象消失,即执行如下操作:

# systemctl stop NetworkManager

此时再次重启network服务:

# systemctl restart network

可以很快ping通bond0的业务地址10.116.6.194。
进一步分析发现,如果不停止NetworkManager服务,而是修改网卡配置文件,在bonding网卡和组成bonding的slave网卡的配置文件中增加一行配置,也可以解决该问题。

NM_CONTROLLED=no

参考红帽RHEL7配置网卡bonding的官方文档:
linux系统重启网卡后网络不通(NetworkManager篇)插图
可以看到,官方文档的配置示例中设置了NM_CONTROLLED=”no”:
linux系统重启网卡后网络不通(NetworkManager篇)插图1

四.原厂问题建议

该问题是由于NetworkManager服务引起,可以通过如下两种方法解决:

  • 在网卡配置文件中增加参数NM_CONTROLLED=no(“no”的引号可以不写),设置后重启network服务生效。设置NM_CONTROLLED=no的目的是将网络设备脱离NetworkManager服务的管理,设置后该网络设备仅由network服务管理,不受NetworkManager服务控制,因而nmcli命令对该网络设备不再生效;
  • 停止并禁用NetworkManager服务,停用后所有网络设备由network服务管理,不能通过nmcli命令来管理网络设备:

# systemctl stop NetworkManager
# systemctl disable NetworkManager

五.解决方案

据上所述,可关闭NetworkManager服务或在BOND配置文件中添加参数,但因环境需要,需使用nmcli命令,故无法关闭NetworkManager,在多轮测试中进行思考,既然NetManager与network服务冲突,但nmcli命令属于NetworkManager,systemctl一般用来管理network,考虑两者管理命令可能也存在冲突后进行了一波测试,使用NetworkManager的nmcli进行网卡的重启操作,使用以下命令后,网络可以即刻ping通并通过SSH连接

# nmcli connection down 网口名称
# nmcli connection up 网口名称

六.结论

因NetworkManager与network服务存在冲突,且双网卡绑定时所使用的的nmcli进行绑定,nmcli归属于NetworkManager,故重启网卡时应用nmcli命令up/down,不应使用systemctl进行网卡重启

阅读剩余
THE END
诺言博客