奇怪的局域网降速排查小记
缘起
之前有一台用来冷备份的omv主机,使用的是h61的老旧主板搭建的,由于主板只有100m的网卡,插了intel的一张intel的服务器千兆网卡;而为了能够定期唤醒开机自动备份,主板的100m网络也连接着用于网络唤醒。
近期的一次冷备中,发现传输一段时间或者重新开机后,intel网卡的网速就会掉到100m,而且这个时机随机,重新插拔下网线或者把网络中间的2个交换机重启或者重插可能能够短时间恢复。
另外比较奇怪的是,出现问题时intel网卡的ethtool信息显示依然运行在1000m,但是实际iperf测速只有100m。
排查过程
omv和上游网络的拓扑是这样的:
怀疑交换机的其他设备影响
在尝试用游戏pc排查问题时,发现pc的网卡灯灭了,在交换机上插拔后发现pc正常后,速度也就正常了,看起来应该是pc的网卡插线解除不良,这台游戏pc是插在omv上游的交换机上的。
但是经过多次重启一段时间观测,实际不是这个原因,即使把游戏pc从交换机去除掉,过一段时间omv依然会降速到100m。
怀疑是主板上带的100m网卡导致混合速率下交换机降速
发现是插上主板的100mb网卡到交换机就不行了,然后把这个100mb插到mesh的路由器就可以了,可能是交换机的问题,没有很好处理100mb和1000mb混用。
经过测试,把主板网卡插到mesh路由器后是可以唤醒的,但是过一段时间intel网卡降速问题就又来了。。。
而此时尝试把交换机2去除,依然是不行的
怀疑是系统网络驱动问题
发现在omv系统中netplan apply一下就可以了,原因未知,可能是intel的网卡没有正确驱动?确实不像之前有intel的虚拟网卡出现,不知道是不是这个cpu不支持虚拟化导致的?g2030的vt-d是不支持的
但是netplan apply后过一段时间还会降低下去,所以依然是不行的
怀疑主板较老导致多网卡带宽不足
怀疑是由于插了主板的100mb网卡导致,同时在尝试编译intel网卡驱动时,发现第一个网口其实支持weak on lan,试了下确实可以,这样的话后续需要唤醒时直接插一个intel网卡即可,主板的可以去除了,因此也排除了一个可疑点。
于是把这个100mb网卡直接不插网线,把系统的br0的桥接改到intel网卡的第一个网卡上(远离主板那个),试了下可以正常唤醒,同时千兆了。
后来又好奇问题是不是多个网卡系统pcie带宽不够了,于是把另一个intel网口(这张网卡有2个千兆网口)也插上,发现开始两个网口都能千兆,过了一回儿又不行了,变成都是100mb了。
这时候把不能唤醒的网口拔掉,神奇的事情发生了,居然两个网口对应的ip都能联通,虽然是100mb的,猜测可能是intel的网卡有啥容灾的机制,自动切换了物理链路到另一口。
然后就只保留第一个口,现在发现还是不行的,还是只有100mb了
然后尝试把系统br0的桥接去除掉,直接不桥接了,直接用可以唤醒的intel的网口,可以正常获取到ip。
另外发现桥接的一个局域网环线的有趣问题:把br0的桥接设置为主板网卡和intel网卡,然后都插上网线,整个局域网就挂了,应该是这里的br把两个线连起来了,整个局域网存在环线,就完全不行了,eth局域网不允许有环线的。
至此,证明了不是主板较老带宽不足的问题,也不是主板百兆网卡问题。
怀疑交换机1存在问题
发现直接插到mash后的路由器都是100mb的mesh互联了,看起来是路由器到书房的网络中间有问题,尝试换了一个交换机,发现还是不行
罪魁祸首--交换机之间的长连接网线
既然交换机、网卡、游戏pc都排除了,那就怀疑是不是中间的线坏了,把winpc电脑的线拔了,在交换机直接连接其他一台笔记本电脑就是可以的,断定书房桌面到mesh路由器存在问题,今天买了根线换上去,一切就都好了
而出问题的那根网线,仔细看了下才看清楚,tm接头那边线都裸露的,可能接触到一起了,那之前时不时识别1000m,只有100m或者mesh路由器只识别到100m也不奇怪了,调整个姿势线裸露接触到一起了,可不就没法识别,开始可以,一会儿就不可以了,可能也是类似的原因,线不稳定了就局域网不稳定咯;另外也怀疑这根线额存在,影响了局域网整体的网速和稳定性
之前用的tplink无线网络只有100mb可能也是被这个影响到了
另外之前老是识别1000m,实际只有100m,可能也是由于这根坏的先只连接了2个交换机,这样连接在交换机上的设备和交换机握手1000,而中间链路只有100,那速度可不就是掉到100了。。。。。。 g 之前怀疑的intel网卡或者老主板的问题,应该都不是问题了。。。。
解答疑问-为什么重插或者net apply后可以短暂恢复
应该是网线的裸露问题,导致重插后可能移动了网线就好点了,当时整个系统协商到1000mb,传输过程中由于这根接触不良或短路环线的存在,以太网系统就降级到100mb了。
netplan apply也是类似原理,开始是不良的网络协商到1000m,后续不稳定降低到100m,这也是很神奇的,但接触不良的系统内啥都可能发生,能降低到100m也是以太网协议在尽力纠错了(100m只需要4根线完好)。
另外这次的排查也解释了,以太网系统中100m和1000m完全可以共存,不会互相影响速度。
总结
这次其实是个小问题,但总体比较坎坷,中途工作原因也是断断续续的看了一段时间。开始的时候方向不对,先怀疑了老主板、交换机等问题,实在是没有想到是网线导致的问题,当然也是之前认知里网线插上没问题就不会出现用一段时间不行的情况,但实际在存在网线裸露短接等情况下,整个局域网就是不稳定的,出现什么奇怪的降速、环路不通之类的问题都有可能。
因此后续这类问题排查,先看下各块物理设备的状态,包括网线,比如这次但凡看一眼中间连接的网线的状态就发现问题了(开始的时候没注意,连接上去能够正常1000m就没注意了)。
另外一点,不要省网线现在也就一块多一米,但凡裸露的网线就先别用了,防止奇怪问题。
这篇文章更像是流水账,暂时做一个记录吧,把这段时间分析的历程记录下,方便未来或有类似奇怪降速问题的人参考。
发表评论