前段时间一个客户改成电信网通自动路由后(当然和这个没有关系,但是客户一般没有分析能力,会多想),用户经常大面积掉线,用户才180多个,在线最多也才120多,十分苦恼,原先帮其维护的技术人员,只是远程诊断以后,来了一句,路由没有问题,就再也不理了。
大家都知道,WayOs路由器,是开机读取配置文件的,所以不存在损坏的说法,如果损坏,一般就是配置文件损失,导致配置丢失,或者系统文件损坏,导致无法开机。所以我对于这种动不动就说路由有问题的技术员,强制BS下。。。
下面我给大家分析一下我处理问题的思路:
1、首先掉线的时候有下面的日志,就是DDOS处有大量的攻击包,用户超时掉线
2、看到这个问题,就头大了,但是我们需要用事实说话,所以就抓包。。。
我在主交换机开启了镜像模式,抓主接口的数据,这样才能保证抓到所有用户的数据,这样才方便分析
3、等了大概有3个多小时了,在我准备放弃的时候,突然用户又异常掉线了。。。此时抓包软件也卡死了。。。。
我知道此时大量的数据包攻击导致的电脑无法响应。。。所以现在只能等待。
4、大概等了半个小时左右,软件反应过来了。。。所以看到了数据包。才进行处理
由于文件太大,太卡要等待太久了,所以就懒得截图了
5、其实在抓到数据包之前,我是建议用户把主干全部换成千M的,包括千M的交换机模块。虽然说这样有可能可以解决问题,但是用户需要增加太多的成本了,这对于只有一百多个用户的客户来讲,正常是无法接受的。
6、后面抓到数据包,也就根据攻击类型,进行相关的策略设置,观察了一天,木有再发现问题了。。。
7、经过这个攻击问题,我发现百M的NETLINK收发器,实在太垃圾了。大量的数据连接,他先挂了。。。直接跳闪。但是这样的好处是,路由没挂,还可以看到攻击数据
不然一秒钟60多万的数据包攻击,相信D525也是无法接受的