今天莫名其妙的被拉去参加了一场和自己没任何关系的会议。
这场会议是讨论故障的原因何在?
本来系统出了问题,大家按部就班的查找问题就可以了,然后把问题提交上来,并给出解决的方法就可以了,为什么还需要讨论呢,是不是有点可笑。
其实这就是现实的世界,没有人会承认自己的系统有问题的,尤其是涉及到3个厂商,包括我这个旁外的第四个厂商。
在描述问题之前,我来先看下物理拓扑。
web应用是,某1厂商开发部署的,是运行的某2厂商构架的vm云平台虚拟机上,存储设备是某3厂商提供的。
某1厂商的,web应用的站点无法访问,故障表现。根据厂商1观察,应用正常,存储设备无法访问。
电话通知甲方。
甲方确认当晚通知厂商2,和厂商3,远程vpn排除原因。
厂商2反馈,有3台宿主机的HBA卡上的一路有问题。因为是双链路,从技术层面上来看,逻辑链路是通的。
厂商3反馈,存储设备到这3台宿主机之间,只有一条链路是通的,发现这侧通的链路上,超过了最大250的io队列数,现在已经严重挤压,导致链路接口重启。
在整个讨论过程中,甲方的领导,问了下,为什么存储io队列会满的问题。
厂商3工程师,回答:根据设备的性能自动配置的,说存储设备没问题,因为都来一次排队,我们设备就这么大,当然就溢出了,我们也没办法啊。
甲方领导很不满意,并当面训斥了厂商3的工程师,你们什么设备。io队列这么小。让后问相关存储设备的维保问题。然后对这个存储设备的厂商充满了不满情绪。
其实我想说的是,那些不懂技术,而且想处处参与技术讨论,并会刻意攻击人的领导们。
如果你遇到这么一位领导,你会怎么做。
我不禁的想起了,某高层领导,去参加一次非常高端的技术会议,他写了份材料,保存到软盘上。
然后兴致勃勃的去北京某高级会议中心开会去了。到会场后,他要把资料拷贝出来,发现没有可以插软盘的地方。找来技术人员,技术人员吓傻了,心想这TMD都2015了,早几十年前都不用的玩意,这是因为安全吗?当然肯定不敢说这位高级领导什么。