双11在进行程序扩容后,进行联合压测演练,主要上游进行程序层面压测,下游可以
一并分析压测情况并进行分析。
梳理了程序对于redis的依赖,程序对于数据库的依赖,程序本身的降级预案,调用别人
服务的降级预案。
在过程中遇到了一些问题,前边文章已经分析到一种情况在并发量高时清理磁盘,在
写日志程序会发生极大延时,虽然清理磁盘时间持续很短一盘在一分钟,但还是要避免,因为
一分钟可能导致整个线上情况的恶化。
出现了一个新的问题,某个服务每分钟百万请求压到每分钟千万请求,期间tp99升高,
分析原因发现为两个扩容机房所有机器出现tcp大量包传输错误,以及tcp大量重传包,此处
交由网络部来分析是docker、还是机器、或者是整个网络链路的某个节点出了问题。进行
相应处理。
时间: 2024-10-29 19:06:10