背景
集成环境上在执行某个操作时,频繁报出类找不到错误,下图为部分异常信息。
问题分析
最开始以为是jar包依赖有问题。但看了业务数据,相同操作有时能正常走完流程。初步排除jar包依赖问题。但具体是什么问题呢?通过该日志没有更多的线索了。
有个技巧:排查问题时,我们希望能找到产生问题的根源点。这个异常信息很有可能是其他问题导致的,因此我们需要往前看日志。从哪个时间点会看日志呢?很明显,需要找到该异常发生的第一次时间点。
根据该思路,往前找到了第一次跑出该异常的点,然后接着往前找,发现了一个系统异常:
这个异常比较明显:打开了太多的文件。
linux系统可以针对用户、进程进行一些资源的限制,具体可参考ulimit命令。通过这个异常信息,大概猜测出进程打开了太多的文件。
通过ulimit -a(或直接使用ulimit -n查看进程可以打开的最大文件数),查看系统的一些配置:
可以看出限制进程能打开的最大文件数为1024。
找到服务的进程号,使用lsof -p pid | wc -l,查看打开的文件数,发现确实达到了上限。
至此问题根源找到。
总结
因为集成环境配置较低,而测试人员设置了高并发的压测,导致无法打开更多文件。因为类加载时也需要打开jar文件进行读取,所以该类无法正常加载到持久代,最终导致类无法找到的问题产生。
我们在看日志时,往往无法直接通过日志信息定位到问题,此时就应该怀疑该问题是由于另外一个问题导致的。因此,适当的往前看看日志,对于定位问题是很有帮助的。
版权声明:本文为博主原创文章,未经博主允许不得转载。
时间: 2024-10-10 12:33:15