下午遇到的一个问题。访问一个运行在marathon上服务偶尔会出现NoHttpResponseException,这是个java apache http client的异常。
marathon运行在mesos之上,服务发现是marathon-lb提供的。负载均衡使用的haproxy。
用python和curl都不能重现这个问题。
最后找到的问题症结如下:
1)能重现的只有java client。因为默认使用了连接池:PoolingHttpClientConnectionManager 。连接会使用Connection: keep-alive,在一段时间内会重用连接。4.4以后不会再每次复用连接的时候去检查连接isOpen()。只是在一定时间之后,默认5s。
2)tomcat server默认也是开启keep-alive的,而且默认的timeout等于connectionTimeout。20s(或者60s)配置在这里
3)中间的haproxy默认的keep-alive时间是1s
客户端发送一个请求,sleep 1s,立刻发送第二个请求,就会出现NoHttpResponse错误。sleep的时间太短或者太长,就不能重现。
因为client idel 1s的时候,haproxy就把连接断掉了。client再复用这个连接就出现错误了,server压根就不会收到这个请求。google发现,处理这个问题的通常做法就是retry一下。
果然发现http client builder可以设置一个retry handler,使用这个默认的,DefaultHttpRequestRetryHandler ,会对除了几个特定的异常外的IOException进行尝试,默认也只有幂等的http methods。详细的方法可以看文档。
解决的方法有几种,
1)在client端retry
2)haproxy的keep alive调长,5s以上。5s客户端就会自动检查了
但第二种,要看看会对haproxy造成多大的负担。
另外,ha除了http-keep-alive以外,还有几种模式,例如,http-server-close/forceclose/httpclose/http-tunel,是一个级别的,需要再读读文档看一下。