做网络爬虫怕的就是超时,当恰恰出现最多的就是超时,那该怎么办呢!
1,HttpClient默认请求为3次,你可以修改成N次,建议根据实际情况修改
2,设置get方法请求超时为 5 秒
GetMethod getMethod=new GetMethod(url); getMethod.getParams().setParameter(HttpMethodParams.SO_TIMEOUT,5000);
3,设置 Http 连接超时为5秒
HttpClient httpClient=new HttpClient(); httpClient.getHttpConnectionManager().getParams().setConnectionTimeout(5000);
4,将请求超时的链接储存在队列中,选择其他时间再次请求
5,代理IP地址请求重试
6,分时段请求链接
7,记录请求Log输出,解决坏死链接
待完善,续……
时间: 2024-10-13 00:27:51