Python爬虫requests判断请求超时并重新发送请求

在爬虫的执行当中，总会遇到请求连接超时的情况，下面的代码块是在请求超时的情况下，捕捉超时错误并连续发送多次请求，只到请求连接成功。

NETWORK_STATUS = True # 判断状态变量
try:
response = requests.post(url, headers=self.headers, data=data, timeout=5)
if response.status_code == 200:
return response
except requests.exceptions.Timeout:
global NETWORK_STATUS
NETWORK_STATUS = False # 请求超时改变状态

if NETWORK_STATUS == False:
‘‘‘请求超时‘‘‘
for i in range(1, 10):
print ‘请求超时，第%s次重复请求‘ % i
response = requests.post(url, headers=self.headers, data=data, timeout=5)
if response.status_code == 200:
return response
return -1 # 当所有请求都失败，返回 -1 ，此时有极大的可能是网络问题或IP被封。

原文地址：http://www.cnblogs.com/fanjp666888/p/8022282.html

时间： 2024-09-28 21:21:20

Python爬虫requests判断请求超时并重新发送请求的相关文章

python爬虫---scrapy框架爬取图片,scrapy手动发送请求,发送post请求,提升爬取效率,请求传参(meta),五大核心组件,中间件

# settings 配置 UA USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36' 一丶scrapy的图片数据爬取(流数据的爬取) ? scrapy中封装好了一个管道类(ImagesPipeline),基于该管道类可以实现图片资源的请求和持久化存储编码流程: 爬虫文件中解析出图片的地址将

解决python爬虫requests.exceptions.SSLError: HTTPSConnectionPool(host='XXX', port=443)问题

爬虫时报错如下: requests.exceptions.SSLError: HTTPSConnectionPool(host='某某某网站', port=443): Max retries exceeded with url: /login/ (Caused by SSLError(SSLError("bad handshake: Error([('SSL routines', 'tls_process_server_certificate', 'certificate verify fail

Python 爬虫—— requests BeautifulSoup

本文记录下用来爬虫主要使用的两个库.第一个是requests,用这个库能很方便的下载网页,不用标准库里面各种urllib:第二个BeautifulSoup用来解析网页,不然自己用正则的话很烦. requests使用,1直接使用库内提供的get.post等函数,在比简单的情况下使用,2利用session,session能保存cookiees信息,方便的自定义request header,可以进行登陆操作. BeautifulSoup使用,先将requests得到的html生成BeautifulSo

Python 爬虫案例-web微信登陆与消息发送

首先回顾下网页微信登陆的一般流程 1.打开浏览器输入网址 2.使用手机微信扫码登陆 3.进入用户界面 1.打开浏览器输入网址首先打开浏览器输入web微信网址,并进行监控: https://wx.qq.com/ 可以发现网页中包含了一个新的url,而这个url就是二维码的来源. https://login.weixin.qq.com/qrcode/wbfd1Z-a0g== 可以猜测一下获取url的一般网址就是https://login.weixin.qq.com/qrcode,而wbfd1Z-a

爬虫的概述以及使用（request发送请求）

一.使用request发送请求安装:pip install requests(cmd命令行下执行) 二.requests的基本使用 import requests url = "http://www.baidu.com" res = requests.get(url) print(res.encoding) print(res.headers) #里面如果没有Content-Type,encoding=utf-8 ,否则如果charset,就以设置为准,否则就是ISO-

python爬虫---requests库的用法

requests是python实现的简单易用的HTTP库,使用起来比urllib简洁很多因为是第三方库,所以使用前需要cmd安装 pip install requests 安装完成后import一下,正常则说明可以开始使用了. 基本用法: requests.get()用于请求目标网站,类型是一个HTTPresponse类型 import requests response = requests.get('http://www.baidu.com')print(response.status_c

python爬虫-requests

Requests库是目前常用且效率较高的爬取网页的库 1.一个简单的例子 import requests #引入requests库r = requests.get("http://www.baidu.com") #调用get方法获取界面print(r.status_code) #输出状态码print(r.text) #输出页面信息通过以下代码,便可获取一个response对象 2.通用代码框架 import requests def getHtmlText(url): try: r

python爬虫requests过程中添加headers

浏览器中打开页面,以edge为例,点击"查看源"或F12 第一步:点击上图中"网络"标签,然后刷新或载入页面第二步:在右侧"标头"下方的"请求标头"中的所有信息都是headers内容,添加到requests请求中即可代码示例如下: headers = {'Accept': 'text/html, application/xhtml+xml, image/jxr, */*', 'Accept - Encoding':'gzi

python 爬虫 requests+BeautifulSoup 爬取巨潮资讯公司概况代码实例

第一次写一个算是比较完整的爬虫,自我感觉极差啊,代码low,效率差,也没有保存到本地文件或者数据库,强行使用了一波多线程导致数据顺序发生了变化... 贴在这里,引以为戒吧. # -*- coding: utf-8 -*- """ Created on Wed Jul 18 21:41:34 2018 @author: brave-man blog: http://www.cnblogs.com/zrmw/ """ import requests

猜你喜欢

docker registry 安装步骤

实验环境 192.168.30.95 //registry server 192.168.30.96 //docker client 操作系统 centos 7.2 //------------ ...

OpsManage运维部署平台

OpsManage是什么? 一款代码部署.应用部署.计划任务.设备资产管理平台. 开发语言与框架: 编程语言:Python2.7 + HTML + JScripts 前端Web框架:Bootstrap ...

每天一个命令之wc命令（1）

每天一个命令之wc命令 wc:打印出文件中行,字符和字节的数量摘要: wc [OPTION]... [FILE]... wc [OPTION]... --files0-from=F 选项:该命令统计 ...

bash shell学习-基础 (笔记)

When you hoist the sails to cross the sea, you willride the wind and cleave the waves. "长风破浪会有时 ...

ATL常见错误处理

1.VS2008中ATL项目 “对象不支持此属性和方法”问题参考地址:http://blog.sina.com.cn/s/blog_4dfc39d10100slhx.html

理解设计模式之----命令模式

零零碎碎的了解过部分设计模式,但没有系统的学习过,最近晚上有点时间,就买了本程杰的<大话设计模式>,最近想系统的学习下.当看到命令模式的时候,感觉并不是太好理解,于是上网搜索了些资料.发现 ...

HDU 2296 Ring AC自动机 + DP

题意:给你n个模式串,每个模式串有一个得分,让你构造出一个长度为N之内且分数最高的文本串;输出字典序列最小的. 解题思路: AC自动机 + DP , 不过要输出字典序列最小,多开一个一个三维字符串 ...

LINUX系统编程由REDIS的持久化机制联想到的子进程退出的相关问题

19:22:01 2014-08-27 引言: 以前对wait waitpid 以及exit这几个函数只是大致上了解,但是看REDIS的AOF和RDB 2种持久化时均要处理子进程运行完成退出和父进程 ...

Java常见异常总结

1. java.lang.NullPointerException(空指针异常) 调用了未经初始化的对象或者是不存在的对象经常出现在创建图片,调用数组这些操作中,比如图片未经初始化,或者图片创建时 ...

一、一切都是对象

1.引用对象引用 ---------->对象 (遥控器) ----->(电视机) String tv; tv = "电视机"; String tv; ...

关于折纸的动画

其实关于折纸的重点是在HTML和CSS的布局上主要就是要一个嵌套一个,如果不是的话,会有撑开的宽高从而难以连接在一起.不过折纸还没有写完一些兼容,也是参考视频上作的小练习 <html>&l ...

C++学习基础六——复制构造函数和赋值操作符

1.什么是复制构造函数复制构造函数:是构造函数,其只有一个参数,参数类型是所属类的类型,且参数是一个const引用. 作用:将本类的成员变量赋值为引用形参的成员变量. 2.什么是赋值操作符赋值操作 ...

C++学习 —— 住着魔鬼的细节

13周的C++课程转眼就学完了5周,C++的标准基本上已经覆盖到了.再加上coding了上百行,总算是对C++有了一个基本的了解.接下来的学习会是关于STL的,所以在此对目前所学做一个小的总结. th ...

【数据结构】处理哈希冲突的开链法（哈希桶）算法实现

实现哈希表时,我们常见的方法是线性探测.二次探测,这两个算法也很简单.若有兴趣,可以查看我的博客.但是,这两个算法有一个共同点就是:空间利用率低.为什么这么说呢?线性探测.二次探测的高效性很大程度上要 ...

css属性word-spacing和letter-spacing的区别

word-spacing和letter-spacing用来定义单词或者字母之间的水平空白间隔.顾名思义,word-spacing定义了单词之间的空白,例如: <div style="w ...

JAVAOO一点心得体会

JAVAOO学到现在,从基本数据类型到基本语句,再到一些语言特性,再到 IO 操作,网络操作. 学的并不算特别好,尤其是反射那部分还有不少不懂的地方,但是却有一种豁然开朗的感觉,因为我对基本语言学习完 ...

括号匹配（二） -- 经典动态规划

这里的括号匹配 , 如果两个相同的话就执行下面的语句 if(cmp(str[i],str[j])) dp[i][j] = min(dp[i][j],dp[i+1][j-1]); 每次确定 ...

Yaoge's maximum profit Time Limit: 10000/5000 MS (Java/Others) Memory Limit: 65536/65536 K (Java/ ...

手机页面中的meta标签

以前看书的时候,觉得meta标签就只有一个charset对于我来说是有用的.前段时间有个学弟让我写个手机版的网页,我才知道原来meta标签有那么多学问. meta指元素可提供有关页面的元信息(meta ...

中国经济走出困局的最后选择--刘胜军

1.大规模削减个税,刺激消费,消化产能过剩: 2.以阿里.腾讯开办银行为契机,打破央企行政垄断,让民间投资突破玻璃门.弹簧门: 3.强力推进改革,给民企投资.融资松绑: 4.加快金融市场化,消除利率双 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.038 s.