python爬虫5--requests请求库

使用该库需先安装，能更方便的处理Cookies，登录验证，代理设置等。

urllib中urlopen()实际是以GET方法请求网页，requests中响应的方法为get()，另外还可用post(),put(),delete()等方式实现POET,PUT,DELETE等请求。

1 普通用法

1.1 GET请求

如果网页返回的是JSON格式，可以调用json()方法转变成字典格式。

1.2 POST请求

1.3 属性

requests的属性：
text和content：响应的内容；
status_code：状态码；
headers：响应头；
cookies：Cookies信息；
url：url；
history：请求的历史

2 高级用法

2.1 文件上传

代码：

import requests

files = {‘file’:open(‘文件名‘,‘rb)}

res = requests.post(url,files=files)

2.2 Cookies

登录后将headers里的cookies内容复制下来，封装在headers中，来维持登录状态。

2.3 会话维持

利用Session，可以模拟同一个会话，通常用于模拟登录成功之后再进行下一步操作。

2.4 SSL证书验证

可以在发送请求时加一个verify参数，默认True。

2.5 代理设置

用proxies参数

2.6 超时设置

timeout参数，默认为None。请求分为连接和读取两个阶段，timeout设置的时间为两个阶段的总和

2.7 身份验证

req = requests.get(url,auth=(‘username‘,‘userpass‘)

原文地址：https://www.cnblogs.com/rong1111/p/12143007.html

时间： 2024-10-21 19:51:43

python爬虫5--requests请求库的相关文章

第三百二十二节，web爬虫，requests请求

第三百二十二节,web爬虫,requests请求 requests请求,就是用yhthon的requests模块模拟浏览器请求,返回html源码模拟浏览器请求有两种,一种是不需要用户登录或者验证的请求,一种是需要用户登录或者验证的请求一.不需要用户登录或者验证的请求这种比较简单,直接利用requests模块发一个请求即可拿到html源码 #!/usr/bin/env python # -*- coding:utf8 -*- import requests #导入模拟浏览器请求模块 http

python爬虫入门request 常用库介绍

什么是爬虫? 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模拟程序或者蠕虫. 其实通俗的讲就是通过程序去获取web页面上自己想要的数据,也就是自动抓取数据. 你可以爬去妹子的图片,爬取自己想看看的视频..等等你想要爬取的数据,只要你能通过浏览器访问的数据都可以通过爬虫获取爬虫的本质模拟浏览器打开网页,获取网页中我们想要的那部分数据浏览器打开网页的过程

Python爬虫入门之Urllib库的高级用法

1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性. 首先,打开我们的浏览器,调试浏览器F12,我用的是Chrome,打开网络监听,示意如下,比如知乎,点登录之后,我们会发现登陆之后界面都变化了,出现一个新的界面,实质上这个页面包含了许许多多的内容,这些内容也不是一次性就加载完成的,实质上是执行了好多次请求,一般是首先请求HTML文件,然后加载JS,CSS 等等,经过多次

Python爬虫准备——requests和bs4安装

昨天想要写一下Python爬虫试试,但没想到导入的包并没有安装好.有两个这样的包,requests和bs4,requests是网络请求,bs4是html解析器. 那么接下来就说一下如何安装这两个包一.用指令安装(pip install ……) 大体上来说就是,打开DOS(命令提示符),进入到你安装Python环境的目录下,找到Scripts目录并进入,然后执行指令进入DOS有两种方法: 1.Win+R,输入cmd 然后点击确定即可进入 2.Win+S,打开搜索框,搜索cmd并进入进入以后,

python爬虫二、Urllib库的基本使用

什么是Urllib Urllib是python内置的HTTP请求库包括以下模块 urllib.request 请求模块 urllib.error 异常处理模块 urllib.parse url解析模块 urllib.robotparser robots.txt解析模块 urlopen 关于urllib.request.urlopen参数的介绍: urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=No

1、web爬虫，requests请求

requests请求,就是用python的requests模块模拟浏览器请求,返回html源码模拟浏览器请求有两种,一种是不需要用户登录或者验证的请求,一种是需要用户登录或者验证的请求一.不需要用户登录或者验证的请求这种比较简单,直接利用requests模块发一个请求即可拿到html源码 #!/usr/bin/env python # -*- coding:utf8 -*- import requests #导入模拟浏览器请求模块 http =requests.get(url="http:

Python爬虫开发系列之三》Requests请求库的使用

Requests是一个实用.简单.强大的Python HTTP客户端库,编写爬虫和测试服务器响应数据时经常会用到.Requests 能够完全满足如今网络的需求.接下来我们从最基本的get post 请求开始到高级特性一步一个脚印去学习.学习是个渐进的过程,只有脚踏实地不断的去练习才能掌握这些重要的知识点. 一.发送请求 get /post 按照规例首先要导入Requests模块>>> import requests r=requests.get('https://www.baidu.c

python爬虫之requests库

requests库介绍发送http请求的第三方库,兼容python2和python3 安装: pip install requests 使用: import requests发送请求response = requests.get(url)response = requests.post(url) 响应内容请求返回的值是一个response对象,是对http协议服务端返回数据的封装response对象主要属性和方法: response.status_code 返回码 response.hea

python非转基因HTTP请求库--Requests: 让 HTTP 服务人类

快速上手迫不及待了吗?本页内容为如何入门 Requests 提供了很好的指引.其假设你已经安装了 Requests.如果还没有,去安装一节看看吧. 首先,确认一下: Requests 已安装 Requests 是最新的让我们从一些简单的示例开始吧. 发送请求使用 Requests 发送网络请求非常简单. 一开始要导入 Requests 模块: >>> import requests 然后,尝试获取某个网页.本例子中,我们来获取 Github 的公共时间线: >>>

python应用之爬虫实战2 请求库与解析库

知识内容: 1.requests库 2.selenium库 3.BeautifulSoup4库一.requests库 1.安装及简单使用 (1)安装 1 pip3 install requests (2)简单使用 1 import requests 2 3 r = requests.get("http://www.baidu.com") # 发起get请求 4 print(r.status_code) # 打印状态码 5 r.encoding = "utf-8"