爬虫(四):requests模块

1. requests模块

1.1 requests简介

requests 是一个功能强大、简单易用的 HTTP 请求库,比起之前用到的urllib模块,requests模块的api更加便捷。(本质就是封装了urllib3)

可以使用pip install requests命令进行安装,但是很容易出网络问题,所以我找了下国内的镜像源来加速。

然后就找到了豆瓣的镜像源:

pip install 包名 -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com

只要将包名修改一下,就能快速下载模块了。

1.2 requests请求

请求方法有很多种,但是我们只讲最常用的两种:GET请求和POST请求。

1.2.1 GET请求

GET方法用于向目标网址发送请求,方法返回一个Response响应对象,Response下一小节详细讲解。

GET方法的参数:

url:必填,指定请求的URL

params:字典类型,指定请求参数,常用于发送GET请求时使用

例子:

import requests
url = ‘http://www.httpbin.org/get‘
params = {
    ‘key1‘:‘value1‘,
    ‘key2‘:‘value2‘
}
response = requests.get(url=url,params=params)
print(response.text)

结果:

headers:字典类型,指定请求头部

例子:

import requests
url = ‘http://www.httpbin.org/headers‘
headers = {
    ‘USER-AGENT‘:‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36‘
}
response = requests.get(url=url,headers=headers)
print(response.text)

结果:

proxies:字典类型,指定使用的代理

例子:

import requests
url = ‘http://www.httpbin.org/ip‘
proxies = {
    ‘http‘:‘113.116.127.164:8123‘,
    ‘http‘:‘113.116.127.164:80‘
}
response = requests.get(url=url,proxies=proxies)
print(response.text)

结果:

cookies:字典类型,指定Cookie

例子:

import requests
url = ‘http://www.httpbin.org/cookies‘
cookies = {
    ‘name1‘:‘value1‘,
    ‘name2‘:‘value2‘
}
response = requests.get(url=url,cookies=cookies)
print(response.text)

结果:

auth:元组类型,指定登陆时的账号和密码

例子:

import requests
url = ‘http://www.httpbin.org/basic-auth/user/password‘
auth = (‘user‘,‘password‘)
response = requests.get(url=url,auth=auth)
print(response.text)

结果:

verify:布尔类型,指定请求网站时是否需要进行证书验证,默认为 True,表示需要证书验证,假如不希望进行证书验证,则需要设置为False

import requests
response = requests.get(url=‘https://www.httpbin.org/‘,verify=False)

结果:

但是在这种情况下,一般会出现 Warning 提示,因为 Python 希望我们能够使用证书验证。

如果不希望看到 Warning 信息,可以使用以下命令消除:

import urllib3
urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)

timeout:指定超时时间,若超过指定时间没有获得响应,则抛出异常

1.2.2 POST请求

POST请求和GET请求的区别就是POST数据不会出现在地址栏,并且数据的大小没有上限。

所以GET的参数,POST差不多都可以使用, 除了params参数,POST使用data参数即可。

data:字典类型,指定表单信息,常用于发送 POST 请求时使用

例子:

import requests
url = ‘http://www.httpbin.org/post‘
data = {
    ‘key1‘:‘value1‘,
    ‘key2‘:‘value2‘
}
response = requests.post(url=url,data=data)
print(response.text)

结果:

1.3  requests响应

1.3.1 response属性

使用GET或POST请求后,就会接收到response响应对象,其常用的属性和方法列举如下:

response.url:返回请求网站的 URL

response.status_code:返回响应的状态码

response.encoding:返回响应的编码方式

response.cookies:返回响应的 Cookie 信息

response.headers:返回响应头

response.content:返回 bytes 类型的响应体

response.text:返回 str 类型的响应体,相当于response.content.decode(‘utf-8‘)

response.json():返回 dict 类型的响应体,相当于json.loads(response.text)

import requests
response = requests.get(‘http://www.httpbin.org/get‘)
print(type(response))
# <class ‘requests.models.Response‘>
print(response.url) # 返回请求网站的 URL
# http://www.httpbin.org/get
print(response.status_code) # 返回响应的状态码
# 200
print(response.encoding) # 返回响应的编码方式
# None
print(response.cookies) # 返回响应的 Cookie 信息
# <RequestsCookieJar[]>
print(response.headers) # 返回响应头
# {‘Access-Control-Allow-Credentials‘: ‘true‘, ‘Access-Control-Allow-Origin‘: ‘*‘, ‘Content-Encoding‘: ‘gzip‘, ‘Content-Type‘: ‘application/json‘, ‘Date‘: ‘Mon, 16 Dec 2019 03:16:22 GMT‘, ‘Referrer-Policy‘: ‘no-referrer-when-downgrade‘, ‘Server‘: ‘nginx‘, ‘X-Content-Type-Options‘: ‘nosniff‘, ‘X-Frame-Options‘: ‘DENY‘, ‘X-XSS-Protection‘: ‘1; mode=block‘, ‘Content-Length‘: ‘189‘, ‘Connection‘: ‘keep-alive‘}
print(type(response.content))# 返回 bytes 类型的响应体
# <class ‘bytes‘>
print(type(response.text)) # 返回 str 类型的响应体
# <class ‘str‘>
print(type(response.json())) # 返回 dict 类型的响应体
# <class ‘dict‘>

1.3.2 编码问题

#编码问题
import requests
response=requests.get(‘http://www.autohome.com/news/‘)
# response.encoding=‘gbk‘ #汽车之家网站返回的页面内容为gb2312编码的,而requests的默认编码为ISO-8859-1,如果不设置成gbk则中文乱码
print(response.text)

原文地址:https://www.cnblogs.com/liuhui0308/p/12047950.html

时间: 2024-11-07 15:34:45

爬虫(四):requests模块的相关文章

爬虫学习 04.Python网络爬虫之requests模块(1)

爬虫学习 04.Python网络爬虫之requests模块(1) 引入 Requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用. 警告:非专业使用其他 HTTP 库会导致危险的副作用,包括:安全缺陷症.冗余代码症.重新发明轮子症.啃文档症.抑郁.头疼.甚至死亡. 今日概要 基于requests的get请求 基于requests模块的post请求 基于requests模块ajax的get请求 基于requests模块ajax的post请求 综合项目练习:爬取国家药品监

爬虫学习 06.Python网络爬虫之requests模块(2)

爬虫学习 06.Python网络爬虫之requests模块(2) 今日内容 session处理cookie proxies参数设置请求代理ip 基于线程池的数据爬取 知识点回顾 xpath的解析流程 bs4的解析流程 常用xpath表达式 常用bs4解析方法 了解cookie和session - 无状态的http协议 如上图所示,HTTP协议 是无状态的协议,用户浏览服务器上的内容,只需要发送页面请求,服务器返回内容.对于服务器来说,并不关心,也并不知道是哪个用户的请求.对于一般浏览性的网页来说

python3 爬虫之requests模块使用总结

Requests 是第三方模块,如果要使用的话需要导入.Requests也可以说是urllib模块的升级版,使用上更方便. 这是使用urllib的例子. import urllib.request import json url = 'http://www.weather.com.cn/data/sk/101190408.html' res = urllib.request.urlopen(url)#发送请求 result = res.read().decode()#获取结果,结果是byte类型

爬虫之requests模块

引入 在学习爬虫之前可以先大致的了解一下HTTP协议~ HTTP协议:https://www.cnblogs.com/peng104/p/9846613.html 爬虫的基本流程 简介 简介:Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库,Requests它会比urllib更加方便,可以节约我们大量的工作.一句话,requests是python实现的最简单易用的HTTP库,建议爬虫使用requests库.默认安装好pyth

04,Python网络爬虫之requests模块(1)

Requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用. 警告:非专业使用其他 HTTP 库会导致危险的副作用,包括:安全缺陷症.冗余代码症.重新发明轮子症.啃文档症.抑郁.头疼.甚至死亡. 今日概要 基于requests的get请求 基于requests模块的post请求 基于requests模块ajax的get请求 基于requests模块ajax的post请求 综合项目练习:爬取国家药品监督管理总局中基于中华人民共和国化妆品生产许可证相关数据 知识点回顾 常见

网络爬虫之requests模块

一 . requests模块的学习 什么是requests模块 ? requests模块是python中原生的基于网络请求的模块,其主要作用是用来模拟浏览器发起请求.功能强大,用法简洁高效.在爬虫领域中占据着半壁江山的地位. 为什么要使用requests模块 因为在使用urllib模块的时候,会有诸多不便之处,总结如下: 手动处理url编码 手动处理post请求参数 处理cookie和代理操作繁琐 ...... 使用requests模块: 自动处理url编码 自动处理post请求参数 简化coo

python网络爬虫之requests模块

什么是requests模块: requests模块是python中原生的基于网路请求的模块,其主要作用是用来模拟浏览器发送请求,功能强大,用法简洁高效,在爬虫的领域占半壁江山 如何使用requests模块: 安装:pip install requests 使用流程: 1.指定url 2.发送请求 3.获取数据 4.持久化存储 爬虫之反爬机制 未完待续 原文地址:https://www.cnblogs.com/xinjie123/p/10798095.html

爬虫1 爬虫介绍, requests模块, 代理(正向代理,反向代理), 爬梨视频, 自动登录网站, HTTP协议复习

HTTP协议复习 参考:https://www.cnblogs.com/an-wen/p/11180076.html 1爬虫介绍 # 1 本质:模拟发送http请求(requests)---->解析返回数据(re,bs4,lxml,json)--->入库(redis,mysql,mongodb) # 2 app爬虫:本质一模一样 # 3 为什么python做爬虫最好:包多,爬虫框架:scrapy:性能很高的爬虫框架,爬虫界的django,大而全(爬虫相关的东西都集成了) # 4 百度,谷歌,就

Python学习---爬虫学习[requests模块]180411

模块安装 安装requests模块 pip3 install requests 安装beautifulsoup4模块 [更多参考]https://blog.csdn.net/sunhuaqiang1/article/details/65936616 pip install beautifulsoup4 初识requests模块   [更多参考]http://www.cnblogs.com/wupeiqi/articles/6283017.html requests.post(url=""

python 爬虫 基于requests模块的get请求

需求:爬取搜狗首页的页面数据 import requests # 1.指定url url = 'https://www.sogou.com/' # 2.发起get请求:get方法会返回请求成功的响应对象 response = requests.get(url=url) # 3.获取响应中的数据:text属性作用是可以获取响应对象中字符串形式的页面数据 page_data = response.text # 4.持久化数据 with open("sougou.html","w&