python网络爬虫(二)requests库的基本介绍和使用

一、requests库的七个重要方法

(1)最常用方法:requests.get(url,params=None,**kwargs)//对应HTTP协议的GET()操作 (请求获得URL位置的资源)

       ① url:拟获取页面的url链接。url:在WWW上,每一信息资源都有统一的且在网上唯一的地址,

        该地址就叫URL(Uniform Resource Locator,统一资源定位符),它是WWW的统一资源定

        位标志,就是指网络地址。例:http://baidu.com

       ② params:url中的额外参数,字典或字节流格式,可选字段

       ③ **kwargs:12个控制访问的参数(在下一篇文章会具体介绍参数的具体内容哦~)

(2)最基础的方法:requests.request()

     构造一个请求,支撑6个剩余方法的基础方法,查看其他6个方法的解释(用help函数)

     会发现基本上是由request()方法写的

(3)requests.head()

    对应HTTP协议的HEAD操作 (请求获取URL位置的资源的响应消息报告,即获得该资源的头部信息)

    head() 反馈头部信息

(4)requests.post()

    对应HTTP协议的POST操作 (请求向URL位置的资源后附加新数据)

    post()方法向服务器提交新增数据

        例:向URL post一个字典时自动编码为form(表单)

          向URL post一个字符串时自动编码为data

(5)requests.put()

    对应HTTP协议的PUT操作(请求向URL位置存储资源(覆盖原URL位置资源))

(6)requests.patch()

    对应HTTP协议的PATCH操作(请求局部更新URL位置的资源)

    post()方法向服务器提交新增局部数据,和put不同的是,只修改某个参数,其他的和之前的

    一样;但是post()会覆盖之前的数据,若提交了修改的数据,则其他的就相当于丢失.

(7)requests.delete()

    对应HTTP协议的DELETE操作(请求删除URL位置存储的资源)

    delete()删除资源

--------------------??????我也是初学 python爬虫博客园小白一枚~~~~??????--------------------

--------------------??????-只是希望能够加强自己记忆的同时帮助到他人??????------------------

--------------------??????如果有错误请在评论区温柔指出哦~~~~谢谢~~??????-----------------

---------下篇将更新具体requests库的13个控制访问参数的使用和简单的5个爬虫小案例----------

原文地址:https://www.cnblogs.com/cutef-ish/p/12309807.html

时间: 2024-10-16 19:10:12

python网络爬虫(二)requests库的基本介绍和使用的相关文章

python网络爬虫之requests库

Requests库是用Python编写的HTTP客户端.Requests库比urlopen更加方便.可以节约大量的中间处理过程,从而直接抓取网页数据.来看下具体的例子: def request_function_try():     headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:44.0) Gecko/20100101 Firefox/44.0'}     r=requests.get(url="http://www

爬虫学习 06.Python网络爬虫之requests模块(2)

爬虫学习 06.Python网络爬虫之requests模块(2) 今日内容 session处理cookie proxies参数设置请求代理ip 基于线程池的数据爬取 知识点回顾 xpath的解析流程 bs4的解析流程 常用xpath表达式 常用bs4解析方法 了解cookie和session - 无状态的http协议 如上图所示,HTTP协议 是无状态的协议,用户浏览服务器上的内容,只需要发送页面请求,服务器返回内容.对于服务器来说,并不关心,也并不知道是哪个用户的请求.对于一般浏览性的网页来说

爬虫学习 04.Python网络爬虫之requests模块(1)

爬虫学习 04.Python网络爬虫之requests模块(1) 引入 Requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用. 警告:非专业使用其他 HTTP 库会导致危险的副作用,包括:安全缺陷症.冗余代码症.重新发明轮子症.啃文档症.抑郁.头疼.甚至死亡. 今日概要 基于requests的get请求 基于requests模块的post请求 基于requests模块ajax的get请求 基于requests模块ajax的post请求 综合项目练习:爬取国家药品监

04,Python网络爬虫之requests模块(1)

Requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用. 警告:非专业使用其他 HTTP 库会导致危险的副作用,包括:安全缺陷症.冗余代码症.重新发明轮子症.啃文档症.抑郁.头疼.甚至死亡. 今日概要 基于requests的get请求 基于requests模块的post请求 基于requests模块ajax的get请求 基于requests模块ajax的post请求 综合项目练习:爬取国家药品监督管理总局中基于中华人民共和国化妆品生产许可证相关数据 知识点回顾 常见

python网络爬虫之requests模块

什么是requests模块: requests模块是python中原生的基于网路请求的模块,其主要作用是用来模拟浏览器发送请求,功能强大,用法简洁高效,在爬虫的领域占半壁江山 如何使用requests模块: 安装:pip install requests 使用流程: 1.指定url 2.发送请求 3.获取数据 4.持久化存储 爬虫之反爬机制 未完待续 原文地址:https://www.cnblogs.com/xinjie123/p/10798095.html

【Python网络爬虫二】使用urllib2抓去网页内容

在Python中通过导入urllib2组件,来完成网页的抓取工作.在python3.x中被改为urllib.request. 爬取具体的过程类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端, 然后读取服务器端的响应资源. 实现过程: 1 import urllib2 2 3 response=urllib2.urlopen('http://gs.ccnu.edu.cn/') 4 html=response.read() 5 print html 将返回的html信

MOOC《Python网络爬虫与信息提取》学习过程笔记【requests库】第一周1-3

一得到百度网页的html源代码: >>> import requests >>> r=requests.get("http://www.baidu.com") >>> r.status_code #查看状态码,为200表示访问成功,其他表示访问失败 200 >>> r.encoding='utf-8' #更改编码为utf-8编码 >>> r.text #打印网页内容 >>> r.

python网络爬虫入门(二)——用python简单实现调用谷歌翻译

最近在看国外的文档,有些生词不认识.就用谷歌翻译来理解,用着用着闲来无事就按F12查看了下页面的源代码.发现可以用python简单的实现下谷歌翻译的页面功能.于是先上网搜下有没有类似的文章博客,发现几篇不错的,于是参考其他代码与自己的思路,简单的实现了下翻译的功能,代码如下: import re import urllib,urllib2 #----------模拟浏览器的行为,向谷歌翻译发送数据,然后抓取翻译结果,这就是大概的思路------- def Gtranslate(text): #t

零基础自学Python 3开发网络爬虫(二): 用到的数据结构简介以及爬虫Ver1.0 alpha

上一回, 我学会了 用伪代码写出爬虫的主要框架; 用Python的urllib.request库抓取指定url的页面; 用Python的urllib.parse库对普通字符串转符合url的字符串. 这一回, 开始用Python将伪代码中的所有部分实现. 由于文章的标题就是"零基础", 因此会先把用到的两种数据结构队列和集合介绍一下. 而对于"正则表达式"部分, 限于篇幅不能介绍, 但给出我比较喜欢的几个参考资料. Python的队列 在爬虫程序中, 用到了广度优先搜

python网络爬虫学习资料

第一:Python爬虫学习系列教程(来源于某博主:http://cuiqingcai.com/1052.html) Python版本:2.7 整体目录: 一.爬虫入门 1. Python爬虫入门一之综述 2. Python爬虫入门二之爬虫基础了解 3. Python爬虫入门三之Urllib库的基本使用 4. Python爬虫入门四之Urllib库的高级用法 5. Python爬虫入门五之URLError异常处理 6. Python爬虫入门六之Cookie的使用 7. Python爬虫入门七之正则