python网络爬虫三

request库七个方法详解

1. request方法



所有方法的的基础方法,三个参数:method,url,**kwargs

1.1 method:请求方式

  • method参数共有七个可选的值,分别对应HTTP协议的七种操作:

  • 对应的方法可以用request方法直接实现,也可以用封装好的request.get()等方法实现。

1.2 访问控制参数(可选)

1.params:字典或者字节序列,作为参数增加到URL中。不仅访问URL,还可以向服务器携带参数。

2.data:字典、字节序列或文件对象,向服务器提交数据时使用。data的内容不放在URL链接里,而放在URL对应的位置那里

3.json:JSON格式的数据,和data相似,作为内容部分向服务器提交。

4.headers:字典,HTTP定制头,用这个字段定制访问URL的HTTP的协议头。

  • 定义一个字典,修改user-agent字段,这样就可以模拟使用Chrome-10浏览器来访问URL

5.cookies:字典或者CookieJar,从HTTP协议中解析出cookies信息。

6.auth:元组,HTTP认证功能。

7.files:字典,用于传输文件,存放到相应的URL上。

8.timeout:设定超时时间,秒为单位。

  • 设定一个超时时间,如果在这个时间内没有返回结果,那么就会抛出timeout异常。

9.proxies:字典类型,设定代理服务器,嘿嘿嘿~

  • 分别为HTTP和HTTPS设置代理服务器,这样我们访问网页使用的IP地址就是代理服务器的IP地址。隐藏IP,防止逆追踪。

10.allow——redirects:布尔型,默认为1,表示是否允许重定向。

11.stream:布尔型,默认为1,表示是否允许对获取的内容进行立即下载。

12.verify:布尔型,默认为1,认证SSL证书开关。

13.cert:本地SSL证书路径。

2. request.get()方法



  • params字段就是刚刚介绍的params字段,其余12个可选字段也和前面一样。
  • 因为向服务器传输资源是严格受限的,所以get方法是最常用的方法。

3. request.head()方法



4. request.post()方法



5. request.put()方法



6. request.patch()方法



7. request.delete()方法



因为有些方法可能会常用可选字段中的某些参数,所以把它们显示的定义出来方便使用。

其实我们只使用request一个方法,修改它的method值并给定对应的参数,和使用其他六个方法的效果是一样的。

原文地址:https://www.cnblogs.com/031602523liu/p/9817927.html

时间: 2024-10-10 20:46:56

python网络爬虫三的相关文章

Python网络爬虫(三)

AJAX学习 AJAX=Asynchronous JavaScript and XML(异步的 JavaScript 和 XML).通俗来说,AJAX是一种无需加载整个网页的情况下,通过在后台与服务器进行少量数据交换,更新部分网页的技术,用于创建快速动态网页的技术. 向服务器发送请求与服务器的响应 发送请求可以利用XMLHttpRequest对象的open()和send()方法. 方法 描述 open(method,url,async) 规定请求的类型.URL 以及是否异步处理请求.method

[Python]网络爬虫(三):异常的处理和HTTP状态码的分类(转)

先来说一说HTTP的异常处理问题.当urlopen不能够处理一个response时,产生urlError.不过通常的Python APIs异常如ValueError,TypeError等也会同时产生.HTTPError是urlError的子类,通常在特定HTTP URLs中产生. 1.URLError通常,URLError在没有网络连接(没有路由到特定服务器),或者服务器不存在的情况下产生. 这种情况下,异常同样会带有"reason"属性,它是一个tuple(可以理解为不可变的数组),

爬虫学习 Python网络爬虫第三弹《爬取get请求的页面数据》

爬虫学习 Python网络爬虫第三弹<爬取get请求的页面数据> 一.urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求.其常被用到的子模块在Python3中的为urllib.request和urllib.parse,在Python2中是urllib和urllib2. 二.由易到难的爬虫程序: 1.爬取百度首页面所有数据值 1 #!/usr/bin/env python 2 # -*- coding:utf-8 -*- 3 #导包 4

Python网络爬虫

http://blog.csdn.net/pi9nc/article/details/9734437 一.网络爬虫的定义 网络爬虫,即Web Spider,是一个很形象的名字. 把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛.网络蜘蛛是通过网页的链接地址来寻找网页的. 从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址, 然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止. 如果把整个互联网当成一个网站,那么

2017.07.28 Python网络爬虫之爬虫实战 今日影视2 获取JS加载的数据

1.动态网页指几种可能: 1)需要用户交互,如常见的登录操作: 2)网页通过js / AJAX动态生成,如一个html里有<div id="test"></div>,通过JS生成<divid="test"><span>aaa</span></div>: 3)点击输入关键字后进行查询,而浏览器url地址不变 2.想用Python获取网站中JavaScript返回的数据,目前有两种方法: 第一种方法

Python]网络爬虫

Originated From: http://blog.csdn.net/pi9nc/article/details/9734437#comments [Python]网络爬虫(一):抓取网页的含义和URL基本构成 一.网络爬虫的定义 网络爬虫,即Web Spider,是一个很形象的名字. 把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛.网络蜘蛛是通过网页的链接地址来寻找网页的. 从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址, 然后通过这些

什么是Python网络爬虫?带你爬向顶峰

首先我们来介绍一下什么是Python网络爬虫,先大概了解一下关于Python网络爬虫的相关知识点. Python作为一门入门简单,功能强大的,库类完善的语言,身受广大猿友们的喜欢.本身对Python也是非常有好感的,所以时不时的逛逛有关Python的网站啥的.通过在各大Python学习群和论坛的学习,我发现学习Python的人大部分都对网络爬虫很感兴趣.下面给各位介绍下Python的学习流程,并且会给出对应的学习教程. 第一步--学习Python 不管你有没有编程语言基础,也不管你其他语言是多厉

python网络爬虫学习资料

第一:Python爬虫学习系列教程(来源于某博主:http://cuiqingcai.com/1052.html) Python版本:2.7 整体目录: 一.爬虫入门 1. Python爬虫入门一之综述 2. Python爬虫入门二之爬虫基础了解 3. Python爬虫入门三之Urllib库的基本使用 4. Python爬虫入门四之Urllib库的高级用法 5. Python爬虫入门五之URLError异常处理 6. Python爬虫入门六之Cookie的使用 7. Python爬虫入门七之正则

Python网络爬虫基础知识学习

对Python有一些简单了解的朋友都知识Python编程语言有个很强大的功能,那就是Python网络爬虫(http://www.maiziedu.com/course/python/645-9570/),一提到Python,就会想到相关的Python爬虫和scrapy等等,今天就来简单认识学习Python爬虫的基础知识,有了一定的相关爬虫知识,以后学习scrapy.urllib等等知识时,会相对轻松些. 爬虫: 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组