爬虫的概述以及使用（request发送请求）

一、使用request发送请求

安装：pip install requests（cmd命令行下执行）

二、requests的基本使用

　　import requests

　　url = "http://www.baidu.com"
　　res = requests.get(url)

　　print(res.encoding)
　　print(res.headers) #里面如果没有Content-Type,encoding=utf-8 ，否则如果charset，就以设置为准，否则就是ISO-8859-1

　　print(res.url)

　　运行结果：

print(res.text)是打印内容如果不设置encoding = "utf-8"就会有乱码，反之设置了就不会出现乱码了。

三、添加Headers来进行反爬

　　import requests

　　url = "http://www.dianping.com"

#下面的是开发者模式下百度的User-Agent
　　header = {
　　"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36"
　　}
　　res = requests.get(url,headers=header)

　　print(res.encoding)
　　print(res.headers)
　　print(res.url)
　　print(res.text)
　　print(res.status_code)

四、总结

　　requests请求和urllib请求方式大同小异，都是获取网站信息的请求方式。

原文地址：https://www.cnblogs.com/renleiblog/p/12587848.html

时间： 2024-10-11 21:56:34

爬虫的概述以及使用（request发送请求）的相关文章

python爬虫---scrapy框架爬取图片,scrapy手动发送请求,发送post请求,提升爬取效率,请求传参(meta),五大核心组件,中间件

# settings 配置 UA USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36' 一丶scrapy的图片数据爬取(流数据的爬取) ? scrapy中封装好了一个管道类(ImagesPipeline),基于该管道类可以实现图片资源的请求和持久化存储编码流程: 爬虫文件中解析出图片的地址将

Java爬虫（一）利用GET和POST发送请求，获取服务器返回信息

本人所使用软件 eclipse fiddle UC浏览器分析请求信息以知乎(https://www.zhihu.com)为例,模拟登陆请求,获取登陆后首页,首先就是分析请求信息. 用UC浏览器F12,点击Network,按F5刷新.使用自己账号登陆知乎后,点www.zhihu.com网址后,出现以下界面在General中,看到请求方式是GET,在fiddle里请求构造中,方法选定GET. 下拉后,看到Request Header,将里面所有的内容复制下来,粘贴到fiddle的请求构造里

Python爬虫requests判断请求超时并重新发送请求

在爬虫的执行当中,总会遇到请求连接超时的情况,下面的代码块是在请求超时的情况下,捕捉超时错误并连续发送多次请求,只到请求连接成功. NETWORK_STATUS = True # 判断状态变量 try: response = requests.post(url, headers=self.headers, data=data, timeout=5) if response.status_code == 200: return response except reques

Python爬虫进阶一之爬虫框架概述

综述爬虫入门之后,我们有两条路可以走. 一个是继续深入学习,以及关于设计模式的一些知识,强化Python相关知识,自己动手造轮子,继续为自己的爬虫增加分布式,多线程等功能扩展.另一条路便是学习一些优秀的框架,先把这些框架用熟,可以确保能够应付一些基本的爬虫任务,也就是所谓的解决温饱问题,然后再深入学习它的源码等知识,进一步强化. 就个人而言,前一种方法其实就是自己动手造轮子,前人其实已经有了一些比较好的框架,可以直接拿来用,但是为了自己能够研究得更加深入和对爬虫有更全面的了解,自己动手去多做.

爬虫框架概述

综述爬虫入门之后,我们有两条路可以走. 一个是继续深入学习,以及关于设计模式的一些知识,强化Python相关知识,自己动手造轮子,继续为自己的爬虫增加分布式,多线程等功能扩展.另一条路便是学习一些优秀的框架,先把这些框架用熟,可以确保能够应付一些基本的爬虫任务,也就是所谓的解决温饱问题,然后再深入学习它的源码等知识,进一步强化. 就个人而言,前一种方法其实就是自己动手造轮子,前人其实已经有了一些比较好的框架,可以直接拿来用,但是为了自己能够研究得更加深入和对爬虫有更全面的了解,自己动手去多做.

在requests模块中使用代理发送请求

1. 代理概述玩爬虫为什么我们不能使用一个固定IP发送请求你使用一个固定IP发送每秒向对方服务器发送10几个请求,对方认为这样操作不是人干的, 就把你IP给封了服务器端的人可以根据你IP很快锁定你, 要求你对这种窃取行为赔偿. 代理正向代理与反向代理正向代理与反向代理的区别反向代理: 服务器端知道代理的存在,反向代理是为了保护服务器或负责负载均衡但是客户端不知道代理的存在的正向代理: 客户端知道代理的存在,正向代理是为保护客户端,防止追究责任. 但是服务端不知道真实的客户端 2.

python爬虫(五)_urllib2:Get请求和Post请求

本篇将介绍urllib2的Get和Post方法,更多内容请参考:python学习指南 urllib2默认只支持HTTP/HTTPS的GET和POST方法 urllib.urlencode() urllib和urllib2都是接受URL请求的相关参数,但是提供了不同的功能.两个最显著的不同如下: urllib仅可以接受URL,不能创建设置了headers的Request类实例: 但是urllib提供了urlencode方法用来GET查询字符串的产生,而urllib2则没有.(这是urllib和ur

python网络爬虫第三弹(<爬取get请求的页面数据>)

一.urllib库 urllib是python自带的一个用于爬虫的库,其主要作用就是通过代码模拟浏览器发送请求,其常被用到的子模块在 python3中的为urllib.request 和 urllib.parse,在python2中的是 urllib 和 urllib2 二.由易到难首页面所有的数据值 1.爬取百度首页所有的数据值 import urllib.request import urllib.parse url = 'http://www.baidu.com' # 通过 URLopen

多线程与网络之NSURLConnection发送请求

*:first-child { margin-top: 0 !important; } body > *:last-child { margin-bottom: 0 !important; } a { color: #4183C4; } a.absent { color: #cc0000; } a.anchor { display: block; padding-left: 30px; margin-left: -30px; cursor: pointer; position: absolute

猜你喜欢

那些开发中用到的模式——访问者模式

为了尽可能演示出Visitor 设计模式的强大之处,在此举一个开发中的场景例如开发A组负责做log功能,而B组需要A组暴露一个API,可以拿到所有的log. A组的代码实现可能是如下这样的: pu ...

判断一个数中有多少个1

碰到这个问题的一开始,大家都想当的是把数字转化成二进制数然后再进行判断并不是最好的,下面提供一种位运算的方法: 把一个整数减去1,再和原整数做与运算,会把该整数最右边一个1变成0.那么一个整数的二进制 ...

UI基础——提示框

提示框的种类有很多,废话不多说,直接上代码一.文本提示框运行结果如下: 代码实现如下: 1 @interface ViewController () 2 // 添加方法 3 - (IBAction ...

java中反射学习整理

转载请注明:http://blog.csdn.net/j903829182/article/details/38405735 反射主要是指程序可以访问,检测和修改它本身的状态或行为的一种能力. jav ...

22、iOS面试题·自整理·Four

1.为什么代理要用weak?代理的delegate和dataSource有什么区别?block和代理的区别? A:为了避免循环引用.weak指明该对象并不负责保持delegate这个对象,delega ...

看到一些令我感触的话

著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处.作者:鱼越巅峰链接:https://www.zhihu.com/question/38632401/answer/77613981来 ...

软件工程 2016.6.30 日报

软件工程 2016.6.30 日报今天主要学习的内容是C# socket网络编程中的TCP通讯技术.socket编程的原理如下: 在服务端的处理流程为: (1)建立服务器端的Socket,开始侦听整 ...

linux学习笔记六（vim编辑器）

前言:vim编辑器是一个很强的编辑器,一定要学会灵活的运用才能够事半功倍的效果. 内容: 1.vim编辑器的简单说明. vi: Visual Interface vim: VI iMproved 全屏 ...

300万PV的ASP.NET网站使用阿里云的配置建议

300万PV的ASP.NET网站使用阿里云的配置建议 @老牛吃肉在博文“今天的访问高峰,扛过去了”的评论中询问了这样一个问题: 你好,站长,本公司正在考虑用阿里云.用途:互联网网站,主要站点:asp. ...

ssh项目搭建后的简化

SSH项目搭建后的简化上次说完ssh框架的搭建,这个框架本身没什么问题,但可以通过使用spring注解来使代码更加简洁.提高阅读性. 一.在原来的框架上简化了以下几点: 1. 原来的属性set注入改 ...

闪酷正式签约优美购移动O2O+B2B商城系统2期    

优美购是打造快消品供应链B2B平台的电子商务公司.优美购抓住"互联网+"发展新形态,以本地超市便利店为基础,打造新型B2B商业平台,将线上线下一体化,实现共赢. 优美购积极整合三四 ...

欧拉路径与欧拉回路

欧拉路径与欧拉回路感觉这一块网上说的有点乱,很多东西都没有说清楚,或者都缺一些东西,所以在这里打算好好的总结与归纳一下关于欧拉路径与欧拉回路的问题. 概念欧拉路径:从某一起点开始,可以沿某路径遍历 ...

内容提供器的用法

1 // 查询联系人数据 2 cursor = getContentResolver().query( 3 ContactsContract.CommonDataKinds.Phone.CONTENT ...

算法学习之排序算法：堆排序

要了解堆排序,首先要了解堆的概念,因为本文主要研究堆排序的算法,此处对数据结构堆只是给出概念:n个元素的序列{k1,k2,...kn},当且仅当满足如下关系时,称之为堆. k[i] <= k[2 ...

【Selenium】 FAQ_对象识别_Compound class names are not supported

测试代码 1 public void login(){ 2 3 WebDriver driver = new ChromeDriver(); 4 5 driver.get("http://I ...

Android自定义组件系列【8】——遮罩文字动画

遮罩文字的动画我们在Flash中非常常见,作为Android的应用开发者你是否也想将这种动画做到你的应用中去呢?这一篇文章我们来看看如何自定义一个ImageView来实现让一张文字图片实现文字的遮罩闪 ...

自动化运维Python系列（六）之面向对象

面向对象编程面向过程:根据业务逻辑从上到下垒代码函数式:将某功能代码封装到函数中,以后直接调用,不需要再次编写面向对象:对函数进行分类和封装,让开发"更快更好更强..." # ...

CodeForces 707B Bakery (水题，暴力，贪心)

题意:给定n个城市,其中有k个有仓库,问你在其他n-k个城市离仓库的最短距离是多少. 析:很容易想到暴力,并且要想最短,那么肯定是某一个仓库和某一个城市直接相连,这才是最优,所以只要枚举仓库,找第一个 ...

C++宏定义中"#"与"##"的妙用

在C++开发当中经常用到宏的定义当中使用"#"或者"##",以下是对着两种符号使用方法的简单描述: define中的#就是把#后面的参数当做一个符号来使用,简单 ...

ios设备分辨率

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.018 s.