寒假学习进度15

  接上次的python爬虫进阶,这次学习了针对一些网站的反爬虫处理方式以及用键值对向url传递参数,模拟人工输入的网页搜索。

  我们知道,不管是正常的爬虫还是恶意爬虫,不仅会导致网站信息泄露,而且还会导致服务器压力过大。想象一下,一台计算机模拟人工请求访问服务器,并且与以计算机的速度与服务器进行交互,势必会导致服务器压力过大或者瘫痪。所以,很多正规的大型网站不想让网络爬虫爬取数据,设置了反爬虫机制。最常见的就是user-agent,简单来说,就是被爬取的网站会通过访问的url中的user-agent信息,来判断这次的网站访问是浏览器访问,还是计算机程序访问,自动屏蔽计算机程序访问。

  我们可以自动设置user-agent信息,模拟浏览器访问网站,就能绕过去一部分反爬虫机制。当然,我试着用这个方法,还是不能绕过百度的搜索限制,看来还得继续学习其他的绕过反爬虫机制的方法。

  代码如下(绕过亚马逊反爬虫机制的案例)

  

# -*- coding: utf-8 -*-
# @Time    : 2020/2/8 10:15
# @Author  : duoduo
# @FileName: pc1.py
# @Software: PyCharm

import requests
import re

#爬出异常处理框架
""""
def GetHttp(url):
    try:
        r=requests.get(url)
        r.raise_for_status()
        r.encoding=r.apparent_encoding
        return r.text
    except:
        return "访问错误"
"""""
#模拟浏览器(针对Amazon反爬虫机制(抱歉,我们只是想确认一下当前访问者并非自动程序))
kv={‘user-agent‘:‘Mozilla/5.0‘}
url=‘https://www.amazon.cn/dp/B007J4IZNO/‘
r=requests.get(url,headers=kv)
r.encoding=r.apparent_encoding
print(r.status_code)
print(r.text)

原文地址:https://www.cnblogs.com/Aduorisk/p/12317770.html

时间: 2024-08-01 18:06:06

寒假学习进度15的相关文章

寒假学习进度02

日期:2020.01.15 博客期:124 星期三 嗯,把这几天学习进度汇总一下: 1.CSV文件.XML文件.JSON文件的处理整合 这一部分详细的让我明天把博客整理出来,你们就能看到了,不过这一部分代码,借鉴了好多其他博主的,我在此声明一下:数据的文件读写部分(除CSV文件外,其余两个)不是本博主原创,剩下的这三者之间的转换和前面构造好的BeanGroup类型的相互转换是自己写的.嗯,具体看下一篇博客吧! 2.数据爬取详细信息 嗯,爬取的话,现在是只能爬取一页上的所有信息,没能做到页面跳转继

2020年寒假学习进度(一)

由于下学期就要进行毕业设计答辩,打算这个寒假在家先继续巩固知识和学习新的技术要点,然后着力进行毕业设计的开发. 今天主要复习了一些关于javaweb的内容,总结如下: (1)WEB,也就是网页的意思,它用于表示Internet主机上供外界访问的资源.常用动态web资源开发技术:JSP/Servlet.ASP.PHP等 本人主要学习java运用于web开发的重要技术在Java中,动态web资源开发技术统称为Javaweb. (2)servlet/jsp: 这是SUN公司(SUN现在已经被Oracl

寒假学习进度三——安卓的一些基本组件

今天主要学习了安卓一些简单的组件,前两天都是按照案例(demo)敲的,对其中用到的组件不是特别的了解. TextView(文本框组件):主要用来显示文字的一些信息.通过修改TextView的属性可以改变文字的颜色,大小,位置.这个组件较比较简单,容易上手.这里就不过多叙述了. Button(按钮):是程序用于和用户进行交互的一个重要控件.Android Studio会对Button中的所有英文字母自动进行大写转换,你可以使用将textAllCaps属性改为false来禁用这一默认特性. Edit

软件工程学习进度15

第十六周学习总结 所化时间 11h 代码量 200+ 博客量 1篇 了解的知识点 虚拟存储 软工课程将要接近尾声,即使发现我的很多方面的不足但还是不知道怎么样去弥补.

寒假学习进度二

回家之后还是一如既往的一堆活需要干,前天写完进度二没有保存,就没有再发. 所以我从新捋一下思路,记得上次的内容有一个点,我相信初学linux 的同学都会有这个问题-----在linux 的系统中要配置hadoop首先会有配置文件内容这一步骤.然而Linux操作系统中文件的修改方式是完全不同于windows的. 以下是ubuntu中使用vi 命令修改文件并保存的实例: https://blog.csdn.net/guoqingshuang/article/details/81137587 我也是翻

寒假学习进度(一)

毕业设计进度: 今天毕业设计没有进行新功能的实现,改进了一下原有的安全帽和未佩戴安全帽的人数统计功能,使之更加符合现实中的工程要求.原有的人数统计是 统计每一帧中的佩戴安全帽的人和未佩戴安全帽的人,在每一帧中实时更新显示.但是这种人数统计没有多大意义,真正的统计,应该是统计给出一段视 频中的总佩戴人数和未佩戴人数,这种统计才符合现实中的工程要求. 但是要完成这却有不小难度,现在的深度学习检测识别算法都是将视频逐渐分解成每一帧,识别每一帧中的内容,但是怎样判断上下相连接的帧中相同物体 和不同物体的

寒假学习进度3

今天主要完成了pyqt库及相应工具的安装,以及简单的实现了界面功能. 开发工具IDE选择pycharm,因为之前就进行过python爬虫学习,所以IDE早就以及安装配置好了. 还有一点需要提的就是pyqt提供一个可视化工具叫QTDesigner,就像我们之前做过的C#一样,直接拖动控件完成界面布局就可以,省时间又省力气. 大致界面如下: 明天就要开始看考研网课了,界面开发可以先放一放. 原文地址:https://www.cnblogs.com/Aduorisk/p/12250056.html

寒假学习进度一(安卓配置环境的搭建和hello world)

今天学习内容:观看了哔哩哔哩上的安卓教学视频,简单了解下了安卓的基本知识 具体内容: 一.配置安卓开发环境(安装Android studio,配置JDK) Android studio是个集成环境,不用配置JDK也可以正常使用,如果想要配置JDK,可以参考下面的教程. JDK配置教程链接:https://blog.csdn.net/siwuxie095/article/details/53386227 Android studio安装教程参考链接:https://blog.csdn.net/xu

寒假学习进度(二)

毕设进度: 今天在基本弄懂deep-sort检测的原理上,对其进行了项目复现.按照github上的指导很轻松的实现了项目复现,项目复现的例子是一个路口的行人识别计数, 我用在网上下载的几个视频测试一下,识别的效果不错,遮挡后得ID-Swicth现象比sort算法有明显的改善.但是在将deep-sort与自己的安全帽检测相融合的时候 却发现了难题,原来的deep-sort算法只支持单类别目标的跟踪计数,而我的项目中则要实现带安全帽和未佩戴安全帽的人数的分别统计计数,于是我重新构思如何 改动能使之符