寒假学习进度15

　　接上次的python爬虫进阶，这次学习了针对一些网站的反爬虫处理方式以及用键值对向url传递参数，模拟人工输入的网页搜索。

　　我们知道，不管是正常的爬虫还是恶意爬虫，不仅会导致网站信息泄露，而且还会导致服务器压力过大。想象一下，一台计算机模拟人工请求访问服务器，并且与以计算机的速度与服务器进行交互，势必会导致服务器压力过大或者瘫痪。所以，很多正规的大型网站不想让网络爬虫爬取数据，设置了反爬虫机制。最常见的就是user-agent，简单来说，就是被爬取的网站会通过访问的url中的user-agent信息，来判断这次的网站访问是浏览器访问，还是计算机程序访问，自动屏蔽计算机程序访问。

　　我们可以自动设置user-agent信息，模拟浏览器访问网站，就能绕过去一部分反爬虫机制。当然，我试着用这个方法，还是不能绕过百度的搜索限制，看来还得继续学习其他的绕过反爬虫机制的方法。

　　代码如下（绕过亚马逊反爬虫机制的案例）

　　

# -*- coding: utf-8 -*-
# @Time    : 2020/2/8 10:15
# @Author  : duoduo
# @FileName: pc1.py
# @Software: PyCharm

import requests
import re

#爬出异常处理框架
""""
def GetHttp(url):
    try:
        r=requests.get(url)
        r.raise_for_status()
        r.encoding=r.apparent_encoding
        return r.text
    except:
        return "访问错误"
"""""
#模拟浏览器（针对Amazon反爬虫机制（抱歉，我们只是想确认一下当前访问者并非自动程序））
kv={‘user-agent‘:‘Mozilla/5.0‘}
url=‘https://www.amazon.cn/dp/B007J4IZNO/‘
r=requests.get(url,headers=kv)
r.encoding=r.apparent_encoding
print(r.status_code)
print(r.text)

原文地址：https://www.cnblogs.com/Aduorisk/p/12317770.html

时间： 2024-10-14 00:07:23

寒假学习进度15的相关文章

寒假学习进度02

日期:2020.01.15 博客期:124 星期三嗯,把这几天学习进度汇总一下: 1.CSV文件.XML文件.JSON文件的处理整合这一部分详细的让我明天把博客整理出来,你们就能看到了,不过这一部分代码,借鉴了好多其他博主的,我在此声明一下:数据的文件读写部分(除CSV文件外,其余两个)不是本博主原创,剩下的这三者之间的转换和前面构造好的BeanGroup类型的相互转换是自己写的.嗯,具体看下一篇博客吧! 2.数据爬取详细信息嗯,爬取的话,现在是只能爬取一页上的所有信息,没能做到页面跳转继

2020年寒假学习进度（一）

由于下学期就要进行毕业设计答辩,打算这个寒假在家先继续巩固知识和学习新的技术要点,然后着力进行毕业设计的开发. 今天主要复习了一些关于javaweb的内容,总结如下: (1)WEB,也就是网页的意思,它用于表示Internet主机上供外界访问的资源.常用动态web资源开发技术:JSP/Servlet.ASP.PHP等本人主要学习java运用于web开发的重要技术在Java中,动态web资源开发技术统称为Javaweb. (2)servlet/jsp: 这是SUN公司(SUN现在已经被Oracl

寒假学习进度三——安卓的一些基本组件

今天主要学习了安卓一些简单的组件,前两天都是按照案例(demo)敲的,对其中用到的组件不是特别的了解. TextView(文本框组件):主要用来显示文字的一些信息.通过修改TextView的属性可以改变文字的颜色,大小,位置.这个组件较比较简单,容易上手.这里就不过多叙述了. Button(按钮):是程序用于和用户进行交互的一个重要控件.Android Studio会对Button中的所有英文字母自动进行大写转换,你可以使用将textAllCaps属性改为false来禁用这一默认特性. Edit

软件工程学习进度15

第十六周学习总结所化时间 11h 代码量 200+ 博客量 1篇了解的知识点虚拟存储软工课程将要接近尾声,即使发现我的很多方面的不足但还是不知道怎么样去弥补.

寒假学习进度二

回家之后还是一如既往的一堆活需要干,前天写完进度二没有保存,就没有再发. 所以我从新捋一下思路,记得上次的内容有一个点,我相信初学linux 的同学都会有这个问题-----在linux 的系统中要配置hadoop首先会有配置文件内容这一步骤.然而Linux操作系统中文件的修改方式是完全不同于windows的. 以下是ubuntu中使用vi 命令修改文件并保存的实例: https://blog.csdn.net/guoqingshuang/article/details/81137587 我也是翻

寒假学习进度（一）

毕业设计进度: 今天毕业设计没有进行新功能的实现,改进了一下原有的安全帽和未佩戴安全帽的人数统计功能,使之更加符合现实中的工程要求.原有的人数统计是统计每一帧中的佩戴安全帽的人和未佩戴安全帽的人,在每一帧中实时更新显示.但是这种人数统计没有多大意义,真正的统计,应该是统计给出一段视频中的总佩戴人数和未佩戴人数,这种统计才符合现实中的工程要求. 但是要完成这却有不小难度,现在的深度学习检测识别算法都是将视频逐渐分解成每一帧,识别每一帧中的内容,但是怎样判断上下相连接的帧中相同物体和不同物体的

寒假学习进度3

今天主要完成了pyqt库及相应工具的安装,以及简单的实现了界面功能. 开发工具IDE选择pycharm,因为之前就进行过python爬虫学习,所以IDE早就以及安装配置好了. 还有一点需要提的就是pyqt提供一个可视化工具叫QTDesigner,就像我们之前做过的C#一样,直接拖动控件完成界面布局就可以,省时间又省力气. 大致界面如下: 明天就要开始看考研网课了,界面开发可以先放一放. 原文地址:https://www.cnblogs.com/Aduorisk/p/12250056.html

寒假学习进度一(安卓配置环境的搭建和hello world)

今天学习内容:观看了哔哩哔哩上的安卓教学视频,简单了解下了安卓的基本知识具体内容: 一.配置安卓开发环境(安装Android studio,配置JDK) Android studio是个集成环境,不用配置JDK也可以正常使用,如果想要配置JDK,可以参考下面的教程. JDK配置教程链接:https://blog.csdn.net/siwuxie095/article/details/53386227 Android studio安装教程参考链接:https://blog.csdn.net/xu

寒假学习进度（二）

毕设进度: 今天在基本弄懂deep-sort检测的原理上,对其进行了项目复现.按照github上的指导很轻松的实现了项目复现,项目复现的例子是一个路口的行人识别计数, 我用在网上下载的几个视频测试一下,识别的效果不错,遮挡后得ID-Swicth现象比sort算法有明显的改善.但是在将deep-sort与自己的安全帽检测相融合的时候却发现了难题,原来的deep-sort算法只支持单类别目标的跟踪计数,而我的项目中则要实现带安全帽和未佩戴安全帽的人数的分别统计计数,于是我重新构思如何改动能使之符

猜你喜欢

20161213py学习笔记：string元素不可修改/几种迭代

1.字符串中的元素是不可修改的 strings='andasfefanagrgihaigahairt'for index,string in enumerate(strings): #print in ...

firefox去掉百度贴吧登录限制

新建书签,地址为脚本 javascript:void((function(){if(typeof(PageData)!="undefined") {PageData.user.is ...

vm 克隆一台新机器启动网卡报错：device eth0 does not seem to be present, delaying initialization

解决方案: 1. vi /etc/sysconfig/network-scripts/ifcfg-eth0 ifcfg-eth0的配置文件里保存了以前的MAC地址,就把这一行删除掉在重启网卡 2. / ...

表单防止重复提交

首先介绍两种和简单的方法: 1. disable 提交按钮 $("#submit_button").attr("disabled",true); 设定锁定标志: ...

__stack_chk_fail栈检查失败

1. __stack_chk_fail的作用在了函数的局部变量和保存的指令指针(译注:此处指返回地址和EBP)之间.这个值被称作金丝雀(“canary”)值参考 http://www.freebu ...

NFA

任意正则表达式都存在一个与之对应的NFA,反之亦然. 正则表达式 ((A*B|AC)D)对应的NFA(有向图), 其中红线对应的为该状态的ε转换, 黑线表示匹配转换我们定义的NFA具有以下特点: 正 ...

Java线程与同步

手机平台的自动化测试工具很多,之前研究过了安卓和苹果的原生自动化测试框架,经一些同事介绍,貌似Appium是个不错的工具. 想记录一下研究的结果,也算是篇干货的文章在网上也看了一些视频,个人认为这个 ...

Windows 驱动入门（二）代码结构

windows驱动程序基础.转载标明出处:http://blog.csdn.net/ikerpeng/article/details/38777641 windows驱动程序结构: 我想说的是wind ...

C++ Programming language读书笔记

http://blog.163.com/leonary_dy/blog/static/405528602009122103416862/ 虽然很多人一再强调语言细节不重要,可我还是要花时间重读经典.上 ...

程序员都很闷骚

假定: 程序员都是闷骚的程序员有独特的搞笑方式程序员80%都不满于现状,需要发泄程序员都有一点色所以: 子龙左手青釭剑,右手亮银枪,跨下白龙马,一身白盔白甲,帅到爆炸!如今我们左手xmind, ...

Leetcode#114Flatten Binary Tree to Linked List

Flatten Binary Tree to Linked List Total Accepted: 46999 Total Submissions: 163018My Submissions Que ...

即兴讲演的技巧

这里记录一些要点. 即兴即准备的时间很短,几秒钟甚至几分钟而已.常规的演讲呈现技巧.金字塔思维.问题分析与解决.逻辑思维等并不受用.此时,我们主要依赖直觉思维,参考“大脑使用手册”. 但仍可以遵循.训 ...

CtaAlgo vs PyAlgoTrade

转自知乎:https://zhuanlan.zhihu.com/p/21971854 在Python量化领域,PyAlgoTrade和zipline并列两大策略回测框架的先驱,其中PyAlgoTrad ...

查询列名

select object_name(object_id) AS '表名',name AS '列名' from sys.columns WHERE name ='u_1'

MySQL EXPLAIN SQL 输出信息描述

EXPLAIN语句能够被用于获取一些关于SQL执行时的相关信息,比如表的连接顺序,对表的方式方式等等.通过对该相关信息进行进一步的分析,我们可以通过对表添加适当的索引,以及优化连接顺序,使用提示等等 ...

tp3 key json 分页

//json 强制转换为array $arr[$key]['checkpro'] = json_decode($val['checkpro'],JSON_FORCE_ARRAY); $arr[$ ...

一次性解决HTML向Flash传递参数时的乱码问题

今天下午想使用HTML向Flash传递两个参数,一直遇到错误.这里总结一下: 错误一: <param name="flashvars" value='&symc=un ...

css3 倒影

说起倒影效果,在传统网页中,我们只能使用photoshop进行事先将倒影设计好,然后导入到网页中,这样不但耗费资源,也阻碍了开发的效率.而 css3新增了Reflections板块,css Refl ...

git 分布式管理系统学习

这几天在学习git,看了廖雪峰的官方网站,跟着步骤学习,还是有一些出错的点,总结并记录下一些自己遇到的问题: 1,安装git 到git官网下载并安装,很简单. 2,创建本地工作文件夹取名gitdemo ...

mr本地运行的几种模式

MR程序的几种提交运行模式本地模型运行 1/在windows的eclipse里面直接运行main方法,就会将job提交给本地执行器localjobrunner执行 ----输入输出数据可以放在本地路 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.021 s.