python学习5 爬虫老是被封如何解决

先设置等待时间：

常见的设置等待时间有两种，一种是显性等待时间（强制停几秒），一种是隐性等待时间（看具体情况，比如根据元素加载完成需要时间而等待）图 1 是显性等待时间设置，图 2 是隐性。

第二步，修改请求头：

识别你是程序还是网友浏览器浏览的重要依据就是 User-Agent，比如网友用浏览器浏览就会使这个样子的 User-Agent：’Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36’

第三步，采用代理 ip / 建代理 ip 池

\

直接看代码。利用动态 ip 代理，可以强有力地保障爬虫不会被封，能够正常运行。图 1 为使用代理 ip 的情况，图 2 是建 ip 代理池的代码，有没有必要需要看自己的需求，大型项目是必须用大量 ip 的。

原文地址：https://www.cnblogs.com/adret/p/12297399.html

时间： 2024-10-31 10:07:40

python学习5 爬虫老是被封如何解决的相关文章

python学习之爬虫一

一,爬虫原理: 通过模拟浏览器的行为自动从网上获得需要的数据二,爬虫的流程 1,发送request请求给某个URL : 2,获得返回的response 解析得到需要的数据再根据自己的需要进行各种处理三,具体的实现代码 3.1发送request请求分2种:get 和 post ,这里使用的是python3 使用的模块是requests ,可使用pip3 install requests(pip也行只要你的python安装目录下的scripts文件夹里既有pip.exe 又有pip3.

python学习之爬虫(一) ——————爬取网易云歌词

接触python也有一段时间了,一提到python,可能大部分pythoner都会想到爬虫,没错,今天我们的话题就是爬虫!作为一个小学生,关于爬虫其实本人也只是略懂,怀着"Done is better than perfect"的态度硬着头皮开始了这篇文章的撰写!好了,废话不多说! 先说一下今天我们的目的,作为一个音痴但不影响我对于音乐的执着,所以今天我们爬取的是网易云音乐,我们将会通过代码爬取歌词并写入到本地. 作为新手,我很本能就打开页面复制了url,然后用Beautifulsou

Python学习---网页爬虫[下载图片]

爬虫学习--下载图片 1.主要用到了urllib和re库 2.利用urllib.urlopen()函数获得页面源代码 3.利用正则匹配图片类型,当然正则越准确,下载的越多 4.利用urllib.urlretrieve()下载图片,并且可以重新命名,利用%S 5.应该是运营商有所限制,所以未能下载全部的图片,不过还是OK的 URL分析: 源码: #coding=utf-8 import re import urllib def getHtml(url): page=urllib.urlopen(u

python学习之爬虫理论总结

通用爬虫和聚焦爬虫根据使用场景,网络爬虫可分为通用爬虫和聚焦爬虫两种.通用网络爬虫是捜索引擎抓取系统(Baidu.Google.Yahoo等)的重要组成部分.主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份.通用网络爬虫从互联网中搜集网页,采集信息,这些网页信息用于为搜索引擎建立索引从而提供支持,它决定着整个引擎系统的内容是否丰富,信息是否即时,因此其性能的优劣直接影响着搜索引擎的效果搜索引擎如何获取一个新网站的URL: 新网站向搜索引擎主动提交网址: 在其

python学习之爬虫网络数据采集

Python 给人的印象是抓取网页非常方便,提供这种生产力的,主要依靠的就是urllib.requests这两个模块. 网络数据采集之urllib urllib库官方文档地址:https://docs.python.org/3/library/urllib.htmlurllib库是python的内置HTTP请求库,包含以下各个模块内容:(1)urllib.request:请求模块(2)urllib.error:异常处理模块(3)urllib.parse:解析模块(4)urllib.robotpa

Python学习之爬虫

目标:下载贴吧或空间中所有图片步骤:(1)获取页面代码 (2)获取图片URL,下载图片代码如下: #!/usr/bin/python import re import urllib def getHtml(url): page=urllib.urlopen(url) html=page.read() return heml def getImg(html): reg=r'src="(.*?\.jpg" width' imgre=re.compile(reg) imglist=re.

python学习之爬虫：BeautifulSoup

一.功能: BeautifulSoup是用来从HTML或XML中提取数据的Python库. 二.导入: from bs4 import BeautifulSoup import bs4 三.编码格式: soup使用Unicode编码四.对象种类: 有四种类型:Tag,NavigableString,BeautifulSoup,Comment.BeautifulSoup将文档转化为树形结构,每个节点都是上述四种类型的Python对象. tag属性:name.attrs 参考网址: 1.http:

python学习笔记——爬虫的抓取策略

1 深度优先算法 2 广度/宽度优先策略 3 完全二叉树遍历结果深度优先遍历的结果:[1, 3, 5, 7, 9, 4, 12, 11, 2, 6, 14, 13, 8, 10] 广度优先遍历的结果:[1, 3, 2, 5, 4, 6, 8, 7, 9, 12, 11, 14, 13, 10] 4 实践中怎么来组合爬取策略 (1)一般来说,重要的网页距离入口站点的距离很近: (2)广度/宽度优先有利于多爬虫并行进行合作: (3)可以考虑将深度与广度/宽度相结合的方式来实现抓取的策略:优先考虑广

python学习笔记——爬虫中提取网页中的信息

1 数据类型网页中的数据类型可分为结构化数据.半结构化数据.非结构化数据三种 1.1 结构化数据常见的是MySQL,表现为二维形式的数据 1.2 半结构化数据是结构化数据的一种形式,并不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层.因此,它也被称为自描述的结构.常见的半结构数据有HTML,XML和JSON等,实际上是以树或者图的结构来存储的. <person> <name>A</name> &l

猜你喜欢

Android Studio不更新到最新版使用Kotlin

第一步:安装Kotlin插件打开Settings面板,找到Plugins选项,点击Browse repositories(浏览仓库),输入“Kotlin”查找,然后安装即可.安装完成之后需要重启An ...

WEB前端开发电商网站前端架构

课程介绍通过一个垂直电子商务网站,介绍前端架构搭建和实现的步骤和方法,以及在这个过程中我们需要做什么才能帮助项目最终从设计走向实现.课程提纲第1章前端架构知识准备认识前端架构,了解前端架构技术.产品 ...

CWJ

突然发现这辈子真正能坚持下去的事情一件都没有,学英文,看长小说,学吉他...没有一件事情能坚持到最后(当然黄赌毒和吃狗肉是决不能碰),大三的时候一边学Android一边写blog坚持了很久,毕业后就没 ...

Java RMI 用法总结

RMI就是远程方法调用的简写.顾名思义,就是让一台机器上的对象调用另外一个机器上的对象.RMI的用法非常简单,首先是服务端定义一个接口(接口要扩展Remote接口),再实现这个接口(要扩展Unicas ...

把Nginx加为系统服务(service nginx start/stop/restart)

1.编写脚本,名为nginx #!/bin/sh # # nginx - this script starts and stops the nginx daemon # # chkconfig: ...

GitHub学习心得之安装配置与多帐号管理

1.前言2.GitHub Linux安装(ubuntu)3.帐号1配置4.帐号2配置5.本地管理一.前言本篇博文记录了GitHub的安装配置与多帐号管理. 本文内容基于以下文章:http://ww ...

jCombobox 可以添加对象作为item，那如何让它显示此对象的某一属性呢

我们添加对象的形式是介样滴... School falseSchool = new School("请选择……"); jCB_searchschool.addItem(falseS ...

HDOJ 题目1789 Revenge of Fibonacci（大数, 字典树）

Revenge of Fibonacci Time Limit: 10000/5000 MS (Java/Others) Memory Limit: 204800/204800 K (Java/ ...

.Net常用技巧_目录与文件操作

using System; using System.Collections.Generic; using System.Text; using System.IO; namespace MyTool ...

TODO：Golang Linux进程退出说明

Golang使用os.Exit(code)进程退出导致当前程序退出并返回给定的状态代码.传统上,code代码为零表示成功退出,非零错误退出. syscall.Exit可以调用不同平台的操作系统的退出. ...

axis2五种创建服务方式的比较

AXIOM:Axis2 Object Model,Axis2对象模型 Axis2 对象模型(AXIs2 Object Model,AXIOM)是 Axis2 的基础,任何 SOAP 消息在 Axis2 ...

Polya定理，Burnside引理（转）

设G是一个集合,*是G上的二元运算,如果(G,*)满足下面的条件: 封闭性:对于任何a,b∈G,有a*b∈G; 结合律:对任何a,b,c∈G有(a*b)*c=a*(b*c); 单位元:存在e∈G,使得 ...

昆明虚拟空间优惠大放送

云南网站做好后需要用到虚拟空间,特别公司企业网站,主要是以展示宣传为主,访问量不高,那么使用虚拟空间方便操作也方便管理.蓝队网络虚拟空间已为全国各地客户服务十年之久,具备虚拟空间完善的技术和服务,遇到 ...

Makefile 规则的使用

1.Makefile格式 //最终目标 all: led.o //依赖 arm-linux-ld -Tled.lds -o led.elf led.o //命令 arm-linux-objcopy - ...

记录-阿里云Oss文件上传

public class OssUtil { /** * 上传图片 * @param file * @param request * @return */ public static Map<S ...

2015-10-20 SQL 第二次课 (约束、日期、isnull、case、exists、cast\convert、索引、视图、存储过程、触发器、备份与还原)

1 . Primary Key 约束 SQLServer 中有五种约束, Primary Key 约束. Foreign Key 约束. Unique 约束. Default 约束和 Check 约束 ...

centos 7.0 编译安装mysql 5.6.22 过程未完成~~持续

mysql 下载目录/usr/local/srcmysql 解压目录 /usr/local/bin/mysql GitHub https://github.com/mysql/mysql-server ...

教您如何把本地信息粘贴到服务器

当您购买VPS主机.云服务器.或多ip站群服务器等具有独立自主管理性质的服务器产品之后,我们管理维护的常用手段就是利用微软自带的远程管理桌面进行连接管理.连接成功后,就如同操作自己的家用电脑一样进行管 ...

公司VPN信息

公司VPN证书信息(请妥善留档本邮件) 管理管理员 <[email protected]> 2016/12/12 11:00 收件人: [email protected] × 胡欢你好! ...

在SVN仓库上使用Git

最近在使用Git,切身体会到了Git在分支管理.离线开发的优越性,它可以在本地仓库为不同的任务创建不同的分支. 当你的仓库是SVN类型的,如果你想在本地使用Git进行版本控制,你可以使用git-svn ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.018 s.