学会这七个方法，再也不用担心账号被封

【芝麻HTTP】我们在爬虫的时候经常会出现IP被封的情况，除了大家都知道的使用代理IP，还有什么方法呢？

方法一

之前由于公司项目需要，采集过google地图数据，还有一些大型网站数据。

经验如下：

需要大量IP时，可以直接使用成熟的代理IP服务商。芝麻HTTP就是一个很好的选择，更多可到官网咨询http://h.zhimaruanjian.com/

好处：

1.程序逻辑变化小，只需要代理功能。

2.根据对方网站屏蔽规则不同，你只需要添加更多的代理就行了。

3.就算具体IP被屏蔽了，你可以直接把IP代理下线就OK，程序逻辑不需要变化。

方法二

有小部分网站的防范措施比较弱，可以伪装下IP，修改X-Forwarded-for，即可绕过。

大部分网站么，如果要频繁抓取，一般还是要多IP。我比较喜欢的解决方案是VPS再配多IP，通过默认网关切换来实现IP切换。

方法三

ADSL + 脚本，监测是否被封，然后不断切换 ip

设置查询频率限制

正统的做法是调用该网站提供的服务接口。

方法四

1 user agent 伪装和轮换

2 使用代理 ip 和轮换

3 cookies 的处理，有的网站对登陆用户政策宽松些

方法五

尽可能的模拟用户行为：

1、UserAgent经常换一换；

2、访问时间间隔设长一点，访问时间设置为随机数；

3、访问页面的顺序也可以随机着来

方法六

网站封的依据一般是单位时间内特定IP的访问次数.我是将采集的任务按目标站点的IP进行分组通过控制每个IP 在单位时间内发出任务的个数,来避免被封.当然,这个前题是你采集很多网站.如果只是采集一个网站,那么只能通过多外部IP的方式来实现了.

方法七

1，对爬虫抓取进行压力控制；
2，可以考虑使用代理的方式访问目标站点。

原文地址：http://blog.51cto.com/14062137/2314580

时间： 2024-11-11 20:08:12

学会这七个方法，再也不用担心账号被封的相关文章

shell定义带变量的模板，直接修改变量，用这种方法再也不用担心正则匹配不准的问题了

之前用shell 写脚本,有时候不光要定义一个配置文件,很多时候还要有个模板,不同的环境直接替换相同的模板内容来用:然而,在这之前,一直都是用的 sed . awk .grep 之类的.忽然有一天有个 yaml 文件,里面要替换的太多,sed 太麻烦,用这种方法,不知道要少写多少正则...淡不多扯,我给大家伙上一个例子: 创建一个模板,在模板内直接写变量 vim a.model#This is app config modelapp_name=$nameapp_ip=$ip shell 脚本直

Swift详解之四-------妈妈再也不用担心我的闭包了

妈妈再也不用担心我的闭包了注:本文为作者自己总结,过于基础的就不再赘述 ,都是亲自测试的结果.如有错误或者遗漏的地方,欢迎指正,一起学习. swift中闭包是一个很强大的东西,闭包是自包含的函数代码块,可以在代码中被传递和使用.跟C 和 Objective-C 中的代码块(blocks)很相似 .这个大家必须掌握!必须掌握!必须掌握!重要的事情要说三遍闭包可以捕获和存储其所在上下文中任意常量和变量的引用. 这就是所谓的闭合并包裹着这些常量和变量,俗称闭包.下面我们就来攻克它! 1.闭包函数

利用CH341A编程器刷新BIOS，恢复BIOS，妈妈再也不用担心BIOS刷坏了

前几天,修电脑主析就捣鼓刷BIOS,结果刷完黑屏开不了机,立刻意识到完了,BIOS刷错了.就从网上查资料,各种方法试了个遍,什么用处都没有.终于功夫不负有心人,找到了编码器,知道了怎么用.下面看看具体用法: 先买了一个便宜点的编码器: <ignore_js_op> 把刷错的BIOS芯片先拆下来:<ignore_js_op> 把芯片放到编码器上: 再找一台电脑,我的笔记本派上用场了,下载编码器的驱动程序和编码器软件: <ignore_js_op> <ignore_

android 傻瓜式 MultiDex 插件，从此再也不用担心方法数问题！

ndroid-Easy-MultiDex 项目地址:TangXiaoLv/Android-Easy-MultiDex 简介:Android 傻瓜式 MultiDex 插件,从此再也不用担心方法数问题! 注 1:不想看前半部分的话可以直接跳过到最下面配置部分.注 2:本插件是基于DexKnifePlugin 1.5.6优化改造而来,感谢 ceabie 的无私奉献. 填坑之路坑 1:65536 ,So easy! 原因:Dalvik 的 invoke-kind 指令集中,method refere

Matlab命令合集妈妈再也不用担心我不会用matlab了

matlab命令一.常用对象操作:除了一般windows窗口的常用功能键外.1.!dir 可以查看当前工作目录的文件. !dir& 可以在dos状态下查看.2.who 可以查看当前工作空间变量名, whos 可以查看变量名细节.3.功能键:功能键快捷键说明方向上键 Ctrl+P 返回前一行输入方向下键 Ctrl+N 返回下一行输入方向左键 Ctrl+B 光标向后移一个字符方向右键 Ctrl+F 光标向前移一个字符Ctrl+方向右键 Ctrl+R 光标向右移一个字符Ctrl+方向左键 Ctr

【阿里云产品公测】离线归档OAS，再也不用担心备份空间了

[阿里云产品公测]离线归档OAS,再也不用担心备份空间了作者:阿里云用户莫须有3i 1 起步 1.1 初识OAS 啥是OAS,请看官方说明: 引用: 开放归档服务(Open Archive Service,简称OAS),致力于提供低成本.高可靠的数据归档服务,适合于大数据的长久归档备份. 低成本.高可靠,长久归档备份,这是它的特色. 1.2 申请开通当前还处于公测阶段,需要申请,试用期间,免费试用,每个用户可以存储不超过10T的数据,并且文件数量不超过10万个,大伙有什么超大文件,没地

[转帖]再也不用担心学不会K8S！17个K8S初学者必须掌握的知识点

再也不用担心学不会K8S!17个K8S初学者必须掌握的知识点 https://zhuanlan.zhihu.com/p/94656981 Kubernetes是一个可移植.可扩展的开源平台,用于管理容器化的工作负载和服务,有助于声明式配置和自动化.目前,Kubernetes正在以强劲的势头持续发展,其相关的生态也在不断完善.本文中,我们列出了所有Kubernetes入门者对于部署和管理Kubernetes容器不得不关注的17个方面. 1. 设置Kubernetes集群 Kubernetes有多个

收藏 | 15 个你非了解不可的 Linux 特殊字符，妈妈再也不用担心我看不懂这些符号了！

原文:收藏 | 15 个你非了解不可的 Linux 特殊字符,妈妈再也不用担心我看不懂这些符号了! 不知道大家接触 Linux 系统有多久了,可曾了解过 Linux 中有哪些特殊的字符呢?其实啊,那些特殊字符都大有用处呢,今天的文章就给大家简单地科普一下 Linux 中你需要了解的 15 个特殊字符,想学或刚学 Linux 的小伙伴赶紧上车了为! ~ 主目录这个波浪号 ~ 指的是主目录,也就是我们用户的个人目录,无论你身在何方,输入 cd ~ 它将带你回家! cd ~ 更高端的玩法就是在它后面

妈妈再也不用担心我找不到文件了---find

1.find vs locate 在实际中,我们经常需要查找到一些特定文件,然后进行处理,LINUX提供了locate , find这两个命令用于文件查找. a.locate,非实时查找,非精确查找.linux会定期生成更新文件数据库,而locate将根据文件数据库进行查找.我们可以在使用locate命令前,更新文件数据库,使用updatedb即可.但是updatedb将会花费可能半天时间,SO LONG! b.find , 实时查找,精确查找.根据指定路径,查找标准,进行文件遍历(包括隐藏文件