学会这七个方法,再也不用担心账号被封

【芝麻HTTP】我们在爬虫的时候经常会出现IP被封的情况,除了大家都知道的使用代理IP,还有什么方法呢?

方法一

之前由于公司项目需要,采集过google地图数据,还有一些大型网站数据。

经验如下:

需要大量IP时,可以直接使用成熟的代理IP服务商。芝麻HTTP就是一个很好的选择,更多可到官网咨询http://h.zhimaruanjian.com/

好处:

1.程序逻辑变化小,只需要代理功能。

2.根据对方网站屏蔽规则不同,你只需要添加更多的代理就行了。

3.就算具体IP被屏蔽了,你可以直接把IP代理下线就OK,程序逻辑不需要变化。

方法二

有小部分网站的防范措施比较弱,可以伪装下IP,修改X-Forwarded-for,即可绕过。

大部分网站么,如果要频繁抓取,一般还是要多IP。我比较喜欢的解决方案是VPS再配多IP,通过默认网关切换来实现IP切换。

方法三

ADSL + 脚本,监测是否被封,然后不断切换 ip

设置查询频率限制

正统的做法是调用该网站提供的服务接口。

方法四

1 user agent 伪装和轮换

2 使用代理 ip 和轮换

3 cookies 的处理,有的网站对登陆用户政策宽松些

方法五

尽可能的模拟用户行为:

1、UserAgent经常换一换;

2、访问时间间隔设长一点,访问时间设置为随机数;

3、访问页面的顺序也可以随机着来

方法六

网站封的依据一般是单位时间内特定IP的访问次数.我是将采集的任务按 目标站点的IP进行分组 通过控制每个IP 在单位时间内发出任务的个数,来避免被封.当然,这个前题是你采集很多网站.如果只是采集一个网站,那么只能通过多外部IP的方式来实现了.

方法七

1,对爬虫抓取进行压力控制;
2,可以考虑使用代理的方式访问目标站点。

原文地址:http://blog.51cto.com/14062137/2314580

时间: 2024-11-11 20:08:12

学会这七个方法,再也不用担心账号被封的相关文章

shell定义带变量的模板,直接修改变量,用这种方法再也不用担心正则匹配不准的问题了

之前用shell 写脚本,有时候不光要定义一个 配置文件,很多时候还要有个模板,不同的环境直接替换相同的模板内容来用:然而,在这之前,一直都是用的 sed . awk .grep 之类的.忽然有一天有个 yaml 文件,里面要替换的太多,sed 太麻烦,用这种方法,不知道要少写多少正则...淡不多扯,我给大家伙上一个例子: 创建一个模板,在模板内直接写变量 vim a.model#This is app config modelapp_name=$nameapp_ip=$ip shell 脚本直

Swift详解之四-------妈妈再也不用担心我的闭包了

妈妈再也不用担心我的闭包了 注:本文为作者自己总结,过于基础的就不再赘述 ,都是亲自测试的结果.如有错误或者遗漏的地方,欢迎指正,一起学习. swift中闭包是一个很强大的东西,闭包是自包含的函数代码块,可以在代码中被传递和使用.跟C 和 Objective-C 中的代码块(blocks)很相似 .这个大家必须掌握!必须掌握!必须掌握!重要的事情要说三遍 闭包可以捕获和存储其所在上下文中任意常量和变量的引用. 这就是所谓的闭合并包裹着这些常量和变量,俗称闭包.下面我们就来攻克它! 1.闭包函数

利用CH341A编程器刷新BIOS,恢复BIOS,妈妈再也不用担心BIOS刷坏了

前几天,修电脑主析就捣鼓刷BIOS,结果刷完黑屏开不了机,立刻意识到完了,BIOS刷错了.就从网上查资料,各种方法试了个遍,什么用处都没有.终于功夫不负有心人,找到了编码器,知道了怎么用.下面看看具体用法: 先买了一个便宜点的编码器: <ignore_js_op> 把刷错的BIOS芯片先拆下来:<ignore_js_op> 把芯片放到编码器上: 再找一台电脑,我的笔记本派上用场了,下载编码器的驱动程序和编码器软件:  <ignore_js_op> <ignore_

android 傻瓜式 MultiDex 插件,从此再也不用担心方法数问题!

ndroid-Easy-MultiDex 项目地址:TangXiaoLv/Android-Easy-MultiDex 简介:Android 傻瓜式 MultiDex 插件,从此再也不用担心方法数问题! 注 1:不想看前半部分的话可以直接跳过到最下面配置部分.注 2:本插件是基于DexKnifePlugin 1.5.6优化改造而来,感谢 ceabie 的无私奉献. 填坑之路 坑 1:65536 ,So easy! 原因:Dalvik 的 invoke-kind 指令集中,method refere

Matlab命令合集 妈妈再也不用担心我不会用matlab了

matlab命令 一.常用对象操作:除了一般windows窗口的常用功能键外.1.!dir 可以查看当前工作目录的文件. !dir& 可以在dos状态下查看.2.who 可以查看当前工作空间变量名, whos 可以查看变量名细节.3.功能键:功能键 快捷键 说明方向上键 Ctrl+P 返回前一行输入方向下键 Ctrl+N 返回下一行输入方向左键 Ctrl+B 光标向后移一个字符方向右键 Ctrl+F 光标向前移一个字符Ctrl+方向右键 Ctrl+R 光标向右移一个字符Ctrl+方向左键 Ctr

【阿里云产品公测】离线归档OAS,再也不用担心备份空间了

[阿里云产品公测]离线归档OAS,再也不用担心备份空间了 作者:阿里云用户莫须有3i 1 起步  1.1 初识OAS  啥是OAS,请看官方说明: 引用: 开放归档服务(Open Archive Service,简称OAS),致力于提供低成本.高可靠的数据归档服务,适合于大数据的长久归档备份. 低成本.高可靠,长久归档备份,这是它的特色.  1.2 申请开通 当前还处于公测阶段,需要申请,试用期间,免费试用,每个用户可以存储不超过10T的数据,并且文件数量不超过10万个,大伙有什么超大文件,没地

[转帖]再也不用担心学不会K8S!17个K8S初学者必须掌握的知识点

再也不用担心学不会K8S!17个K8S初学者必须掌握的知识点 https://zhuanlan.zhihu.com/p/94656981 Kubernetes是一个可移植.可扩展的开源平台,用于管理容器化的工作负载和服务,有助于声明式配置和自动化.目前,Kubernetes正在以强劲的势头持续发展,其相关的生态也在不断完善.本文中,我们列出了所有Kubernetes入门者对于部署和管理Kubernetes容器不得不关注的17个方面. 1. 设置Kubernetes集群 Kubernetes有多个

收藏 | 15 个你非了解不可的 Linux 特殊字符,妈妈再也不用担心我看不懂这些符号了!

原文:收藏 | 15 个你非了解不可的 Linux 特殊字符,妈妈再也不用担心我看不懂这些符号了! 不知道大家接触 Linux 系统有多久了,可曾了解过 Linux 中有哪些特殊的字符呢?其实啊,那些特殊字符都大有用处呢,今天的文章就给大家简单地科普一下 Linux 中你需要了解的 15 个特殊字符,想学或刚学 Linux 的小伙伴赶紧上车了为! ~ 主目录 这个波浪号 ~ 指的是主目录,也就是我们用户的个人目录,无论你身在何方,输入 cd ~ 它将带你回家! cd ~ 更高端的玩法就是在它后面

妈妈再也不用担心我找不到文件了---find

1.find vs locate 在实际中,我们经常需要查找到一些特定文件,然后进行处理,LINUX提供了locate , find这两个命令用于文件查找. a.locate,非实时查找,非精确查找.linux会定期生成更新文件数据库,而locate将根据文件数据库进行查找.我们可以在使用locate命令前,更新文件数据库,使用updatedb即可.但是updatedb将会花费可能半天时间,SO LONG! b.find , 实时查找,精确查找.根据指定路径,查找标准,进行文件遍历(包括隐藏文件