采集器的前世今生

爬出和反爬出是矛与盾的关系,

进化史

1,java原生自带url类:url.getContent();

2,httpclient,

3,jsoup,htmlclean.

4,htmlunit,

5,se.

1-2只是原生http链接,

3,做了解析层面的支持,比如页面html清理,xpath支持;

4添加了js支持,这是很大的改进,不过由于各种衍生js库,支持不是很好.

5,se,这就是走了捷径.

好的反爬出机制,能识别在电脑另一头的是虫子还是人

,eg.阿里系网站机制 anti spider.:供应商,搜索食品,

http://s.1688.com/company/company_search.htm?keywords=%CA%B3%C6%B7&sug=2_0&n=y&spm=a260k.635.1998096057.d1

短时间内连续翻页超过n页,n属于(8,20),自动让你登陆.

登陆后,继续翻超过n页,触发阿里反爬虫机制:http://sec.1688.com/query.htm?smApp=searchweb2&smPolicy=searchweb2-company-anti_Spider-html-checkcode&smCharset=GBK&smTag=MTIxLjIwNC4xOTUuMTkzLDE5MzIzNDI3NSxjNjEzZDJhOTQyMTM0ZjJhOTg4OTM5OWMyMTdlY2MyZg%3D%3D&smReturn=http%3A%2F%2Fs.1688.com%2Fcompany%2Fcompany_search.htm%3Fkeywords%3D%25CA%25B3%25C6%25B7%26button_click%3Dtop%26earseDirect%3Dfalse%26n%3Dy%26sortType%3Dpop%26pageSize%3D30%26beginPage%3D15&smSign=qxdnSrcI%2B5VTtjVJumzY7w%3D%3D

其实,阿里系也是有漏洞的.

时间: 2024-08-22 04:22:11

采集器的前世今生的相关文章

分享一个近期写的简单版的网页采集器

分享一个近期写的简单版的网页采集器 功能特点: 1.可通过配置,保存采集规则. 2.可通过采集规则,进行数据采集. 3.可分页,分关键字,进行采集. 4.可保存数据至数据库,文本中. ........... 功能还比较简单,喜欢深入的可以继续深入下去,暂时还没有登录的功能,因为登录功能涉及到的范围比较广,待日后慢慢研究后再开发. 我先上个图让大家一睹为快吧: 首先看看页面,我们要采集这个网站的文章 接下来,首先是查找分页,获得分页里面的文章链接,接着查找内容页需要采集的字段,生成规则,进行采集.

Python天气预报采集器 python网页爬虫

这个天气预报采集是从中国天气网提取广东省内主要城市的天气并回显.本来是打算采集腾讯天气的,但是貌似它的数据是用js写上去还是什么的,得到的html文本中不包含数据,所以就算了 爬虫简单说来包括两个步骤:获得网页文本.过滤得到数据. 1.获得html文本.  python在获取html方面十分方便,寥寥数行代码就可以实现需要的功能. def getHtml(url): page = urllib.urlopen(url) html = page.read() page.close() return

WP开发-Toolkit组件 列表采集器(ListPicker)的使用

列表采集器ListPicker在作用上与html中的<select/>标签一样 都是提供多选一功能,区别在于ListPicker可以自定义下拉状态和非下拉状态的样式. 1.模板设置 ListPicker有两个模板属性 ItemTemplate 文本框显示的单个选项模板 FullModeItemTemplate 所有选项列表的模板 与之相关的还有一个数字类型的属性:ItemCountThreshold 如果ListPicker中的选项数量小于该属性的值的话 则显示方式是普通下拉菜单      但

火车头采集器

火车头是比较火的采集器,弄懂采集器的运行原理比较重要,那么火车头的采集器基本的采集方法是什么呢,我给讲讲免费版的基本采集方法. 1 下载安装火车头采集器,有付费与免费版,百度查找下载地址.(这里不细说) 2 下载好后,双击火车头图标打开采集器. 3 进入火车头主程序页面. 4 单击新建的黑小三角,新建任务. 5 填写任务名,点击第二步.(采集网址不截了,以防广告) 6 分析目标页面,找到要采集的内容. 7 查看源文件,找到要采的内容(复制内容去搜索) 8 建议用360浏览器或者360极速浏览器,

使用火蜘蛛采集器Firespider采集天猫商品数据并上传到微店

有很多朋友都需要把天猫的商品迁移到微店上去.可在天猫上的商品数据非常复杂,淘宝开放接口禁止向外提供数据,一般的采集器对ajax数据采集的支持又不太好. 还有现在有了火蜘蛛采集器,经过一定的配置,终于把天猫商品的数据都采集下来了(SKU信息,运费信息,库存信息,图片,商品描述等).天猫商品网页的确是很复杂,比如商品描述,还有商品描述中的图片,使用的都是懒加载,只有当用户滚动到那里了,才会去加载描述和图片.还好这些都难不倒火蜘蛛采集器.当然了,采集回来的信息也是很复杂的,需要我们清楚了解淘宝的商品数

火车采集器 帝国CMS7.2免登录发布模块

帝国cms7.2增加了金刚模式,登录发布有难度.免登录发布模块配合火车采集器,完美解决你遇到的问题. 免登录直接获取栏目列表 通过文件内设置密码免登录发布数据 帝国cms7.2免登陆文章发布接口使用说明 一.功能特性1.免登陆,用户可以设置验证密码来防止未授权的访问.3.可以达到和手工发布文章完全一样的效果,包括是否生成静态,去掉外链,下载图片等功能. 二.使用教程1.文字教程 1.1.选择您网站对应的接口文件.如您网站是gbk编码,请选择 fabu_gbk.php. 1.2.打开接口文件,修改

图片采集器_PHP

现在国内模仿"pinterest"的越来越多了,之前我做过一个基于chrome浏览器上的一个"图片采集工具",类似于"花瓣网"那样的,初期我觉得挺简单,后来做起来发现还是挺复杂的,特别是整合到你自己的网站数据库中,非常麻烦,其实前台采集的代码(JS)已经非常成熟了,而且也基本都是开源的,也非常好,主要是后台PHP整合起来,真的是太麻烦了. 类似:http://huaban.com/about/#goodies 我不是为了打广告呀!就是自己发表一下

我才知道爬虫也可以酱紫--火车采集器

我才知道爬虫还可以这样—火车采集器的使用 说在前面 额...好吧,我这一个三毛钱的屌丝也开始步入实习阶段了,在北京其实也挺好的,虽说压力大,但是今后就业机会也相对而言大一些.好了,说回今天的主题,之前学习Python爬虫的时候一直以为今后工作的话进行爬虫需要自己写源代码然后再一直爬呀爬呀爬,但是不是这样滴(应该不是吧),前天公司扔给我一个抓取网页的工具,然后自己在一直琢磨琢磨,今天下午有了结果了,学习了简单的抓取网页数据.所以我在这里总结一下网站数据采集器—火车采集器的简单使用. 正文 首先,下

WEB页面采集器编写经验之一:静态页面采集器

严格意义来说,采集器和爬虫不是一回事:采集器是对特定结构的数据来源进行解析.结构化,将所需的数据从中提取出来:而爬虫的主要目标更多的是页面里的链接和页面的TITLE. 采集器也写过不少了,随便写一点经验吧,算是给自己的一个备忘. 首先是最简单的:静态页面采集器.即所采集的数据来源页面是静态的,至少采集器所关心的那部分数据是静态的,可以通过直接访问页面URL的方式获取到包含目标数据的全部页面代码.这种采集器是最为常用,也是最为基础的.目前已经有很多成熟的商业化的采集器产品,不过对我来说感觉用着有些