八爪鱼采集器教程——分页列表采集(以链家房源信息为例)

介绍使用八爪鱼7.0采集链家房源数据的方法(以深圳出租房为例)

采集网站:

https://sz.lianjia.com/zufang/

示例规则下载:

链家房源采集规则

使用功能点:

l 分页列表页信息采集

 

步骤1:创建采集任务

进入主界面选择,选择自定义模式

将上面网址的网址复制粘贴到网站输入框中,点击“保存网址

保存网址后,页面将在八爪鱼采集器中打开,红色方框中的列表内容,就是演示采集数据

 

步骤2:创建翻页循环

l 找到翻页按钮,设置翻页循环

将页面下拉到底部,找到下一页按钮,鼠标点击,在右侧操作提示框中,

选择循环点击下一页

步骤3:房源信息采集

l 选中需要采集的字段信息,创建采集列表

l 编辑采集字段名称

如图,移动鼠标选中列表中标题的名称,右键点击,需采集的内容会变成绿色

 

注意:点击右上角的“流程按钮,即可展现出可视化流程图。

移动鼠标选中红色方框里任意文本字段后,列表中所有适配内容会变成绿色,在右侧操作提示框中,查看提取的字段,可以将不需要的字段删除,然后点击“选中全部”

注意: 鼠标放在该字段上会出现一个删除标识,点击即可删除该字段。

点击“采集以下数据”

修改采集字段名称,点击下方红色方框中的“保存并开始采集

根据采集的情况选择合适的采集方式,这里选择“启动本地采集

说明:本地采集占用当前电脑资源进行采集,如果存在采集时间要求或当前电脑无法长时间进行采集可以使用云采集功能,云采集在网络中进行采集,无需当前电脑支持,电脑可以关机,可以设置多个云节点分摊任务,10个节点相当于10台电脑分配任务帮你采集,速度降低为原来的十分之一;采集到的数据可以在云上保存三个月,可以随时进行导出操作。

步骤4:数据采集及导出

采集完成后,会跳出提示,选择导出数据

选择合适的导出方式,将采集好的数据导出

时间: 2024-10-09 21:25:14

八爪鱼采集器教程——分页列表采集(以链家房源信息为例)的相关文章

八爪鱼采集器教程——房天下采集

介绍使用八爪鱼7.0采集房天下数据的方法(以深圳二手房为例) 采集网站: http://esf.sz.fang.com 示例规则下载:http://esf.sz.fang.com 使用功能点: l 分页列表页信息采集   步骤1:创建采集任务 进入主界面选择,选择自定义模式 将上面网址的网址复制粘贴到网站输入框中,点击"保存网址" 保存网址后,页面将在八爪鱼采集器中打开,红色方框中的列表内容,就是演示采集数据         步骤2:创建翻页循环 l 找到翻页按钮,设置翻页循环 将页面

精准QQ号码采集器 在线QQ号码采集器 地区QQ号码采集 空间访客提取器

软件:精准QQ号码采集器 [特色功能]按同城,按同乡,按男女,按在线,按年龄段,按关键字来采集精准的QQ号码功能一:空间动态提取器,提取空间的动态(空间动态)功能二:动态访客提取器,提取空间动态的浏览,赞的QQ号码功能三:日志地址提取器,提取空间日志的地址,用于访客提取功能四:日志访客提取器,提取日志中的访客,赞过的人的所有QQ号码功能五:相册访客提取器,提取相册中的访客,支持漫游提取,监控提取功能六:留言号码提取器,提取留言版中所有留言过的QQ号码,功能六:QQ空间附近发说说的号码采集功能八:

用火车头采集器8.6免费版采集图片

最近,尝试了一下用“火车头采集器”采集页面上的图片,果然成功了. 关键是在设置“内容”标签的时候,勾选上“下载图片”即可,文件保存的文件夹,我一般用“标题”. 具体采集的结果我就不贴图了,终于不用一张张保存图片了.

防止网页被搜索引擎爬虫和网页采集器收录的方法汇总

来源:脚本之家 http://www.jb51.net/yunying/28470.html 下面的这些方法是可以标本兼治的:1.限制IP地址单位时间的访问次数 分析:没有哪个常人一秒钟内能访问相同网站5次,除非是程序访问,而有这种喜好的,就剩下搜索引擎爬虫和讨厌的采集器了. 弊端:一刀切,这同样会阻止搜索引擎对网站的收录 适用网站:不太依靠搜索引擎的网站 采集器会怎么做:减少单位时间的访问次数,减低采集效率 2.屏蔽ip 分析:通过后台计数器,记录来访者ip和访问频率,人为分析来访记录,屏蔽可

火车头采集器

火车头是比较火的采集器,弄懂采集器的运行原理比较重要,那么火车头的采集器基本的采集方法是什么呢,我给讲讲免费版的基本采集方法. 1 下载安装火车头采集器,有付费与免费版,百度查找下载地址.(这里不细说) 2 下载好后,双击火车头图标打开采集器. 3 进入火车头主程序页面. 4 单击新建的黑小三角,新建任务. 5 填写任务名,点击第二步.(采集网址不截了,以防广告) 6 分析目标页面,找到要采集的内容. 7 查看源文件,找到要采的内容(复制内容去搜索) 8 建议用360浏览器或者360极速浏览器,

WEB页面采集器编写经验之一:静态页面采集器

严格意义来说,采集器和爬虫不是一回事:采集器是对特定结构的数据来源进行解析.结构化,将所需的数据从中提取出来:而爬虫的主要目标更多的是页面里的链接和页面的TITLE. 采集器也写过不少了,随便写一点经验吧,算是给自己的一个备忘. 首先是最简单的:静态页面采集器.即所采集的数据来源页面是静态的,至少采集器所关心的那部分数据是静态的,可以通过直接访问页面URL的方式获取到包含目标数据的全部页面代码.这种采集器是最为常用,也是最为基础的.目前已经有很多成熟的商业化的采集器产品,不过对我来说感觉用着有些

WP开发-Toolkit组件 列表采集器(ListPicker)的使用

列表采集器ListPicker在作用上与html中的<select/>标签一样 都是提供多选一功能,区别在于ListPicker可以自定义下拉状态和非下拉状态的样式. 1.模板设置 ListPicker有两个模板属性 ItemTemplate 文本框显示的单个选项模板 FullModeItemTemplate 所有选项列表的模板 与之相关的还有一个数字类型的属性:ItemCountThreshold 如果ListPicker中的选项数量小于该属性的值的话 则显示方式是普通下拉菜单      但

使用火蜘蛛采集器Firespider采集天猫商品数据并上传到微店

有很多朋友都需要把天猫的商品迁移到微店上去.可在天猫上的商品数据非常复杂,淘宝开放接口禁止向外提供数据,一般的采集器对ajax数据采集的支持又不太好. 还有现在有了火蜘蛛采集器,经过一定的配置,终于把天猫商品的数据都采集下来了(SKU信息,运费信息,库存信息,图片,商品描述等).天猫商品网页的确是很复杂,比如商品描述,还有商品描述中的图片,使用的都是懒加载,只有当用户滚动到那里了,才会去加载描述和图片.还好这些都难不倒火蜘蛛采集器.当然了,采集回来的信息也是很复杂的,需要我们清楚了解淘宝的商品数

火车采集器 帝国CMS7.2免登录发布模块

帝国cms7.2增加了金刚模式,登录发布有难度.免登录发布模块配合火车采集器,完美解决你遇到的问题. 免登录直接获取栏目列表 通过文件内设置密码免登录发布数据 帝国cms7.2免登陆文章发布接口使用说明 一.功能特性1.免登陆,用户可以设置验证密码来防止未授权的访问.3.可以达到和手工发布文章完全一样的效果,包括是否生成静态,去掉外链,下载图片等功能. 二.使用教程1.文字教程 1.1.选择您网站对应的接口文件.如您网站是gbk编码,请选择 fabu_gbk.php. 1.2.打开接口文件,修改