八爪鱼采集教程——房源信息采集

介绍使用八爪鱼7.0采集安居客网页信息的方法(以深圳写字楼为例)

使用功能点:

l 分页列表页信息采集

   

步骤1:创建采集任务

进入主界面选择,选择自定义模式

将上面网址的网址复制粘贴到网站输入框中,点击“保存网址

保存网址后,页面将在八爪鱼采集器中打开,红色方框中的列表内容,就是演示采集数据

步骤2:创建翻页循环

l 找到翻页按钮,设置翻页循环

将页面下拉到底部,找到下一页按钮,鼠标点击,在右侧操作提示框中,

选择循环点击下一页

 

 

步骤3:房源信息采集

l 选中需要采集的字段信息,创建采集列表

l 编辑采集字段名称

如图,移动鼠标选中列表里一个房源方框,右键点击

 

注意:点击右上角的“流程按钮,即可展现出可视化流程图。

列表中所有适配内容会被选中,在右侧操作提示框中,查看提取的字段,可以将不需要的字段删除,然后点击“选中子元素”

注意: 鼠标放在该字段上会出现一个删除标识,点击即可删除该字段。

点击“选中全部”,将页面中所有方框中的信息添加到列表中

点击“采集以下数据”

修改采集字段名称,点击下方红色方框中的“保存并开始采集

根据采集的情况选择合适的采集方式,这里选择“启动本地采集

说明:本地采集占用当前电脑资源进行采集,如果存在采集时间要求或当前电脑无法长时间进行采集可以使用云采集功能,云采集在网络中进行采集,无需当前电脑支持,电脑可以关机,可以设置多个云节点分摊任务,10个节点相当于10台电脑分配任务帮你采集,速度降低为原来的十分之一;采集到的数据可以在云上保存三个月,可以随时进行导出操作。

 

 

 

步骤4:数据采集及导出

采集完成后,会跳出提示,选择导出数据

选择合适的导出方式,将采集好的数据导出

时间: 2024-10-10 14:10:41

八爪鱼采集教程——房源信息采集的相关文章

八爪鱼采集教程——如何采集豆瓣图书评价

豆瓣图书评价如何采集 豆瓣是一个集品味系统(读书.电影.音乐).表达系统(我读.我看.我听)和交流系统(同城.小组.友邻)于一体的创新网络服务,致力于帮助都市人群发现生活中有用的事物.今天教大家怎么通过对豆瓣里面的图书评价信息采集,找一本适合自己的书. 方法/步骤 1.首先注册账号激活并登录 2.登陆后在八爪鱼采集软件界面左侧的菜单栏可以找到"采集规则"一项,小伙伴们可以先进入规则市场中搜索一下,自己想要采集的平台是否已经有现成的规则可借鉴.如果有,可以直接下载后导入新的任务即可使用,

八爪鱼采集教程——京东商品评论采集

京东商品评论信息采集 介绍采集使用八爪鱼7.0采集京东商品评论数据的方法 更多相关教程可以到八爪鱼教程中心查看: http://www.bazhuayu.com/tutorials?version=v7.0 八爪鱼下载: http://www.bazhuayu.com/download 采集网站: http://item.jd.com/11221162.html#comment 使用功能点: l Ajax翻页 l 分页内容提取   步骤1:创建采集任务 进入主界面选择,选择自定义模式 将上面网址

八爪鱼采集器教程——分页列表采集(以链家房源信息为例)

介绍使用八爪鱼7.0采集链家房源数据的方法(以深圳出租房为例) 采集网站: https://sz.lianjia.com/zufang/ 示例规则下载: 链家房源采集规则 使用功能点: l 分页列表页信息采集   步骤1:创建采集任务 进入主界面选择,选择自定义模式 将上面网址的网址复制粘贴到网站输入框中,点击"保存网址" 保存网址后,页面将在八爪鱼采集器中打开,红色方框中的列表内容,就是演示采集数据   步骤2:创建翻页循环 l 找到翻页按钮,设置翻页循环 将页面下拉到底部,找到下一

八爪鱼采集器教程——房天下采集

介绍使用八爪鱼7.0采集房天下数据的方法(以深圳二手房为例) 采集网站: http://esf.sz.fang.com 示例规则下载:http://esf.sz.fang.com 使用功能点: l 分页列表页信息采集   步骤1:创建采集任务 进入主界面选择,选择自定义模式 将上面网址的网址复制粘贴到网站输入框中,点击"保存网址" 保存网址后,页面将在八爪鱼采集器中打开,红色方框中的列表内容,就是演示采集数据         步骤2:创建翻页循环 l 找到翻页按钮,设置翻页循环 将页面

八爪鱼采集列表和详情信息

前两天突然接到领导一个邮件,让我用八爪鱼采集互联网数据.下面是邮件的原话: 我是接触可视化工具较多,但是你这个应该不复杂就有点主观了吧,没办法,让我对应就对应吧. 首先登陆官网:http://www.bazhuayu.com/,下载客户端安装,傻瓜式安装下一步下一步就完成了.我不需要免费账号,公司买了一个. 这是这个工具的界面,还是蛮简洁的,最主要的是任务栏和工具箱栏.任务栏首先可以建立任务组,在任务组下面建立具体的任务.下面我就具体的某一任务来一一说明. 我采集的是中国土地市场网的结果公示,网

phpcms 采集教程

Phpcms网站管理系统目前最新版本为Phpcms v9,作为国内主流CMS系统之一,目前已有数万网站的应用规模.那么其自带的采集模块功能如何呢,来看看吧. 文章采集 Phpcms v9默认内置有文章.图片.下载3个内容模型,先来看最普通的文章采集.以采集新浪互联网频道,国内滚动新闻栏目为例http://roll.tech.sina.com.cn/internet_chinalist/index_1.shtml 1.进入后台,内容——内容发布管理——采集管理——添加采集点.(不同于Phpcms以

苹果CMSv10宝塔全自动定时采集教程

伙伴们在建立好自己的网站添加自定义资源库后,由于手动采集方式比较耗时间和精力更新也不够及时,是不是特别希望能有一个全自动定时采集方法来帮助网站增加视频资源解放自己的双手,那么现在就教大家如何用宝塔一步一步实现这个定时采集任务. 1.进入苹果CMS10后台,点击--采集 2.在采集页面,点击左侧 “自定义资源库,鼠标右键点击需要采集的内容,如“采集当天”.“采集本周””采集所有“,选择复制链接地址. 3.复制链接后台选择系统--定时任务,选择添加,我们来新添加一个定时任务. 4.状态选为: 启用,

转:dedecms织梦自带采集插件详细图文教程

看到很多网友都为织梦(DEDE CMS)的采集教程头疼,的确,官方出的教程太笼统了,什么都没说,换个网站你什么都做不了,这个教程是最详尽的教程,让你一看即会 首先我们打开织梦后台点击 采集——采集节点管理——增加新节点 这里我们以采集普通文章为例,我们选择普通文章,然后确定 我们进入了采集的设置页面,填写节点名称,就是给这个新节点取个名字,这里你可以任意填写.然后打开你想要采集的文章列表页,这里我们以织梦官网为例http://www.dedecms.com/web-manage/jianzhan

防采集与反爬虫常见的策略以及解决思路

  1.限制IP单位时间访问次数还有频率 背景:没有哪个常人一秒钟内能访问相同网站N次(不管是不是同一个网页) 解决办法:一般遇到这种情况我们就放缓采集频率,不管你写代码添加Sleep,或者在我们八爪鱼里面设置间隔时间都可以解决 进化1:有些高级点的防采集策略,他甚至监控到每个请求的频率,如果一直处于同一个频率,比如一秒一次,他也是会封. 解决办法:这种情况一般就需要我们在采集间隔里面加上随机数,每次访问的频率相对随机. 进化2:有些更残忍的防采集策略,他甚至会监控每IP每天或每时段请求网页的数