数据采集工具:八爪鱼

数据采集工具:八爪鱼

目录

一.八爪鱼介绍
二.安装八爪鱼
三.采集原理
四.快速入门
五.登陆
六.基本排错
七.提取、导出数据

  

一.八爪鱼介绍

八爪鱼是一款通用的网页数据采集器,能够采集98%的网页。
可简单快速地将网页数据转化为结构化数据,存储为EXCEL或数据库等多种形式,并且提供基于云计算的大数据云采集解决方案。
八爪鱼作为一款通用的网页数据采集器,并不针对于某一网站某一行业的数据进行采集,而是网页上所能看到或网页源码中有的文本信息,几乎都能采集。官网:https://www.bazhuayu.com/

二.安装八爪鱼

1.进入官网注册,因为下载使用要登录才能使用各项功能。

2.请双击OctopusSetup.exe开始安装。

3.安装完成后在开始菜单或者桌面均可以找到八爪鱼采集器快捷方式。

4.启动八爪鱼采集器并登陆。

  

安装提示:

本软件需要.NET3.5 SP1支持,Win 7已经内置支持,XP系统需要安装,部分Win10系统可能也需要安装。

软件会在安装时自动检测是否安装了.NET 3.5 SP1,如果没有安装则会自动从微软官方在线安装,

国内在线安装速度很慢,建议先从:http://pan.baidu.com/s/1nu5VbTJ 下载安装.NET 3.5 SP1,然后再安装八爪鱼采集器。

三.采集原理

八爪鱼采集器的核心原理是:基于Firefox内核浏览器,通过模拟人浏览网页的行为(如打开网页,点击网页中的某个按钮等操作),对网页内容进行全自动提取。
内置火狐内核浏览器,模拟人浏览网页、复制数据的行为, 通过设计工作流程,自动化采集数据。

  

四.快速入门

在八爪鱼客户端中,采集和导出数据主要经过以下3个步骤:1、选择采集模式2、配置任务3、配置完成后,选择采集方式,本地采集或云采集4、采集完成,导出数据

 

选择采集模式

简易模式下内置了国内一些主流网站的采集规则。如果要采集的网站和字段在简易模式的模板中,可直接调用。

注意:可自定义修改参数,以采集所需数据。

建议:
如果不能确定需要多少页数据,建议打开网站看一看每页数据量做简单计算后设置,如果还是不能确定,建议稍微多设置一点翻页,因为多采集的数据可以在Excel当中进行删减,如果少采集了数据,简易模式下只能从头开始重新采集。

简易模式

智能模式下,只需要输入网址,点击搜索,八爪鱼便会自动采集网页数据并以表格形式呈现出来。可以进行删除或修改字段、翻页、数据导出等操作,以excel格式导出。

试用情况:网页中数据以表格或列表形式呈现的网页。例如电商网站商品列表的商品信息、一些生活服务类的网站等等。

此外,智能模式还可以输入关键词搜索数据。比如搜索“天气”,点击查询后,可以跳转到数多多规则市场。在数多多上可以直接查找到相关的数据或规则。用户可以通过下载,获取数据或规则,规则可以放到八爪鱼中运行,以获取想要的数据。

智能模式

向导模式,通过简单易懂的语言,指引用户熟悉网页结构,认识八爪鱼采集流程。通过向导模式,可明白规则配置的方法和八爪鱼采集器的采集思路

在智能模式、简易模式不能满足需求的时候,建议优先使用向导模式,使用熟练后可以使用自定义模式进行采集,采集更自由、更效率。

示例网址:
https://coll.jd.com/list.html?sub=13321 https://coll.jd.com/list.html?sub=13322

向导模式

自定义模式是八爪鱼用户使用最多的一种模式,需要自行配置规则,可以实现全网98%以上网页数据的采集。经过采集原理讲解与向导模式试炼,我们大致理解了八爪鱼采集数据的逻辑,接下来需使用自定义采集模式,自行配置规则,抓取网页数据。

使用自定义模式配置规则,抓取数据,涉及打开网页、建立循环列表、建立翻页循环、配置字段、启动采集等多个基础操作。

自定义模式

配置任务

流程步骤:在八爪鱼采集器中,一共有11个流程设计操作
                 其中分为常用步骤和进阶步骤

常用步骤:1)打开网页
	2)循环翻页
	3)循环列表
	4)点击元素
	5)提取元素

进阶步骤:1)输入文字                   2)识别验证码
	3)切换下拉选项	  4)判断条件
	5)移动鼠标到元素上	  6)结束循环
	7)结束流程

  

选择采集方式

本地采集(单机采集),即使用自己的电脑进行采集。

可以实现绝大多数网页数据的爬取,可以在采集过程中对数据进行初步的清洗。如使用八爪鱼自带的正则工具,利用正则表达式将数据格式化,可在数据源头实现去除空格、筛选日期等多种操作。

其次八爪鱼还提供分支判断功能,可对网页中信息进行是与否的逻辑判断,实现用户筛选需求。

  

云采集,是使用八爪鱼提供的云服务集群进行数据采集,不占用本地电脑资源。当规则配置好之后,启动云采集,可关掉自己的电脑,实现无人值守。

功能:定时采集,实时监控,数据自动去重并入库,增量采集,自动识别验证码,API接口多元化导出数据。

速度:利用云端多节点并发运行,采集速度将远超于本地采集(单机采集)。

防封:具有多节点,多IP,可避免网站的IP封锁,实现采集数据的最大化。

  

入门练习

单网页数据采集
?单网页                        示例网址:http://www.skieer.com/guide/demo/simplemovies2.html
?单网页列表                 示例网址:http://www.skieer.com/guide/demo/genremovies2.html
?单网页列表详情          示例网址:http://www.skieer.com/guide/demo/navmovies2.html

分页数据采集
?分页列表                    示例网址:http://www.skieer.com/guide/demo/genremoviespage1.html
?分页列表详情             示例网址:http://www.skieer.com/guide/demo/moviespage1.html

分页列表数据采集

1.点击自定义采集

2.输入网址:https://www.bazhuayu.com/tutorial/hottutorial

3.构建分页,点击分页的下一页,循环点击单个链接

4.构建列表,连续点击两个标题,然后点击循环点击每个元素

4.设置采集数据字段,点击标题,时间和阅读量,获取标签内容

 5.查看流程

6.最后点击开始采集,选择本地采集,导出数据

注意事项

在不同网页中,同一步骤,操作提示框中出现的提示可能不同
因网页源码不同,同一个步骤中,操作提示框中出现的提示可能稍有不同,但逻辑是一样的,请大家灵活处理
例:以循环翻页为例,“循环点击下一页”、“循环点击单个元素”、“循环点击单个链接”从本质上是一样的,都是不断点击翻页按钮进行翻页,但因网页结构不同,提示稍有不同

创建循环的两种方式,具有特殊情况
?常见情况
列表采集:选中一个元素-选中子元素-选中全部-采集数据
列表及详情采集:选中一个链接-选中全部-循环点击每个链接
?特殊情况
但有些网页会有特殊情况,需要我们灵活处理,具体请看此视频教程:
分页采集和创建循环的两种方式 http://www.bazhuayu.com/tutorial/fenyecaiji

八爪鱼支持嵌套循环,不支持并列循环
?针对同一页面只能建立1个循环列表
存在想要采集列表数据,也想要采集详情页数据的情况,错误做法:建立2个循环循环列表
正确做法:建立1个循环列表,循环中包括“提取列表页数据”和“点击元素”步骤

注意事项,一定要看!

原文地址:https://www.cnblogs.com/-wenli/p/10624757.html

时间: 2024-10-12 23:19:04

数据采集工具:八爪鱼的相关文章

火车头数据采集工具

这几天由于业务需要接触到了数据采集,用的是火车采集器,官网:http://www.locoy.com/baidu/index?baidu. 这里以8.0版本作演示,闲话就不多说了,首先,你看到的界面是这样的: 当然,第一次使用的话,左边这些列表是没有的,这是项目需要自建的任务列表.那么,现在从头开始介绍怎么操作吧. 1.新建任务 左边空白处右键--->新建分组 然后列表里多了一个任务组(这里以测试分组为例),接下来你可以继续在这个文件夹下继续建立分组或者直接新建任务(根据需要) 2.编辑任务 其

数据采集工具flume

概述    Apache的flume是一个分布式的,可靠的,和可用的系统.能有效地收集,汇总和移动大量的从许多不同的来源,一个集中式数据存储日志数据.Apache的flume的使用不仅限于日志数据聚集.由于数据来源是可定制的,flume可以用来大量事件(每一行数据被当做一个event)数据包括但不限于传输网络数据,社交媒体产生的数据,电子邮件和几乎任何数据源的可能.    Apache的flume是Apache软件基金会的顶级项目,目前有两个版本的代码,版本0.9.x和1.x.1.x是全新的架构

大数据采集工具flume各种采集方案案例

以下是整理flume的各种采集方式 代码直接用 一.source类型是netcata1.sources = r1a1.sinks = k1a1.channels = c1a1.sources.r1.type = netcata1.sources.r1.bind = linux1a1.sources.r1.port = 666a1.sinks.k1.type = loggera1.channels.c1.type = memorya1.channels.c1.capacity = 1000a1.c

跨境电商必看:亚马逊数据采集规则推荐

跨境电商最近非常火爆,虽然目前做跨境电商在通关及仓储物流环节还存在着难点,但是随着各地政府相继推出各种促进跨境电商交易的扶持政策,跨境电商的大环境日趋明朗,逐渐呈现火爆的状况. 对于做跨境电商的企业和个人来说,为了缩短物流时间和环节,会选择在海外建仓提前备货,那么,提前了解市场行情和用户喜好,做出科学合理的产品SKU预测就非常重要了,很多做跨境电商的企业或个人习惯性的会通过从国外像亚马逊.EBAY等主流电商网站去获取较为全面详细的信息,通过人工的方式获取显然效率低下,下面我们就来介绍,使用大数据

爬虫工具开发进度

最初是想端午节放假3天写一个爬虫,原型版本完成后..发现自己想要的其实是数据采集工具. 目前进度如下 已完成: 1.简易WPF界面,Log显示,开关暂停 2.硬盘结果写入,xml配置文件读写. 3.html分析,用的indexof分析全文.但稳定抓了一星期百度贴吧,中途没崩过. 未完成: 1.xml文件图形化编辑,保存,预览. 2.网页搜索结果,可图形化预览. 最近抓取准备换成HtmlAgility或者Jumony.走这一步问题很多,于是排在后面. 爬虫工具开发进度,布布扣,bubuko.com

笔记之Python网络数据采集

笔记之Python网络数据采集 非原创即采集 一念清净, 烈焰成池, 一念觉醒, 方登彼岸 网络数据采集, 无非就是写一个自动化程序向网络服务器请求数据, 再对数据进行解析, 提取需要的信息 通常, 有api可用, api会比写网络爬虫程序来获取数据更加方便. Part1 创建爬虫 Chapter1 初建网络爬虫 一旦你开始采集网络数据, 就会感受到浏览器为我们所做的所有细节, 它解释了所有的html, css, JavaScript 网络浏览器是一个非常有用的应用, 它创建信息的数据包, 发送

【数道云大数据】湖北分布式智能数据采集方法有哪些?武汉数据采集品牌选择?

随着大数据.人工智能等互联网信息技术的发展和应用,数据量的不断增加,政企单位应该如何对庞大的数据系统进行有效的管控以及数据采集分析?什么是分布式数据采集? 分布式数据采集是分布式记录方式可以在影响网络带宽最小的情况下采集到所需要的数据,其主要设计思路就是在成员与RTI之间加一层记录接口,成员在向RTI发送数据时,首先经过记录接口,由记录接口将数据记录之后,再转发给RTI,这样就不会有冗余的数据在网络上传输(特别是大大减少了网络上的网间数据),消除了系统瓶颈. 分布式数据采集方法有哪些?1.系统日

大数据平台常见开源工具有哪些?

大数据平台是对海量结构化.非结构化.半机构化数据进行采集.存储.计算.统计.分析处理的一系列技术平台.大数据平台处理的数据量通常是TB级,甚至是PB或EB级的数据,这是传统数据仓库工具无法处理完成的,其涉及的技术有分布式计算.高并发处理.高可用处理.集群.实时性计算等,汇集了当前IT领域热门流行的各类技术. 大数据平台常见的一些工具汇集 主要包含:语言工具类.数据采集工具.ETL工具.数据存储工具.分析计算.查询应用及运维监控工具等.以下对各工具作为简要的说明. 一语言工具类 1.Java编程技

大数据平台最常用的30款开源工具

大数据平台是对海量结构化.非结构化.半机构化数据进行采集.存储.计算.统计.分析处理的一系列技术平台.大数据平台处理的数据量通常是TB级,甚至是PB或EB级的数据,这是传统数据仓库工具无法处理完成的,其涉及的技术有分布式计算.高并发处理.高可用处理.集群.实时性计算等,汇集了当前IT领域热门流行的各类技术. 本文整理出了大数据平台常见的一些开源工具,并且依据其主要功能进行分类,以便大数据学习者及应用者快速查找和参考. ▲ 大数据平台常见的一些工具汇集 主要包含:语言工具类.数据采集工具.ETL工