火车头数据采集工具

这几天由于业务需要接触到了数据采集,用的是火车采集器,官网:http://www.locoy.com/baidu/index?baidu

这里以8.0版本作演示,闲话就不多说了,首先,你看到的界面是这样的:

当然,第一次使用的话,左边这些列表是没有的,这是项目需要自建的任务列表。那么,现在从头开始介绍怎么操作吧。

1.新建任务

左边空白处右键--->新建分组

然后列表里多了一个任务组(这里以测试分组为例),接下来你可以继续在这个文件夹下继续建立分组或者直接新建任务(根据需要)

2.编辑任务

其实就是你新建任务之后的界面,任务名自定义:

接下来就是该工具数据采集的重点了,拿个小本记一下!!!

2.1采集网址规则

看到第一步右边的添加了没,点击添加:

这里的网址规则分两种,一是单页网址,二是

原文地址:https://www.cnblogs.com/eco-just/p/9276964.html

时间: 2024-10-15 23:48:09

火车头数据采集工具的相关文章

数据采集工具:八爪鱼

数据采集工具:八爪鱼 目录 一.八爪鱼介绍 二.安装八爪鱼 三.采集原理 四.快速入门 五.登陆 六.基本排错 七.提取.导出数据 一.八爪鱼介绍 八爪鱼是一款通用的网页数据采集器,能够采集98%的网页. 可简单快速地将网页数据转化为结构化数据,存储为EXCEL或数据库等多种形式,并且提供基于云计算的大数据云采集解决方案. 八爪鱼作为一款通用的网页数据采集器,并不针对于某一网站某一行业的数据进行采集,而是网页上所能看到或网页源码中有的文本信息,几乎都能采集.官网:https://www.bazh

数据采集工具flume

概述    Apache的flume是一个分布式的,可靠的,和可用的系统.能有效地收集,汇总和移动大量的从许多不同的来源,一个集中式数据存储日志数据.Apache的flume的使用不仅限于日志数据聚集.由于数据来源是可定制的,flume可以用来大量事件(每一行数据被当做一个event)数据包括但不限于传输网络数据,社交媒体产生的数据,电子邮件和几乎任何数据源的可能.    Apache的flume是Apache软件基金会的顶级项目,目前有两个版本的代码,版本0.9.x和1.x.1.x是全新的架构

大数据采集工具flume各种采集方案案例

以下是整理flume的各种采集方式 代码直接用 一.source类型是netcata1.sources = r1a1.sinks = k1a1.channels = c1a1.sources.r1.type = netcata1.sources.r1.bind = linux1a1.sources.r1.port = 666a1.sinks.k1.type = loggera1.channels.c1.type = memorya1.channels.c1.capacity = 1000a1.c

爬虫工具开发进度

最初是想端午节放假3天写一个爬虫,原型版本完成后..发现自己想要的其实是数据采集工具. 目前进度如下 已完成: 1.简易WPF界面,Log显示,开关暂停 2.硬盘结果写入,xml配置文件读写. 3.html分析,用的indexof分析全文.但稳定抓了一星期百度贴吧,中途没崩过. 未完成: 1.xml文件图形化编辑,保存,预览. 2.网页搜索结果,可图形化预览. 最近抓取准备换成HtmlAgility或者Jumony.走这一步问题很多,于是排在后面. 爬虫工具开发进度,布布扣,bubuko.com

笔记之Python网络数据采集

笔记之Python网络数据采集 非原创即采集 一念清净, 烈焰成池, 一念觉醒, 方登彼岸 网络数据采集, 无非就是写一个自动化程序向网络服务器请求数据, 再对数据进行解析, 提取需要的信息 通常, 有api可用, api会比写网络爬虫程序来获取数据更加方便. Part1 创建爬虫 Chapter1 初建网络爬虫 一旦你开始采集网络数据, 就会感受到浏览器为我们所做的所有细节, 它解释了所有的html, css, JavaScript 网络浏览器是一个非常有用的应用, 它创建信息的数据包, 发送

【数道云大数据】湖北分布式智能数据采集方法有哪些?武汉数据采集品牌选择?

随着大数据.人工智能等互联网信息技术的发展和应用,数据量的不断增加,政企单位应该如何对庞大的数据系统进行有效的管控以及数据采集分析?什么是分布式数据采集? 分布式数据采集是分布式记录方式可以在影响网络带宽最小的情况下采集到所需要的数据,其主要设计思路就是在成员与RTI之间加一层记录接口,成员在向RTI发送数据时,首先经过记录接口,由记录接口将数据记录之后,再转发给RTI,这样就不会有冗余的数据在网络上传输(特别是大大减少了网络上的网间数据),消除了系统瓶颈. 分布式数据采集方法有哪些?1.系统日

大数据平台常见开源工具有哪些?

大数据平台是对海量结构化.非结构化.半机构化数据进行采集.存储.计算.统计.分析处理的一系列技术平台.大数据平台处理的数据量通常是TB级,甚至是PB或EB级的数据,这是传统数据仓库工具无法处理完成的,其涉及的技术有分布式计算.高并发处理.高可用处理.集群.实时性计算等,汇集了当前IT领域热门流行的各类技术. 大数据平台常见的一些工具汇集 主要包含:语言工具类.数据采集工具.ETL工具.数据存储工具.分析计算.查询应用及运维监控工具等.以下对各工具作为简要的说明. 一语言工具类 1.Java编程技

大数据平台最常用的30款开源工具

大数据平台是对海量结构化.非结构化.半机构化数据进行采集.存储.计算.统计.分析处理的一系列技术平台.大数据平台处理的数据量通常是TB级,甚至是PB或EB级的数据,这是传统数据仓库工具无法处理完成的,其涉及的技术有分布式计算.高并发处理.高可用处理.集群.实时性计算等,汇集了当前IT领域热门流行的各类技术. 本文整理出了大数据平台常见的一些开源工具,并且依据其主要功能进行分类,以便大数据学习者及应用者快速查找和参考. ▲ 大数据平台常见的一些工具汇集 主要包含:语言工具类.数据采集工具.ETL工

【2020】DBus,一个更能满足企业需求的大数据采集平台

功能远超Sqoop.DataX.Flume.Logatash.Filebeat等采集工具 注:由于文章篇幅有限,完整文档可扫免费获取 深知其他组件的局限性,才能彰显DBus的优越感 当前有很多数据采集工具(Sqoop.DataX.Flume.Logatash.Filebeat等),他们或多或少都存在一些局限性. 一个共性问题是缺乏统一的数据源端管控,所以也就无法找到统一的数据入口,那后续处理元数据或者血缘分析会异常困难.除此之外,现有各种数据采集工具的数据同步方法也有一定的局限性.比如: (1)