大数据技术之数据采集篇

【导读】数据采集是进行大数据分析的前提也是必要条件,在整个流程中占据重要地位。本文将介绍大数据三种采集形式:系统日志采集法、网络数据采集法以及其他数据采集法。

(一)系统日志采集法

系统日志是记录系统中硬件、软件和系统问题的信息,同时还可以监视系统中发生的事件。用户可以通过它来检查错误发生的原因,或者寻找受到***时***者留下的痕迹。系统日志包括系统日志、应用程序日志和安全日志。(百度百科)大数据平台或者说类似于开源Hadoop平台会产生大量高价值系统日志信息,如何采集成为研究者研究热点。目前基于Hadoop平台开发的Chukwa、Cloudera的Flume以及Facebook的Scribe(李联宁,2016)均可成为是系统日志采集法的典范。目前此类的采集技术大约可以每秒传输数百MB的日志数据信息,满足了目前人们对信息速度的需求。一般而言与我们相关的并不是此类采集法,而是网络数据采集法。

在这里还是要推荐下我自己建的大数据学习交流群:529867072,群里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据软件开发相关的),包括我自己整理的一份最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴加入。

(二)网络数据采集法

做自然语言的同学可能对这点感触颇深,除了目前已经存在的公开数据集,用于日常的算法研究外,有时为了满足项目的实际需求,需要对现实网页中的数据进行采集,预处理和保存。目前网络数据采集有两种方法一种是API,另一种是网络爬虫法。

1.API

API又叫应用程序接口,是网站的管理者为了使用者方面,编写的一种程序接口。该类接口可以屏蔽网站底层复杂算法仅仅通过简简单单调用即可实现对数据的请求功能。目前主流的社交媒体平台如新浪微博、百度贴吧以及Facebook等均提供API服务,可以在其官网开放平台上获取相关DEMO。但是API技术毕竟受限于平台开发者,为了减小网站(平台)的负荷,一般平台均会对每天接口调用上限做限制,这给我们带来极大的不便利。为此我们通常采用第二种方式——网络爬虫。

2.网络爬虫

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOFA社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。(百度百科)最常见的爬虫便是我们经常使用的搜索引擎,如百度,360搜索等。此类爬虫统称为通用型爬虫,对于所有的网页进行无条件采集。通用型爬虫具体工作原理见图1。

图1 爬虫工作原理[2]

给予爬虫初始URL,爬虫将网页中所需要提取的资源进行提取并保存,同时提取出网站中存在的其他网站链接,经过发送请求,接收网站响应以及再次解析页面,提取所需资源并保存,再将网页中所需资源进行提取......以此类推,实现过程并不复杂,但是在采集时尤其注意对IP地址,报头的伪造,以免被网管发现禁封IP(我就被封过),禁封IP也就意味着整个采集任务的失败。当然为了满足更多需求,多线程爬虫,主题爬虫也应运而生。多线程爬虫是通过多个线程,同时执行采集任务,一般而言几个线程,数据采集数据就会提升几倍。主题爬虫和通用型爬虫截然相反,通过一定的策略将于主题(采集任务)无关的网页信息过滤,仅仅留下需要的数据。此举可以大幅度减少无关数据导致的数据稀疏问题。

(三)其他采集法

其他采集法是指对于科研院所,企业政府等拥有机密信息,如何保证数据的安全传递?可以采用系统特定端口,进行数据传输任务,从而减少数据被泄露的风险。

【结语】大数据采集技术是大数据技术的开端,好的开端是成功的一半,因此在做数据采集时一定要谨慎选择方法,尤其是爬虫技术,主题爬虫应该是对于大部分数据采集任务而言是较好的方法,可以深入研究。

原文地址:https://blog.51cto.com/14296550/2410876

时间: 2024-11-05 16:26:17

大数据技术之数据采集篇的相关文章

基于大数据技术之电视收视率企业项目实战(hadoop+Spark)张长志(项目实战)

38套大数据,云计算,架构,数据分析师,Hadoop,Spark,Storm,Kafka,人工智能,机器学习,深度学习,项目实战视频教程 视频课程包含: 38套大数据和人工智能精品高级课包含:大数据,云计算,架构,数据挖掘实战,实时推荐系统实战,电视收视率项目实战,实时流统计项目实战,离线电商分析项目实战,Spark大型项目实战用户分析,智能客户系统项目实战,Linux基础,Hadoop,Spark,Storm,Docker,Mapreduce,Kafka,Flume,OpenStack,Hiv

基于大数据技术推荐系统算法案例实战视频教程(项目实战)

38套大数据,云计算,架构,数据分析师,Hadoop,Spark,Storm,Kafka,人工智能,机器学习,深度学习,项目实战视频教程 视频课程包含: 38套大数据和人工智能精品高级课包含:大数据,云计算,架构,数据挖掘实战,实时推荐系统实战,电视收视率项目实战,实时流统计项目实战,离线电商分析项目实战,Spark大型项目实战用户分析,智能客户系统项目实战,Linux基础,Hadoop,Spark,Storm,Docker,Mapreduce,Kafka,Flume,OpenStack,Hiv

《Spark大数据分析:核心概念、技术及实践》大数据技术一览

本节书摘来自华章出版社<Spark大数据分析:核心概念.技术及实践>一书中的第1章,第1节,作者穆罕默德·古勒(Mohammed Guller)更多章节内容可以访问云栖社区"华章计算机"公众号查看. 大数据技术一览 我们正处在大数据时代.数据不仅是任何组织的命脉,而且在指数级增长.今天所产生的数据比过去几年所产生的数据大好几个数量级.挑战在于如何从数据中获取商业价值.这就是大数据相关技术想要解决的问题.因此,大数据已成为过去几年最热门的技术趋势之一.一些非常活跃的开源项目都

未来五年内将重塑大数据技术的五种趋势

请大家不要再纠结于一块磁盘能保存多少数据或者企业到底会不会采用Hadoop.关于大数据的真正问题在于,企业用户将如何使用Hadoop.我们的系统到底能在智能化道路上走多远.我们又该如何保证这一切都处于控制之下. 过去几年当中,大数据技术已经迎来长足发展:从一个乐观积极的流行词汇变成人见人恨的疑难杂症,关注重点也由纯粹的数据规模转向对类型及速度的追 求.所谓“大数据”及其相关技术在经历了高度重视.详细甄别以及吐故纳新之后,实际成果很可能与我们的认知存在较大差异.然而时至今日,我们正站在历史的 重要

大快大数据技术架构的构成模块

大数据也不是近几年才出现的新东西,只是最近几年才真正意义上变得热门.火爆!而这要得益于互联网信息技术的快速发展,网络改变世界.改变生活,大数据技术的应用让这样的改变更为深刻. 关注大数据或者是互联网方面新闻的人应该知道,大数据已经上升到了国家战略的高度.可以说这是时代发展的必然趋势,从国家战略层面推进大数据技术的普及与应用,一个至关重要且非常核心的问题--数据安全问题就非常突出.解决数据安全问题,必然要回归到大数据开发所使用的框架! 国内的大数据开发起步较晚于国外,所有关于大数据大开发的各种标准

常用的大数据技术有哪些?

大数据技术为决策提供依据,在政府.企业.科研项目等决策中扮演着重要的角色,在社会治理和企业管理中起到了不容忽视的作用,很多国家,如中国.美国以及欧盟等都已将大数据列入国家发展战略,微软.谷歌.百度以及亚马逊等大型企业也将大数据技术列为未来发展的关键筹码,可见,大数据技术在当今乃至未来的重要性! 大数据学习QQ群:716581014 大数据技术,简而言之,就是提取大数据价值的技术,是根据特定目标,经过数据收集与存储.数据筛选.算法分析与预测.数据分析结果展示等,为做出正确决策提供依据,其数据级别通

学习大数据技术需要掌握哪些Java基础

大数据产业已进入发展的"快车道",急需大量优秀的大数据人才作为后盾.如果你是Java编程出身,那学习大数据自然是锦上添花:但如果你是刚刚接触大数据技术,还在Java编程基础阶段,这篇文章非常值得你看! 首先,我们学习大数据,为什么要先掌握Java技术? Java是目前使用非常广泛的编程语言,它具有的众多特性,特别适合作为大数据应用的开发语言. Java不仅吸收了C++语言的各种优点,还摒弃了C++里难以理解的多继承.指针等概念,因此Java语言具有功能强大和简单易用两个特征.Java语

2019年大数据技术应用发展趋势

2019年大 当前最火热的新兴科技莫过于人工智能,而国内的大数据公司也纷纷转战AI战场.某种程度上,大数据已不再是科技界的话题宠儿.在Gartner的Hype Cycle中,大数据技术也已经进入到了Plateau of Productivity的商业化应用阶段. ? 任何新兴科技总会经历创新萌芽到期望幻灭的周期,这并不奇怪.就2018年行业应用现状来看,大数据正逐步成为企业的标准化应用技术:从早期尝试搭建分布式集群.到数据采集汇总.到数据加工与开发.再到大数据的应用场景落地,企业数据架构已经全面

从大数据技术变迁猜一猜AI人工智能的发展

目前大数据已经成为了各家互联网公司的核心资产和竞争力了,其实不仅是互联网公司,包括传统企业也拥有大量的数据,也想把这些数据发挥出作用.在这种环境下,大数据技术的重要性和火爆程度相信没有人去怀疑. 而AI人工智能又是基于大数据技术基础上发展起来的,大数据技术已经很清晰了,但是AI目前还未成熟啊,所以本文就天马行空一下,从大数据的技术变迁历史中来找出一些端倪,猜一猜AI人工智能未来的发展. 最近断断续续的在看<极客时间>中「 从0开始学大数据 」专栏的文章,受益匪浅,学到了很多.尤其是非常喜欢作者