《实战大数据》
http://item.jd.com/11417436.html
“数据是重要资产”已成为大家的共识,众多公司争相分析、挖掘大数据背后的信息财富。本书在这个背景下,对目前大数据及其相关技术的发展进行总结,理论联系实践,既不缺乏理论深度又具有实用价值。
本书共12章,内容包括大数据概念、特点、发展历史,数据获取与存储,数据抽取和清洗,数据提炼,数据的查询、分析与建模,异构数据采集,文档的存储与检索,异种数据的统一存储与转换,基于微博的股票市场预测系统实例,海量视频检索系统实例,HDFS云文件系统实例。
本书适合大数据技术初学者,大数据从业人员和研究人员,也可以作为高等院校相关专业师生的教学参考手册。
前言
随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。大数据目前已经成为IT领域最为流行的词汇,其实它并不是一个全新的概念。早在1980年,著名未来学家阿尔文·托夫勒便在《第三次浪潮》一书中,明确提出“数据就是财富”这一观点,并将大数据热情地赞颂为“第三次浪潮的华彩乐章”。直到现在,大数据在政府决策部门、行业企业、研究机构等得到了广泛的应用,并实际创造了价值。
大数据分析相比于传统的数据仓库应用,具有数据量大、查询分析复杂等特点。本书对目前大数据技术的发展进行了总结,试图讲清楚数据获取,数据结构,数据集成,数据分析、组织、抽取和建模,数据分析结果的呈现等问题,为读者提供在实践中解决遇到的大数据问题的思路和方法。
本书分为12章,每章内容概要如下:
第1章从大数据的历史与发展、大数据的定义、大数据的研究内容、大数据问题在国内外政府、公司和大学的研究现状等方面进行论述,为这一新兴概念勾勒出一个雏形。
第2章介绍了数据获取与存储技术的概念以及一些流行的工具与实现。
第3章介绍了数据抽取和清洗。数据抽取作为数据处理的第一步,具有至关重要的作用。数据清洗是构建数据仓库和知识发现的必要因素。
第4章介绍了大数据提炼价值的关键步骤——数据集成,包括各大公司对数据集成技术的定义、用处、发展历程、分类、数据集成技术的研究现状、各大公司实现数据集成技术的工具,以及在大数据背景下的数据集成技术的特点等等。
第5章介绍了海量数据的查询、分析与建模技术。包括数据查询、分析和建模的各项技术的概念、发展历史、工具等,使得读者对于海量数据查询、分析与建模有更进一步的了解。
第6章介绍了本章将给出一个舆情监控系统的异构数据采集平台部分为实例,介绍OSGi的基本构建方法,并围绕该异构数据采集平台的设计与实现,对OSGi在构建动态部署的可伸缩的异构数据采集平台中的设计和使用进行介绍。
第7章采用HBase实现海量小型XML文档的存储与检索,结合实际问题背景,对该系统的功能性需求和非功能性需求进行了详细描述,逐步深入分析,给出系统的概要设计及详细设计,并给出系统关键点的实现。
第8章针对现有一些算法无法处理大规模网络的问题,在随机游走算法(RandomMovement Strategy)和仿射传播聚类算法(Affinity Propagation Clustering Algorithm)的基础上,借助MapReduce编程模式,将两种算法迁移到云平台上,分别给出随机游走算法和仿射传播聚类算法的并行化。
第9章介绍了异种数据源数据的统一存储与转换技术。
第10章主要介绍了一种基于微博的股票市场预测系统,并对该系统的应用背景和相关技术做了相应的介绍,分析了系统的需求分析与总体设计思路,最后给出了详细的设计与实现方案。
第11章主要介绍了一个基于内容的海量视频检索系统,该系统运用MapReduce对视频中运动对象提取的方法进行了改进;使用HBase进行系统中相关数据的存储;采用一种新型的方法对检测到的运动对象进行行为识别,并创新性的利用规则组合的方式对复杂行为进行定义与检索。
第12章全面介绍了一个基于HDFS(Hadoop Distributed File System)的云文件系统,为用户进行数据存储提供一个实例,实现了面向高速局域网网络服务的云计算分布式文件系统,并提供了网盘应用的主要功能。