时代背景
记得CSDN之前有篇文章描写叙述了大数据成功预測了美国大选,“大数据”并不真正关心谁来当选下一届美国总统。只是全部的数据都显示:政治科学家和其它人相关人士都觉得奥巴马获得连任可能性比較大。本次的成功预言,展示了大数据强大的能量。
众所周知。企业数据本身就蕴藏着价值。可是将实用的数据与没有价值的数据进行区分看起来可能是一个棘手的问题。
显然,您所掌握的人员情况、工资表和客户记录对于企业的运转至关重要。可是其它数据也拥有转化为价值的力量。一段记录人们怎样在您的商店浏览购物的视频、人们在购买您的服务前后的所作所为、怎样通过社交网络联系您的客户、是什么吸引合作伙伴加盟、客户怎样付款以及供应商喜欢的收款方式……全部这些场景都提供了非常多指向。将它们抽丝剥茧,透过特殊的棱镜观察,将其与其它数据集对比。或者以与众不同的方式分析解剖。就能让您的行事方式发生天翻地覆的转变。
可是屡见不鲜的是,非常多公司仍然仅仅是将信息简单堆在一起。仅将其当作为满足公司治理规则而必需要保存的信息加以处理,而不是将它们作为战略转变的工具。
毕竟,数据和人员是业务部门仅有的两笔无法被竞争对手复制的財富。在善用的人手中,好的数据是全部管理决策的基础,带来的是对客户的深入了解和竞争优势。数据是业务部门的生命线。必须让数据在决策和行动时无缝且安全地流到人们手中。
所以,数据应该随时为决策提供根据。看看在政府公开道路和公共交通的使用信息这样看起来甚至有点晦涩的数据时会发生什么,这些数据来源为一些私营公司提供了巨大的价值。这些公司可以善用这些数据。创造满足潜在需求的新产品和服务。
基本概念
“大数据”这个术语最早期的引用可追溯到apache org的开源项目Nutch。当时,大数据用来描写叙述为更新网络搜索索引须要同一时候进行批量处理或分析的大量数据集。随着谷歌MapReduce和Google File System (GFS)的公布。大数据不再仅用来描写叙述大量的数据。还涵盖了处理数据的速度。
大数据日知录:架构与算法
这本书从架构与算法角度全面梳理了大数据存储与处理的相关技术。试读章节主要是讲了图数据库,其架构与算法,这当中又分成了下面几个部分:
1、在线查询类图数据库
讲述其三层结构。以及 TAO图数据库。
2、常见图挖掘问题
讲述了PageRank 计算、单源最短路径(Single Source Shortest Path)以及二部图最大匹配。
3、离线挖掘数据分片
分别介绍了切边法(Edge-Cut)和切点法(Vertex-Cut)。
4、离线挖掘计算模型
解说了以节点为中心的编程模型、GAS 编程模型、同步运行模型和异步运行模型。
5、离线挖掘图数据库
以结合实例的方式解说了四个典型的离线挖掘图数据库:Pregel、Giraph、GraphChi和PowerGraph。
小结
通过试读章节能够看出,《大数据日知录:架构与算法》这本书对于技术的解说。从深度上和作者本身经验上都是相当不错的,对于关键部分的技术架构讲得非常细非常全面,并配以实例来加深和验证相关的理论知识,有助于读者对于大数据相关技术的理解。
本书对于大数据技术所面临的各种问题给出了对应的解决思路,并给出了对应算法的源代码或者伪码,光这一章就有多达14个之多,从这里也能够看出作者的努力与付出了。