《大数据日知录:架构与算法》试读

时代背景

记得CSDN之前有篇文章描写叙述了大数据成功预測了美国大选,“大数据”并不真正关心谁来当选下一届美国总统。只是全部的数据都显示:政治科学家和其它人相关人士都觉得奥巴马获得连任可能性比較大。本次的成功预言,展示了大数据强大的能量。

众所周知。企业数据本身就蕴藏着价值。可是将实用的数据与没有价值的数据进行区分看起来可能是一个棘手的问题。

显然,您所掌握的人员情况、工资表和客户记录对于企业的运转至关重要。可是其它数据也拥有转化为价值的力量。一段记录人们怎样在您的商店浏览购物的视频、人们在购买您的服务前后的所作所为、怎样通过社交网络联系您的客户、是什么吸引合作伙伴加盟、客户怎样付款以及供应商喜欢的收款方式……全部这些场景都提供了非常多指向。将它们抽丝剥茧,透过特殊的棱镜观察,将其与其它数据集对比。或者以与众不同的方式分析解剖。就能让您的行事方式发生天翻地覆的转变。

可是屡见不鲜的是,非常多公司仍然仅仅是将信息简单堆在一起。仅将其当作为满足公司治理规则而必需要保存的信息加以处理,而不是将它们作为战略转变的工具。

毕竟,数据和人员是业务部门仅有的两笔无法被竞争对手复制的財富。在善用的人手中,好的数据是全部管理决策的基础,带来的是对客户的深入了解和竞争优势。数据是业务部门的生命线。必须让数据在决策和行动时无缝且安全地流到人们手中。

所以,数据应该随时为决策提供根据。看看在政府公开道路和公共交通的使用信息这样看起来甚至有点晦涩的数据时会发生什么,这些数据来源为一些私营公司提供了巨大的价值。这些公司可以善用这些数据。创造满足潜在需求的新产品和服务。

基本概念

“大数据”这个术语最早期的引用可追溯到apache org的开源项目Nutch。当时,大数据用来描写叙述为更新网络搜索索引须要同一时候进行批量处理或分析的大量数据集。随着谷歌MapReduce和Google File System (GFS)的公布。大数据不再仅用来描写叙述大量的数据。还涵盖了处理数据的速度。

大数据日知录:架构与算法

这本书从架构与算法角度全面梳理了大数据存储与处理的相关技术。试读章节主要是讲了图数据库,其架构与算法,这当中又分成了下面几个部分:

1、在线查询类图数据库

讲述其三层结构。以及 TAO图数据库。

2、常见图挖掘问题

讲述了PageRank 计算、单源最短路径(Single Source Shortest Path)以及二部图最大匹配。

3、离线挖掘数据分片

分别介绍了切边法(Edge-Cut)和切点法(Vertex-Cut)。

4、离线挖掘计算模型

解说了以节点为中心的编程模型、GAS 编程模型、同步运行模型和异步运行模型。

5、离线挖掘图数据库

以结合实例的方式解说了四个典型的离线挖掘图数据库:Pregel、Giraph、GraphChi和PowerGraph。

小结

通过试读章节能够看出,《大数据日知录:架构与算法》这本书对于技术的解说。从深度上和作者本身经验上都是相当不错的,对于关键部分的技术架构讲得非常细非常全面,并配以实例来加深和验证相关的理论知识,有助于读者对于大数据相关技术的理解。

本书对于大数据技术所面临的各种问题给出了对应的解决思路,并给出了对应算法的源代码或者伪码,光这一章就有多达14个之多,从这里也能够看出作者的努力与付出了。

时间: 2024-10-06 17:28:49

《大数据日知录:架构与算法》试读的相关文章

读<大数据日知录:架构与算法>有感

前一段时间, 一个老师建议我可以学学 '大数据' 和 '机器学习', 他说这必然是今后的热点, 学会了, 你就是香饽饽.在此之前, 我对大数据, 机器学习并没有很深的认识, 总觉得它们是那么的缥缈, 高不可攀, 也没想着深入学习.之后, 一次偶然的机会, 在csdn官方博客上看到了这样的一个活动 [置顶] 话题讨论&征文--谈论大数据时我们在谈什么 于是, 从下载试读样章, 到正式读书, 开始了学习大数据的过程... 到今天, 差不多两周过去了, 马马虎虎过了一遍, 感触颇多. 下面简单评价下我

大数据日知录:架构与算法

大数据丛书 大数据日知录:架构与算法(大数据领域专家力作,专注大数据架构和算法,全面梳理大数据相关技术) 张俊林 著   ISBN 978-7-121-24153-6 2014年9月出版 定价:69.00元 404页 16开 编辑推荐 这是一本心血之作,历时3年,质量上乘. 从架构与算法的角度,比较全面地分门别类梳理了大数据相关技术. 本书内容紧跟技术前沿,讲解深入浅出,适合大数据领域所有技术人员. 书中还列有作者优选的高质量文献,能为读者节省选择的时间,绝对值得一读. 内容提要 大数据是当前最

大数据日知录:架构与算法 笔记

大数据日知录:架构与算法 跳转至: 导航. 搜索 目录 1 当谈论大数据时我们在谈论什么 2 数据分片与路由 3 数据复制与一致性 4 大数据常用算法与数据结构 5 集群资源管理与调度 6 分布式协调系统 7 分布式通信 8 数据通道 9 分布式文件系统 10 内存KV 11 列式数据库 12 大规模批处理 13 流式计算 14 交互式数据分析 15 图数据库 16 机器学习:范型与架构 17 机器学习:分布式算法* 18 增量计算 19 附录A 硬件体系结构及常用性能指标 20 附录B 大数据

《大数据日知录:架构与算法》前言

   <大数据日知录:架构与算法>前言 像移动互联网.O2O.可穿戴设备等概念一样,"大数据"从甫一提出到飓风般席卷并风靡全球,从最初的技术名词到形成渗透各行各业的社会现象,所耗时间仅几年而已,其兴也勃焉. 那么,大数据是否会像很多曾经火热现在已难觅踪迹的流行概念一样,将来某日,人们静心抬眼,发现风已去而水波不兴,徒留夕阳下波光粼粼的涟漪,让人不禁哀叹其亡也忽焉? 本书的背景 目前看仿佛有此迹象,当一个概念火爆到从街头随便抓一个路人,他都能跟你滔滔不绝地侃侃而谈:当一个新名

大数据日知录 - 算法与数据结构 - 1

Bloom Filter BF高教的表征数据集合,时间和空间效率极高.使用长度为m的位数组A来存储集合信息,使用k个相互独立的哈希函数将数据映射到为数组空间.对于集合中的成员a,将其进行k次哈希,哈希结果为x,则将位数组的第x位设置为1,最多有w<=k位会被设置为1. 如果需要判断某个成员是否在S中出现,只需要看hash国有w位中有没有出现0即可. BF会发生误判,不在集合中的数据被判定成了在集合中,因为a1和a2设置的位可能刚好覆盖了a3的所有哈希位.但不会发生错判. 最优的哈希函数个数为m/

试读《大数据日知录:架构与算法》有感

其实"大数据"这个词在我的脑海中还没有一个比较确切的定义,几年前我接触了一个名词"海量数据",它主要是指在数据库中如何处理优化查询海量数据的SQL,或者使用NoSQL(Not only SQL)进行处理,进而进行数据分析.数据挖掘等,从大量无规律的数据中提取出有价值的信息,总之海量数据是与数据库紧密关联的.而这两年兴起了"大数据"浪潮,我认为"海量数据"强调的是数据量的大小,而大数据则不仅仅是数据量的大小,还指每条数据本身的大

《大数据日知录:架构与算法》读书笔记(多图)

第二次读这本书,这次是精读,画了思维导图.书很好,完整的知识结构和由浅入深的介绍,非常全面以至于知识点都梳理了三天. 作为导论式的总览,对大数据领域有了个总体的认识,接下来可以更针对性地加强和实践. 总体上比较侧重基础理论和分布式系统的介绍,数据清洗.实时与离线融合的实践.数据分析以及将各系统串联打通方面还需要另外补课.

大数据日知录【第五章:分布式协调系统】笔记--如何当选老大?如何加入组织?如何将组织的意愿传递下去

Chubby: 保持高可用性和可靠性,不追求读写的高吞吐量,所有的读写请求都有主控服务器完成,其他的备份服务器在内存中维护和主控服务器完全一致的树形结构,此时从属服务器的作用在于系统的整体的可靠性. Zookeeper: 每一个节点都可以处理读请求,写请求只能由主控服务器处理,此时从属服务器的作用在于提高系统读的吞吐量(有可能会导致读取的数据是老数据). Zookeeper主要应用场景: 选举老大 配置管理:配置文件存储在某个节点上,其他节点都是观察者,启东市可以读取也可以订阅改配置消息. 组成

大数据日知录【第二章:数据的复制与一致性】

基本原则: CAP (Consistency Available Partition Tolerance) 三个条件不可能同时满足(强一致性,可用性,网络分区总会存在,但存在网络分区的条件下让仍然可以用) 在目前的互联网中,P是客观的条件,为了好的用户体验往往A也必须达到,如此只能弱化C 也就是弱一致性模型. ACID(Atomicity, Consistency, Isolation, Duration) 在关系型数据库中常用 保证数据的强一致性和高可靠性 分布式系统下的幂等性:调用方反复执行