《大数据日知录:架构与算法》前言

   《大数据日知录:架构与算法》前言

像移动互联网、O2O、可穿戴设备等概念一样,“大数据”从甫一提出到飓风般席卷并风靡全球,从最初的技术名词到形成渗透各行各业的社会现象,所耗时间仅几年而已,其兴也勃焉。

那么,大数据是否会像很多曾经火热现在已难觅踪迹的流行概念一样,将来某日,人们静心抬眼,发现风已去而水波不兴,徒留夕阳下波光粼粼的涟漪,让人不禁哀叹其亡也忽焉?

本书的背景

目前看仿佛有此迹象,当一个概念火爆到从街头随便抓一个路人,他都能跟你滔滔不绝地侃侃而谈;当一个新名词铺天盖地而来,让你熟悉到再见一次就要吐的程度,这些确实是典型的泡沫将破的征兆。目前业已出现越来越多的质疑声音,在这种狂热的氛围下,理性的质疑是最难能可贵的,毕竟大数据归根结底是少数派的游戏,而现状好像是人人都处于大数据进行时的状态,这让其看上去显得不甚理性。

但是,从社会发展趋势的角度,很明显大数据会是目前肉眼可及的视野范围里能看到的最大趋势之一。从传统IT 业到互联网、互联网到移动互联网,从以智能手机和Pad 为主要终端载体的移动互联网到可穿戴设备的移动互联网,然后再到万物互联的物联网,这一定是不可违抗的发展规律和前进方向。伴随着这个趋势必然有越来越多、形态越来越丰富的超量数据不断产生,而大数据明显是由此衍生出来的明确且必然的发展趋势。

所以,归根结底,大数据概念是个短期内炒得过热,但是从长期来看炒得不足的领域。再过十年如果回望现在,也许会发现:我们今天正在巍峨群山的山脚徘徊,试图找出一条通往山顶的羊肠小道,如此而已。我们当然不能盲目跟风不断追逐切换热点,但是忽视趋势的力量同样也不是一个理性的选择。

本书的内容

以上所述是本书诞生的大背景,目前市面上陆陆续续已经有不少讲大数据的书,有面向大众的概念普及类图书,也有讲解大数据技术的书,本书属于第二类,专注于与大数据处理有关的架构与算法,我相信这是一本比较全面地分门别类梳理大数据技术的书籍。从大约2010 年年底起我开始关注并收集整理这方面的技术资料,当然那时还没有听说过大数据的概念,现在的所谓大数据已经是后来的事情了。最初引起我关注的是与NoSQL 相关的技术,尤其是Google 和亚马逊的一系列相关工作,当时隐约地觉得这是一种新的技术发展趋势,甚至是一次技术范型的大转换,所以逐步开始投入越来越多的精力到其中,这包括将相关技术资料分门别类地进行收集、阅读和整理,利用业余时间开始一章一节地慢慢写本书,以及在实际工作中尽可能地应用这些技术和系统等若干方面。

本书的写作

断断续续完成本书花了大约3 年左右的时间,和最初预估的时间还是比较吻合的,这一方面是由于我可投入的时间本身就不多,但是还是希望能够写出一本高质量的技术书籍,所以不得不慢工出细活;另外一方面是由于大数据处理作为一个新领域,其涉及的方方面面的技术点实在太多,而且正处于快速的发展过程中。这个领域是我接触过的领域中知识涵盖面最广的,从底层的硬件开始,到涉及基础理论、大规模数据存储系统、分布式架构设计、各种不同适用场景下的差异化系统设计思路、机器学习与数据挖掘并行算法、层出不穷的新架构和新系统等,说无所不包有些夸张但是所需掌握知识点之多确实是很少见的。而且因为其处于快速发展的过程当中,所以各种技术纷繁芜杂,并无一个成熟的知识分类体系可供参考,需要不断梳理相关知识点之间的相互区别和联系并进行分门别类,如何将纷杂多样的技术梳理成清晰合理的章节内容曾让我头疼不已,当然发展到目前,整个大数据技术体系脉络已经日渐明晰,我相信参考本书目录可以清晰地发现这一点。另外一个阻碍是可参考的资料和系统多而杂,且质量良莠不齐,需要从中汰劣余优,尽可能选出有代表性及有发展潜力的理论、方案和系统,这也是很耗费精力的过程,尽管本书每章后只列出了很少一部分参考资料,但是实际参考的文献与系统要数倍于此,只列出精华部分是为了缩短读者选择高质量文献的过程。

十几年前当我还在中国科学院读书的时候,就对互联网的蓬勃发展及其对生活和工作各方面的影响感慨不已。当时最直观的感受是最新的国际会议论文很容易获得,往往是会议一开完就能从网上下载到感兴趣的文献,有时候会议没开有些作者就把论文先放在网上供人参考。觉得有了互联网这么强大的全球范围信息便捷分享工具,尽管当时国内科研水平不算高,在最好的国际顶级会议发表论文还是较难的事情,但是随着互联网的普及,科研水准应该能够获得极为快速长足的发展,因为从追踪最新技术进展的角度看大家的起跑线是一样的,而中国人多的优势慢慢应该能够发挥出来。

事实上也是如此,最近几年各种国际顶级会议中,中国人发表的论文比例越来越高可以证明这一点,而很明显这个趋势还会进一步加快。之所以提这个,是因为大数据相关技术研发道理其实也是一样的,尽管目前国内在这方面的实力和国外相比还有很大的差距,优秀的系统和技术方案往往都是Google、亚马逊、Facebook、Linkedin 等这些国际知名互联网公司提出的,国内工业界的技术水准大部分还仅仅停留在能把开源的大数据系统应用起来解决手头碰到的问题这个阶段,但是我相信在不远的将来,国内会逐步涌现出具有国际水准的大数据系统与解决方案,其中的道理与上面所举的学术进步的例子是一样的。目前大部分优秀系统是开源的,相关技术文献也很容易找到,作为有进取心的技术人员,现在所缺乏的不是没有可参考的学习资料,相反是资料太多但良莠不齐反而让很多人无所适从,不知该如何下手。国内的技术人员只要肯下功夫、会下功夫,有好的职业发展环境和高的自我期许及技术理想,假以时日,越来越多的世界级水准的大数据处理系统出自中国人之手是完全可以指日可待的。我期望本书对于这些技术人员在全面了解吸收并掌握大数据处理的优秀技术过程中,能贡献绵薄之力。沈利也参与了本书的部分编写工作。

8致谢编辑

感谢我的妻子、岳父、岳母,以及爸爸、妈妈,尽管历时3 年才得以完成本书,但是若是没有你们的全身心支持,这本书2020 年也无法面世。

对了,还有我的女儿,亲爱的雪晴,从蹒跚迈出人生第一步,到咿咿呀呀说出第一句话,我总是想起,小小的你,迷茫地站在这遍布新奇的世界里,东张西望时无助的样子,这总是令人心疼。

你无数人生的第一次带给我太多欢乐,而我陪你的时间又太少太少。每次听到你用小手咚咚敲着书房紧闭的门,这经常让我感到惶惑,不知道这么狠心对你是对还是错,但是又不得不狠下心来。我相信将来一定会后悔没有给你更多的时间,把你介绍给这色彩斑斓而残酷的世界,嘱咐它在今后的日子里能善待你一些。我多想陪你直到你白发苍苍的岁月:在初秋的午后阳光下,看到你坐在院中的婆娑树影里,给你的儿孙讲故事,浅笑依然,仿似今天。我可以清楚地想象那时的场景,清晰得就像一切就发生在眼前。虽然我深切地知道这是永不可实现的奢望,但这个梦想会永远放在我心里,就像你清澈的目光和纯真的笑容一样。

时间是我们的朋友,也是我们的敌人,希望你们能够原谅我。

张俊林

2014 年3 月于北京

时间: 2024-08-01 22:48:14

《大数据日知录:架构与算法》前言的相关文章

《App后台开发运维和架构实践》推荐序

软件开发工具的成长速度远远超过开发人员的成长速度,这是现实. 每个月,甚至每天,我们都可以见到新的类库.框架.工具.语言.它们或者极大地降低了开发的成本,或者极大地提升了开发的效率. 随之而来的问题就是,如何让开发人员妥善地运用好这些工具? 曾经有好几个做开发的同事跟我说:"写软件谁不会?从网上找些开源的类和项目来改改就是了".目前也确实充斥着这种"改改就是"的工作思维.介绍某个类库和项目如何安装和调用的文章俯拾皆是. 但是每种工具究竟有什么优缺点?适合用来解决什么

《App后台开发运维和架构实践》前言

笔者在2012年从开发电子商务网站转向了开发App后台,当时在一家做社交App的创业公司里工作,笔者和搭档都没有任何从事移动互联网开发的经验,不清楚App后台怎么架构,只能摸着石头过河,那时网络上只有一些零散的资料,当遇到问题时只能不断地摸索和思考,来找到解决问题的方法. 在从事开发App后台接近4年的时间中,笔者参与了两款社交App的开发,现在就职于bmob,从事云后台服务的研发工作,慢慢地对App后台的架构有了一些体会. 从2013年年底开始,笔者把工作笔记发表在CSDN博客专栏"App后端

《App 后台开发运维和架构实践》目录

ps:由于书的目录太长了,各大网店(京东,当当,亚马逊)都显示不完整,所以这里列出目录的完整版. 第1章 App后台入门 16 1.1 App后台的功能 16 1.2 App后台架构 17 1.3 App和App后台的通信 19 1.4 App后台和Web后端的区别 22 1.5 选择服务器 23 1.6 选择编程语言 24 1.7 快速入门新技术 25 1.7.1 思维模式 25 1.7.2 4种快速入门新技术的方法 25 1.8 App是怎样炼成的 26 1.8.1 项目启动阶段 26 1.

App 后台架构设计方案 设计思想与最佳实践

转载请注明出处:http://blog.csdn.net/smartbetter/article/details/53933096 做App做的久了,就想研究一下与之相关的App后台,发现也是蛮有趣的.App后台的两个重要作用就是 远程存储数据 和 消息中转.这里面的知识体系也是相当复杂,做好一个App后台也是需要长期锤炼的.本篇文章从 App 后台架构 的角度介绍.好了,下面进入正题: 说起架构,我们先看一下何为架构,百度百科是这样说的:架构,又名软件架构,是有关软件整体结构与组件的抽象描述,

基于 Docker 的微服务架构实践

本文来自作者 未闻 在 GitChat 分享的{基于 Docker 的微服务架构实践} 前言 基于 Docker 的容器技术是在2015年的时候开始接触的,两年多的时间,作为一名 Docker 的 DevOps,也见证了 Docker 的技术体系的快速发展.本文主要是结合在公司搭建的微服务架构的实践过程,做一个简单的总结.希望给在创业初期探索如何布局服务架构体系的 DevOps,或者想初步了解企业级架构的同学们一些参考. Microservice 和 Docker 对于创业公司的技术布局,很多声

Django开发运维后台(二):建立模型与更新数据

上一篇文章我已经新建了一个SaAdmin的APP,现在开始在这APP下面来code 1.修改setting.py的数据库连接: DATABASES = {     'default': {         'ENGINE':'django.db.backends.mysql',         'NAME': 'QjshAdmin',         'USER': 'root',         'PASSWORD': 'lihuipeng',         'HOST': 'localho

空格App亿元A轮融资背后:云上多场景技术架构实践与经验

直播视频: (点击图片观看) 幻灯片下载地址:https://oss.aliyuncs.com/yqfiles/382bc642fc0b621a9368138a74d8fd36.pdf 3月16日云栖社区在线实时分享顺利结束,本次由空格APP技术合伙人刘博分享了空格利用阿里云服务在搜索.推荐和数据挖掘业务场景下的探索实践.本次视频直播的整理文章.视频整理完毕,如下内容. 阿里云在空格 图一 空格服务端整体架构 在空格初始创业阶段,人员十分缺乏,但依靠着阿里云,空格两周便实现APP上线.空格服务端

现货!《PHP7实践指南:o2o网站与App后台开发》京东天猫有售

终于发售了,啥也不想说了,喜欢的或需要的就点击 链接 进去购买吧. 另外此书将作为 2017 PHP全球开发者大会 现场活动用书 天猫购书包邮 PHP7实践指南:O2O网站与App后台开发 数据库设计 PHP开发工程 适合作为企业内部培训.培训机构和大专院校的教学参考书 京东购书PHP7实践指南:O2O网站与App后台开发 陈小龙 PHP7语言编程教程书籍 php7 PHP全球开发者大会 2017 PHP 全球开发者大会 -百格活动 作者简介陈小龙,奇虎360软件工程师,是国内较早研究微信开发和

APP后台架构20191205

1.架构,架构与业务紧密相关,是有业务驱动的. 2.APP后台演进原则. App后台的架构是由业务规模驱动而演进的,App后台是为业务服务的,App后台的价值在于能为业务提供其所需要的功能,不应过度设计. 从项目的角度,当App访问量不大时,应该快速搭建App后台,让App尽快上线给用户提供服务,验证商业模式的正确性,同时快速迭代产品. 当App访问量不断上升,这时要在保证快速迭代的前提下,同时兼顾高性能和高可用. 当App访问量达到一定阶段后,增长曲线就会放缓,但业务变得更加复杂,对高性能和高

构建高并发高可用的电商平台架构实践

从各个角度总结了电商平台中的架构实践,由于时间仓促,定了个初稿,待补充完善,欢迎大家一起交流. 转载请声明出处:http://blog.csdn.net/yangbutao/article/details/12242441 作者:杨步涛 关注分布式架构.大数据.搜索.开源技术 QQ:306591368 技术Blog:http://blog.csdn.net/yangbutao 一. 设计理念 1.      空间换时间 1)      多级缓存,静态化 客户端页面缓存(http header中包