这是一本纯技术类的工具书,里边有许多好的思想与方法供实际工作者使用。对于我这种只会R编程的人来说。读起来是有些吃力!不过随着大数据知识架构的逐步完善,相信这本书会在未来体现出它的价值来。
第一部分 平台篇
实际上,这一部分是讲到了大数据的一些基本概念,以及数据挖掘及实时分析的一般流程。读完这一部分,相当于你在大数据领域可以扫盲了。但是要对里边组件有一个深入理解,就需要你在工作上对它们有常规应用。
这一部分,也是自己总结最多的地方。可能是怕自己大数据掌握的还不是很熟悉的原因吧!总想把架构这一块能够很好掌握。但看完第一部分,也同时用思维导图对其整理之后http://naotu.baidu.com/file/3ed0d29e1771939d4fc4004d8c57d22f?token=0ae961fc4410f787。才对大数据架构有了更深的理解。这一部分内容相当于把之前的知识有一个很好的串联。
对于有大数据基础的同学,这一部分可以直接略过。
第二部分 分析篇
这一部分,干货比较多。三名作者都在各自领域从事大数据的工作。将相关的算法跟实际的业务有一个很好的联接。而且每一部分,都是先讲算法,而后用一个实际的案例来对算法进行相关讲解。具有很好的实操性。这一方面,对于当时自己学习R帮助很大,而且,作者所使用的语言是R跟Python。
这一部分,比较有些烧脑。首先最好要对统计学里的一些概念有所了解。因为很多的算法都已经封装到相当类库里边了。所以在使用这些算法的同时,对算法原理的理解也会决定着你是否对结果的准确度。
这一部分的内容,自己真实操作过的也就是文本可视化,跟决策树算法。相比于代码跟算法的复杂性,个人觉得还是对业务的理解比较重要。最终的呈现是基于你对业务的理解,多从业务的角度去思考最后所呈现的结果。而不是从算法与代码的细节!
第三部分 应用篇
这一部分,就到了烧脑的地步了。我是没有做过这种大的系统。所以对系统全局的把控及理解没有作者到位。
而这一部分这四个大的系统在当下互联网电商应用又是很多。实际上,这四个大系统,在我们日常生活中都能够用到。只是我们没有站在创作者的角度去思考整体系统的创建。而这一部分也有相关的代码。方便我们可以自己操作。
好了,这本书总算是断断续续读完了,有些烧脑。但相信,书里边一些内容会有未来完全从事大数据的工作后会帮到自己。
还有一点,为什么这本书要起名《大数据与机器学习》,个人的理解就是未来的决策都是用数据来决策。而机器学习又比人学习更好,从而可以更好的辅助人类做决策。
先总结这么多吧!以后工作中用的时候再来查看吧!