《大数据与机器学习》读书思考

这是一本纯技术类的工具书,里边有许多好的思想与方法供实际工作者使用。对于我这种只会R编程的人来说。读起来是有些吃力!不过随着大数据知识架构的逐步完善,相信这本书会在未来体现出它的价值来。

第一部分  平台篇

实际上,这一部分是讲到了大数据的一些基本概念,以及数据挖掘及实时分析的一般流程。读完这一部分,相当于你在大数据领域可以扫盲了。但是要对里边组件有一个深入理解,就需要你在工作上对它们有常规应用。

这一部分,也是自己总结最多的地方。可能是怕自己大数据掌握的还不是很熟悉的原因吧!总想把架构这一块能够很好掌握。但看完第一部分,也同时用思维导图对其整理之后http://naotu.baidu.com/file/3ed0d29e1771939d4fc4004d8c57d22f?token=0ae961fc4410f787。才对大数据架构有了更深的理解。这一部分内容相当于把之前的知识有一个很好的串联。

对于有大数据基础的同学,这一部分可以直接略过。

第二部分   分析篇

这一部分,干货比较多。三名作者都在各自领域从事大数据的工作。将相关的算法跟实际的业务有一个很好的联接。而且每一部分,都是先讲算法,而后用一个实际的案例来对算法进行相关讲解。具有很好的实操性。这一方面,对于当时自己学习R帮助很大,而且,作者所使用的语言是R跟Python。

这一部分,比较有些烧脑。首先最好要对统计学里的一些概念有所了解。因为很多的算法都已经封装到相当类库里边了。所以在使用这些算法的同时,对算法原理的理解也会决定着你是否对结果的准确度。

这一部分的内容,自己真实操作过的也就是文本可视化,跟决策树算法。相比于代码跟算法的复杂性,个人觉得还是对业务的理解比较重要。最终的呈现是基于你对业务的理解,多从业务的角度去思考最后所呈现的结果。而不是从算法与代码的细节!

第三部分   应用篇

这一部分,就到了烧脑的地步了。我是没有做过这种大的系统。所以对系统全局的把控及理解没有作者到位。

而这一部分这四个大的系统在当下互联网电商应用又是很多。实际上,这四个大系统,在我们日常生活中都能够用到。只是我们没有站在创作者的角度去思考整体系统的创建。而这一部分也有相关的代码。方便我们可以自己操作。

好了,这本书总算是断断续续读完了,有些烧脑。但相信,书里边一些内容会有未来完全从事大数据的工作后会帮到自己。

还有一点,为什么这本书要起名《大数据与机器学习》,个人的理解就是未来的决策都是用数据来决策。而机器学习又比人学习更好,从而可以更好的辅助人类做决策。

先总结这么多吧!以后工作中用的时候再来查看吧!

时间: 2024-10-17 03:38:01

《大数据与机器学习》读书思考的相关文章

《大数据营销》读书思考

这是一本营销领域里边讲技术的书,也是讲技术里边完全讲营销的书.适合的读者职业主要有:咨询,售前,产品经理,BD.......        全书的整个脉络有6章,其中的干货主要是在前四章.而第一章就占有半本书之多.而个人比较喜欢的是三,四章的内容,可能也跟自己的工作有关系吧.有很多干货,同时对一些常规理念有较大突破.前两章里边对一些技术实现也有所提及.看完这本书,就好像你突然间明白了互联网为什么那么看重数据?以及数据为当下及未来的营销能带来哪些改变.同时对传统行业的数据决策思维也有很大帮助.  

大数据与机器学习的一些博文整理

Spark VS MapReduce 时间节约66%,计算节约40% http://mp.weixin.qq.com/s?__biz=MzA3MjY1MTQwNQ==&mid=200820787&idx=1&sn=638a4b16445a5ee7a184b7a9becf4d5d&scene=2&from=timeline&isappinstalled=0#rd 数据挖掘十大算法总结--核心思想,算法优缺点,应用领域 http://mp.weixin.qq.c

H2O是开源基于大数据的机器学习库包

H2O是开源基于大数据的机器学习库包 H2O能够让Hadoop做数学,H2O是基于大数据的 统计分析 机器学习和数学库包,让用户基于核心的数学积木搭建应用块代码,采取类似R语言 Excel或JSON等熟悉接口,使的BigData爱好者和专家可以利用一系列简单的先进算法对数据集进行探索,建模和评估.数据收集是很容易,但是决 策是很难的. H2O使得能用更快更好的预测模型源实现快速和方便地数据的挖掘. H2O愿意将在线评分和建模融合在一个单一平台上. H2O提供了机器学习的培训手册供学习:H2O训练

小草说----大数据和机器学习为什么这样火

小草说--大数据和机器学习为什么这样火 标签(空格分隔): SPARK机器学习 欢迎关注小小草的微信号:大数据机器学习.日后不定期分享大数据,机器学习的学习资料与博文,希望与大家共同学习进步~ 很多年前,当我还在应付着微分方程,条件概率,用问卷星写抽样调查报告在QQ群发求填,对着30多条就被称为大样本的数据做检验和回归的时候,"大数据"的概念已经如火如荼地在微博圈和朋友圈里圈圈相传了. 但是到底大数据是什么,和我们生活有什么关系,企业是怎么"大数据"的,它到底在星星

Python大数据与机器学习之NumPy初体验

本文是Python大数据与机器学习系列文章中的第6篇,将介绍学习Python大数据与机器学习所必须的NumPy库. 通过本文系列文章您将能够学到的知识如下: 应用Python进行大数据与机器学习 应用Spark进行大数据分析 实现机器学习算法 学习使用NumPy库处理数值数据 学习使用Pandas库进行数据分析 学习使用Matplotlib库进行Python绘图 学习使用Seaborn库进行统计绘图 使用Plotly库进行动态可视化 使用SciKit-learn处理机器学习任务 K-Means聚

分享《白话大数据与机器学习》PDF+《图解机器学习》PDF

下载:https://pan.baidu.com/s/1Ut4iePZzQjBw7WANBNfLnQ 更多资料分享:http://blog.51cto.com/3215120 <白话大数据与机器学习>PDF+<图解机器学习>PDF<白话大数据与机器学习>PDF,345页,带目录和书签<图解机器学习>PDF,242页,带目录和书签如图所示: 原文地址:http://blog.51cto.com/3215120/2313180

《大数据时代》读书笔记

大数据开启了一次重大的时代转型.就像望远镜让我们能够感受宇宙,显微镜让我们能够 观测微生物一样,大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源 泉,而更多的改变正蓄势待发-- 大数据的精髓在于我们分析信息时的三个转变,这些转变将改变我们理解和组建社会的方法. 第一个转变就是,在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和第一个转变就是,在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和 某个特别现象相关的所有数据,而不再依赖于随机采样. 某个特别现象相关的

大数据、机器学习与信息安全

从机器学习的角度来看,大数据不过是训练各类参数.概率分布模型的输入.合适的.经过筛选的.符合事物客观特征描述的大数据方才是好的数据,故在目前这个所谓"泛大数据时代",数据确实是最为精贵的资源,但并不是所有数据都是,我们只能去芜存菁方可认清数据的本质以及事物(包括人类自身)的本质.因此对于数据的处理反而变成了最最重要的问题. 从经典定义来看,机器学习对于特性输出的提高,其最重要关键点不在算法(当然,好的算法也是非常重要的基础,是成功的必要条件,是减少开销.尽量少的消耗资源的核心)而是在于

《大数据运营》读书分享会活动

本周四(7.5)20:00-21:00,我与大家在线分享<大数据运营>图书的精要内容,同时植入区块链与大数据融合创新.互联网与区块链思维等新的知识点,欢迎大家关注.交流. 新增知识点之一:[区块链与大数据融合创新思考]大数据是生产资料,是新能源,但是大数据行业最大的问题和困难是:组织之间的数据难以流通和共享,如果这一问题得不到解决,数据就难以释放能量并创造更大的价值.数据难以流通和共享的主要原因是数据的开放可能会触犯个人隐私或者引发安全问题,也就是说当前还没有一种很好的办法解决由数据开放引起的