《大数据的“道”“术”“释”》----读书摘录+思考

大家不要忘记以道御术,只有明确什么是优秀的数据分析,才能使这些武器发挥出效力!                       -----题记

这本书是看到我老师(大数据营销课)的朋友圈推荐才买的,看了一下目录,比较喜欢。就认真的读了下去,这不是一本讲什么是大数据的书,而是一本为什么要用到大数据分析的书。这本书的好处是讲为什么,而不是讲是什么?是什么好讲,为什么难讲?同时,这本书符合我看书,买书的习惯。因为现代社会,知识碎片化,我们每天接收到的信息大量,如何甄别对于我们来说是尤其重要的,感觉也特别适合现阶段我的状态,同时,这本书看完,送人也会是一个好的选择,好书,非借不能读也!

大数据的本质是对效率的提升,是对精细化的追求。一上来就讲到了大数据本质,有别于其他知识类的书籍。这本书更多的是从哲学思考的角度来组织“道”与“术”这两部分的。前言部分就提到了这一点:由于种种原因,大多数人都忙于日常生活的琐事因此他们对于这世界的好奇心都受到了压抑。同时,对于大数据统计,它也指出了我们的现实:缺少的不是统计知识,而是如何应用技术的实务方法。同时,它提到一个对从事IT业人最重要的知识框架的概念:知识体系!如果不早日形成自己的知识体系,所学知识和项目经验就如向桌子上倒水,倒再多的水也积存不住!

论“道”

对于数据分析报告,分析就是论点,数据就是论据,两者缺一不可。

数据分析的核心工作是人对数据指标的发析、思考和解读,人脑所能承载的数据量是极其有限的。

数据分析的能力不只是掌握统计知识和算法模型,更多是对业务产品的认识、看法与判断,这是很难量化的。

做好数据分析与学写诗文一样,真正的关键在技巧(统计技术)之外,而在于对业务的观察、思考与感悟,即分析的思路。这一点很是认同,好的数据分析师不一定是一个好的技术人员,但一定是一个好的业务人员。对业务的把控要超越到技术的追求!

只有对业务有充分的调研与思考,才能产生有价值的分析思路。

这一部分,提到了两个观点很好,做数据分析人员最好要掌握一些经济学与心理学的知识,只有这两方面知识深厚的时候,我们对业务的前景把控才会更加的清晰明确。我们需要对人的心理诉求有较深刻的理解,需要从心理诉求去解读数据,才能得到有效的结论。

如果我们熟悉经济学和心理学,面对实际问题的时候,可以更深刻地看到数据背后的人性。

思考的重要性:思考本身也是一种实践,使人对知识的掌握更加系统化的深入化。

如果没有主动思考意识,光有经历和环境,是不能使人成长的。

数据分析常用来验证思路和启发灵感,却不能代表思考本身,而对业务的理解和判断才是整件事情的灵魂。

业务分析的本质是对业务的全局认知、深入思考和超前判断,数据分析只是辅助这种思考完成的手段(验证思路和启发思路)。

人对事物的认知并没有绝对概念,只有相对概念。

以自己的所见所闻为判断依据是人类的天性,但如果我们的所见所闻只是真实世界的一个抽样,那么需要有足够的理性跳出自己的圈子,以更加宏观、总体的统计数据来认知世界。

过于复杂的理论大都是人类没有掌握真正的本质规律。这一点非常好,我们很多时候,总是想把大数据讲是十分高深,艰涩难懂,但是真正的高手会将这些知识以我们熟知的生活小常识来讲解明白,所以说,真正的知识,若你不能够很清晰的讲解明白,可能是讲解者对知识的理解仍不到位。

无论制作项目汇报还是分析报告,第一要务是展现形式要最大程度地辅助观点表达,而美观只是末节。

老板最关心的是工作成果(产品业绩),其次是产品或技术方案,最不关心的是进行了哪些尝试,以及尝试的过程。所以,在汇报工作果,第一就是展现你的成果,其次是过程,最后才说你的困难及解决思路。

没有任何一个数据分析项目的目标是做“数据分析”,而是以数据分析为手段,围绕一个“明确主题”得出结论。

做好数据分析的关键不在于统计技术的应用,而在于对业务的思考和分析。这一个第一部分的点睛之句,可以说,它也道出了大数据分析的核心本质。现在世面上,很多的大数据公司,不是说他们的技术不好,不优秀。而是他们对业务的理解没有行业内的人熟悉。这就导致了技术分析达标,但业务仍没有较大增长的根本原因。

本章最大的收获就是认识到业务的重要,大数据分析只是辅助。其中,经济学与心理学是对你理解相关业务会有很大的帮助。

论“术”

术”的这一部分,一共有四章,分的也很细。讲的很透彻,看完这些内容。进而对生活中的一些例子开始有了思考,例如:淘宝广告推荐,Uber,滴滴的基于最短路径推荐,等等。以前觉得算法这个神秘的东西离我们很远,但现在看来,就在于我们的生活中,只不是统计人的思考维度是跟我们一般人是不一样的。但同时,以“道”御“术”,只有明确什么是优秀的数据分析,才能使我们这一部分的武器发挥出效力。

第二章上来就是要我们学会独立思考,去思考为什么?本书在这里就提到:“是什么”的形式并不重要,关键点是我们做这些事情所持的“本心”!这里提到了直方图,标准差,相关系数,准确率,召回率,这些曾经难懂的知识点,而本书的好处都是从我们身边的故事讲起的。这样就更有利于我们对于这些指标的理解。透过这些基本概念的分析,我们要养成一种思维方式。

然后又讲到了统计图形,为什么要用图形化来展现我们的数据,因为一图胜千言!

人脑对图像信息的捕捉能力和记忆能力比文字强很多,毕竟文字这种“表意符号”比较抽象,属于后天习得的知识关联,而处理图像信息则是人类与生俱来的能力。

而这一部分的目标原则与极简原则又是对可视化有了一个好的提醒,这样也是我们日后避免只追求炫而忽略有图表的本质问题。虽然图表是为了辅助表达观点而存在的,但也不能为了表达观点而故意扭曲图形。

决策制图要分三个步骤:拆解内容维度、确定图形类型 、选择表达方式!

第三章开篇就提出了一个比较让人深思的问题:我们能相信统计吗?实际上,延伸一点,就到我们的生活中,我们只不过是真实世界的一个抽样,所以不要轻易批判他人的世界观!在这一章节里,它里边提到一个大数定理:真正的上帝没有这么刻薄,他在抽样统计值和真实值之间设置了一种函数关系,该函数关系使得统计学习在一定程度上是可行的。这也就是所有编程函数的基础:都是一种基于概率的信任!但在前期没有任何数据积累时,会请相关领域专有根据经验知识制定一套规则系统,而不是去挖掘少的可怜的样本数据。

样本量越大,抽样统计值就越接近事物的真实程度。 其中感触最深的是里边人才市场与价格曲线的关系。你可以不成功,但你不能不成长,也许有人会阻碍你成功,但没人会阻挡你成长。

上帝不掷骰子,因果律依然存在,不确定性只是因为人类的无知。

当影响一个事物结果的各种因素随机发生,根据中心极限定理,它们的总和平均表现就是正态分布。

如果说传统统计学更多研究如何从抽样个体的统计指标去推测全体,那么今天的统计学则更多关注如何把全体数据在置信的前提下尽量拆细,得到更细致的个体结论。

对于本章提出的问题:我们能相信统计吗?在本章的最后给出了答案:对于统计结论,我们要基于概率的信任 ,中有当置信概率足够大的时候,才可以相信统计结论。

本章提出了一个“思考为什么?”的五步方法论:

1,以简为始,不断优化

2,理想蓝图,逐渐逼近

3,观察典型,启发思路

4,分清主次,化繁为简

5,需求出发,贴近应用

第四章是在2,3章的基础上的灵活运用,如何拆相关指标,并应用于生活中。这一章尤为重要!上来就讲到一个优秀的统计学家不等于一个出色的数据分析师。而要真正做好数据分析,只能是既懂统计技术又熟悉业务、掌握分析方法、又有丰富分析经验的人。

ARPU:客户平均消费水平

数据分析更深一层的意义就是:反映一个人对所从事工作的认知和思考能力!

样本与总体的关系:用个案启发思路,用统计得到结论。

在可乐与比萨的数量曲线里,隐含了一个非常隐晦的经济价值:针对不同的的消费群体,以同样的成本提供不同价值配比的产品,可以实现更多的用户体验价值。

商家的固定思考:只有价格敏感的人才忍到每年的限定时间囤货,不在意花销的富人是不做寿 这样麻烦事的。

在惯于炒概念的世界中,保持一份清醒的认识。毕竟,内在本质比外在概念要少得多。

资深数据分析人员的核心能力在于丰富的知识面带来的思考角度和分析方法。

第五章个人认为是比较落地的一章内容。主要讲到OLAP跟机器学习,这里讲到OLAP跟OLTP的差别,OLTP更多的是读取数据后的存储,而OLAP更多的偏重于分析,OLAP的主要应用是汇总分析较高层的统计数据,而不是直接处理庞大的原始日志。

在数据探索阶段使用无监督学习的场景较多,而在数据建模阶段使用监督学习的场景较多。

无监督算法并不真的不需要人的指导和监督,只是监督不以“提供样例样本”的形式出现。

一流的数据建模解决方案通常是策略算法人员与工程架构人员通力配合的结果。深入的编程技术和架构设计能力已经极大的影响了机器学习的建模效果,所以在一流的机器学习团队,策略模型和工程架构两种人员有合并的趋势。

算法工程师的核心竞争力:深入理解业务、产品和数据,寻找模型和他们的结合点,的确是算法工程师的核心竞争力。

关于机器学习:

在工业界做机器学习的应用,不仅要掌握模型算法,还要看清企业面临的市场机遇,将算法模型放在业务战略的角度进行评估。

机器学习变成一个业务和技术并重的交叉学科,真正做好它还需要更多的实践。

机器学习模型背后的原理是知识表示+统计学习,而不是像人一样真的在理解和思考。

论“释”

这一部分,更多的是从业务角度,或是从当下社会经济角度来说大数据的。

第六章内容,主要讲大数据时代,经济引导一切的条件下,要明白大数据的经济价值。在这个经济社会,如果大数据有经济价值,相信各种配套技术会层出不穷的涌现。一切不谈具体应用的大数据技术都是耍流氓!

医疗:大数据的价值类似于收集到足够多的病例,对于每一个病人,均可以找到数量众多的相似病例,那么对病人的病情分析和治疗方案会准确、有效得多。

互联网:没有无价值的流量,只有错误的匹配!

教育:  针对学生制定个性化的学习计划,需要数据建模。首先,构造个性化学习路径的优化目标“学习收益/学习成本”。其次,基于用户的特征和历史学习记录形成训练样本,每个样本标注了学生的背景信息。

差异化定位与品牌:品牌对业务的帮助是潜移默化的,是企业重要的隐性资产。

新进入一个市场,最好的方法不是与明确的竞争者拼搏相同的产品,而是选择差异化的产品定位,或者干脆寻找颠覆这个市场的机会。

你虽然很强大,但我要估的和你不一橛,你的强大就与我无关。

政府提出“大众创业,万众创新”后,真正能大众创业的行业只有互联网一个!

流量优势是一个伪优势,因为流量可以用资金买到!

产品保证存活,没有需求就没有市场;技术提供壁垒,没有核心技术的产品大都难以长久!

大数据技术是一套数据+业务+需求的完整解决方案。思考关键不在于数据技术本身,而在于能否收集到足够多、有价值的数据,以及找到适合数据技术的业务应用,即从链条的两端向中间思考。

第七章

知识和工具方面的技能可以学习,但清晰的思维逻辑(头脑清晰)和丰富的创意(点子多)是不可或缺的先决条件。

只有懂得欣赏他人,才会真心的尊重合作方,达到合作共赢的状态。

从心理学的角度讲,一个人内心对自己和认知是自我评价与他们评价之和。

时间: 2024-10-21 22:42:39

《大数据的“道”“术”“释”》----读书摘录+思考的相关文章

世界杯中的大数据之道

让世界球迷翘首以盼的世界杯,在热情的桑巴舞和全世界球迷的欢呼中如期而至.在此期间,无论是资深球迷还是伪球迷,甚至是压根不看球的普通人,对于世界杯,都必然提及一二,这俨然成为了世界的节日,一个万众期待的狂欢party.随着移动互联的高度普及和发展,“社交足球”似乎踢得比世界杯还火热,各种渠道,各种工具,让世界杯也不可避免的跨入了“大数据时代”. 数据与世界杯的关系,除了球员的射门次数.传球次数.球队全场控球率等技术统计,还能怎样体现呢?用数据来展示球队,回顾比赛历史,区别球员表现已习以为常,但这些

大数据之道 HMM系列<二>(成长)

一:HMM解码问题 (1)编程深处无非就是算法和结构,以及各种架构和版本的管理(如Git管理),因此作为程序员算法这一关是绕不过去的: (2)关于算法,个人比较崇尚的一本书是<算法导论>和ACM实战系类的算法培训: (3)对于自然语言处理领域或者部分机械学习领域的算法,HMM模型是非常经典的算法之一,非常适合初学者学习和研究: (4)HMM模型μ=(A,B,π),的状态是不可见的,我们看到的仅仅是状态表现出来的观察值和状态概率函数. 二:HMM简介(u = {N,M,A,B,pai} ---&

大数据实践总结---一点思考

本文算是一个阶段总结吧!总算是把MapReduce给搞完了.细想这三周来的收获,可能除了代码,更多的是逻辑上的提高吧!下边就以之前只会理论时的一些问题来开启本文吧! 1,大数据架构师,产品经理需要写代码吗? 需要,只不过写代码的程度不同.大数据架构师要详细了解大数据的各个模块功能,相关的接口参数.可以说,架构师要对代码有很详细的了解.大数据的相关工作中,架构,开发,运维都需要写代码.但每个人写的代码内容也不相同.对于一个IT公司来说,这三块主要是主开发人员,对代码经验都有很大要求. 产品经理,主

大数据量业务订制和解决方案思考

大数据量的系统要经过对数据的用处分析和数据周期分析,以寻求更好的解决方案. 1:业务系统的基础数据,如人员基础信息(基础资料,权限等).数据可以KEEP在内存中.数据要分散存储.基础数据逻辑要简洁.使用增量更新.高峰期来临前提前更新基础数据 2:热数据处理此部分数据是各方面环境会频繁使用到的数据 对这部分数据的存储,比如 使用不一样的存储方式,比如建立高效的索引,使用SSD盘,或者使用mysql数据库存储 3:历史数据的迁移 近期数据 此类数据是需要最近频繁使用或者调用的数据,对OLTP系统而言

大数据之道 HMM系列

一:HMM解码问题 (1)给定一个观察序列O=O1O2...OT,和模型μ=(A,B,π),如何快速有效地选择在一定意义下"最优"的状态序列Q=q1q2...qT,使该状态最好地解释观察序列. (2)最可能的隐藏状态序列(Finding most probable sequence of hidden states):对于一个特殊的隐马尔科夫模型(HMM)及一个相应的观察序列,我们常常希望能找到生成此序列最可能的隐藏状态序列. 二:实例篇 (1)假设连续观察3天的海藻湿度为(Dry,D

大数据时代给社会科学研究带来新问题

大数据时代的图书出版是近两年的热点,8月27日即将在北京开幕的第21届北京图博会之前,不少出版界人士已纷纷开始筹备热议.那么,大数据时代,对学 术出版乃至社会科学研究有什么样的影响及意义呢?中国传媒大学调查统计研究所所长沈浩近日在第十五届全国皮书年会上,就相关话题做了专题报告. 沈浩认为,大数据时代,数据科学让人们越来越多地从数据观察到人类社会的复杂行为模式,以数据为基础,并非是数据改变了我们,起决定作用的是我们可用知识的增加. “大数据真的来了,我们要拥抱大数据,大数据对我们生活产生重大影响.

大讲台谈如何运用大数据完善数据中心平台

随着大数据的各个领域的深入应用,大数据的价值正逐渐凸显,而大数据的核心价值在于从海量的复杂数据中挖掘出有价值的信息,通过大数据技术进行更快地分析.更准确地预测,发掘出新的业务模式,创造新的商业发展机会. 因此,大数据时代下,企业迫切需要思考如何应用大数据技术改造完善已有数据中心平台,提升企业的数据处理能力,提高数据分析水平,将大数据融入企业的整体数据方案.CDA数据分析师覆盖了国内企业招聘数据分析师所要求的所有技能,包括统计知识.软件应用(SPSS/SAS/R等).数据挖掘.数据库.报告撰写.项

追本溯源 解析“大数据生态环境”发展现状(CSDN)

程学旗先生是中科院计算所副总工.研究员.博士生导师.网络科学与技术重点实验室主任.本次程学旗带来了中国大数据生态系统的基础问题方面的内容分享.大数据的发展越来越快,但是对于大数据的认知大都还停留在最初的阶段——大数据是一类资源.一类工具,其实“大数据”更多的体现的是一个认知和思维,是一种战略.认知和文化. 以下为分享实录全文: 一年多来,通过组织中国大数据技术大会.CCF大数据学术会议以及各类大大小小的应用峰会与学术论坛,结合我们科学院网络数据科学与技术重点实验室所承担的与大数据相关的重大基础课

大数据大规律

大数据正在改变我们的生活,影响我们思考和解决问题的方式,为了适应时代的潮流,组织必须学会用数据说话,如果坐拥大量的数据却束手无策或无动于衷,那和没有数据是一样的.但是,在进行数据分析时,完全的自我创造是不可取的,因为有大量可以遵循和借鉴的经验能节约大量的时间和成本.最近,OrionX.net的联合创始人Shahin Khan就发表了一篇文章,介绍了他的团队从大数据.物联网和云计算市场上总结的经验和规律. 保留数据的成本要比删除数据的成本低.另外,还要有多个备份. 正因为保留了足够多的数据,大数据