《决战大数据》读书笔记(一) 收集数据和使用数据要有关联

亚马逊图书买200减120,买了一堆书。第一本开始阅读的就是这本《决战大数据》。

这本书没有什么理论,定义之类的描述,基本都是个人经验和感悟,全是干货,十分适合不愿意看枯燥课本的同学。要说缺点就是,逻辑性不太清晰,更像是长者在叙事性地娓娓道来,倒是挺适合技术人员看的。

目前大数据很火,但是真正能理解其中的奥妙,能正确熟练地使用大数据的人和企业却很少。

“收集数据的人不知道数据可以做什么用,使用数据的人不知道数据的来源”

这样的断层,导致数据的收集没有章法没有预见没有灵魂,而数据的使用充满了疑问并且没有头绪。

我在实际生活中遇到的相关例子,不知道和书中内容联系的是否正确,但是也算是一点启发:

我很喜欢网购,经常在淘宝买东西。淘宝有一个自己的二手平台,叫做闲鱼,我手机里安装了淘宝和闲鱼这两个软件,因为买买买总会有失手的时候,这时就需要转卖。

在用淘宝购买东西,订单结算完后,过一段时间,闲鱼会给我发送推送,推送的内容基本就和我刚买的东西一样。(淘宝这个软件也是这样)

比如我买了一双绑带平底鞋,闲鱼和淘宝的推送内容一般是:这里有你想要的,绑带平底鞋......

这时我就会很无语,正常人(土豪请无视)会刚下单一双鞋后,还会对相同的鞋子感兴趣吗?除非是生活易耗品(牙刷卫生纸之类),不然真的不会同一种风格的东西买两个(至少对于女生来说是这样的),即便是易耗品,一般都是一次买很多量,一两天内不会再买,这样的推送也没有任何意义。或者推送一些比自己刚刚买的更漂亮更便宜的同类型的商品让我莫莫后悔,暗自神伤?

于是我在想,如果收集到用户的行为,比如检索某一样东西的关键词,但是没有购买行为,那么推荐这个关键词相关的商品的确是正常的。

但是用户在购买完成某样商品后,推送也许该是包含该商品的同类商品以及该商品相关的配套商品,比如买了绑带平底鞋,那么我接下来想看到的内容大概会是绑带中跟鞋,绑带圆头鞋,适合穿绑带鞋的连衣裙,甚至是后跟垫,足部防磨膏,漂亮的透明玻璃袜子......如果能把绑带这个词和lace-up联系起来,那么联想到我也许不仅喜欢绑带鞋子,还会喜欢今年流行的lace-up衬衣,lace-up连衣裙,还有包......

如果真是这样,我就可能会花掉一个下午的时间在淘宝上买买买,买齐一套装备。虽然花了更多的钱,但我依然会很开心,因为不用再费心去检索其他的东西,就像有个导购一样,引导着我购物。

时间: 2024-08-08 03:47:23

《决战大数据》读书笔记(一) 收集数据和使用数据要有关联的相关文章

Hadoop大数据处理读书笔记

几个关键性的概念 云计算:是指利用大量计算节点构成的可动态调整的虚拟化计算资源,通过并行化和分布式计算技术,实现业务质量可控的大数据处理的计算技术. NameNode:是HDFS系统中的管理者,它负责管理文件系统的命名空间,维护文件系统的文件树以及所有的文件和目录的元数据.这些信息存储在NameNode维护的两个本地磁盘文件:命名空间镜像文件和编辑日志文件.同时,NameNode中还保存了每个文件与数据块所在的DataNode的对应关系,这些信息被用于其他功能组件查找所需文件资源的数据服务器.

【读书笔记-数据挖掘概念与技术】数据立方体技术

基本概念: 基本单元:基本方体的单元 聚集单元:非基本方体的单元 冰山立方体:部分物化的立方体 最小支持度(最小支持度阀值):部分物化的最小阀值(说白了就是限定了一个范围) ∵冰山立方体仍有大量不感兴趣的单元需要计算 ∴引入--闭覆盖--一个单元没有后代或者它的后代的度量值与其不同 法2:只预计算涉及少数维的立方体,这些方体形成的数据立方体的立方体外壳 计算的一般策略:四种优化技术 1.    排序.散列和分组 2.    同时聚集和缓存中间结果 3.    当存在多个子女方体时,由最小的子女聚

Effective java 第十章 并发 同步访问共享的可变数据 读书笔记

并发 66.同步访问共享的可变数据 关键字synchronized可以保证在同一时刻,只有一个线程可以执行某一个方法,或者某一个代码块. 如果没有同步,一个线程的变化就不能被其他线程看到.同步不仅可以阻止一个线程看到对象处于不一致的状态之中,它还可以保证进入同步方法或者同步代码块的每个线程,都看到由一个锁保护的之前所有的修改效果. java语言规范保证读写一个变量是原子的,除非这个变量的类型为long或者double.意味着读取一个非long或者double类型的变量,可以保证返回的值是某个线程

【读书笔记-数据挖掘概念与技术】数据预处理

数据预处理的目的:提高数据质量,数据质量的三要素:准确性.完整性.一致性. 数据预处理的任务: 数据清理 数据集成 数据规约 数据变换 数据清理--填充缺失的值.光滑噪声.识别离群点.纠正数据中的不一致 缺失值: 忽略元组 人工填写缺失值 使用一个全局常量 使用属性的中心度量 使用与给定元组属同一类的所有样本的属性均值或中位数 使用最可能的值(最流行) 噪声数据 分箱 回归 离群点分析 数据集成--合并来自多个数据存储的数据 实体识别问题 冗余和相关分析 元组重复 数据值冲突的监测与处理 数据规

<改变未来的九大算法>读书笔记二

原理 数据库的一致性 1.事务和代办事项表把戏(预写日志记录) 1.代办事项表把戏:先把要执行的的操作写入硬件,即写日志.即使数据库操作错误,也可根据日志来纠正.对日志的操作具有等幂性,即日志中的每项操作不管执行一次或多次,都会有相同的效果. 2.事务:以事务作为一个整体,要么全部完成,要么中途失败则根据日志取消之前的操作(即逆向操作,之前加,现在就减),使数据库回到事务之前的状态(回滚事务).即事务具备原子性,不可分割,避免出现事务中有些执行了,有些没执行的情况. 2.预备提交把戏(两段提交协

实战大数据读书笔记

首先说下对这本书的感觉,虽然这貌似是第一本讲述大数据项目案列(基于微博的股票市场预测系统,技术内容的海量视频检索系统,基于HDFSd的云文件系统)的书籍,但是书上面的代码很少,图书馆和网上都没有源码可供下载,甚至电子书都还要买....可能就是因为刚出来吧 再说下HBase的系统架构 http://img.blog.csdn.net/20160506093443453 支撑层的HDFS对于HBase而言是不可或缺的,HBase本身不会存储数据,表中的数据都需以文件的形式持久化到分布式文件系统中,.

大数据读书笔记(1)

1. 数据分片与路由 抽象模型为两级映射关系,第一级映射是key-partition映射,第二级映射是partition-machine映射. 数据分片有哈希分片和范围分片: 哈希分片只支持点查询,如cassandra,voltmort,membase: 范围分片支持范围查询,google的bigtable 和ms的azure: 同时支持两种的yahoo的pnuts. 2.哈希分片时进行数据分片的常见手段,其中最常见的3中哈希分片方式分表是:轮询.虚拟桶.一致哈希方法 2.1 轮询也称哈希取模方

大数据读书笔记(2)-流式计算

早期和当前的"流式计算"系统分别称为"连续查询处理类"和"可扩展数据流平台类"计算系统. 流式计算系统的特点: 1)低延迟 2)极佳的系统容错性 3)极强的系统扩展能力 4)灵活强大的应用逻辑表达能力 目前典型的流式计算系统: S4,storm,millwheel,samza,d-stream,hadoop online,mupd8等. 其中storm和millwheel是各方面比较突出的. 流式计算系统架构: 常见的流式计算系统架构分为两种:主

PHP访问MySQL的数据--读书笔记4

<?php   header('Content-Type:text/html;charset=utf-8'); // mysqli_connect('IP:3306','帐号','密码','要操作的数据库名称'); $con=mysqli_connect('127.0.0.1','root','123.'school'); //设置编码 if($conn){ echo '链接成功'; } mysqli_set_charset($con,'utf8'); //数据库操作[例如所有学生的名单]$sq