大数据是啥,可以吃的吗?

作者|影姿

关于大数据是什么,从一开始仅仅只想做数据,到开始意识到自己做的是对整个集团有核心意义的数据产品,再到走到外面,把数据能力对外输出,所有过程中,不断的有客户问到这个问题,有懵懂的、有善意的、也有挑衅的、不屑的。就像大数据本身一样,混乱又带有迷幻色彩。

现在对大数据的理解有两种极端:站在大数据的风口,很多人觉得大数据是未来,可以解决所有问题,包括人工智能;我自己不用想,大数据已经替我想好决定好一切了;还有一种,是大数据的概念炒了好几年,冷饭都抄成锅巴了,但是尝试过人的只收集齐了几万点伤害,觉得大数据不过如此

大数据并不一定要数据达到了多少体量才能算是大数据,但是如果数据简单量少到只需要用xlsx、SPSS等传统数据处理就能解决,就不需要再用大数据技术,有点杀鸡用牛刀的感觉。但大数据应用一定并不仅仅指分析,跳出传统数据分析的范畴,大数据应用领域可以指导使用在我们所有的生活工作业务、场景领域,例如个性化推荐、精准营销、风险监控等。

这几年多多少少沉淀下来的经验,和老板时谦虚时叫板时被骂总结到的体会,加上偶尔抽筋想增加修养磕磕绊绊看的书,有几点关于大数据的基本特征可以和大家探讨:

一、非竞争性

现在很多企业,对数据的保护是非常严格的,大家都觉得自己的数据很有价值,不能随便给别人使用。曾经有一度,我在做数据联盟的时候(这个可以以后另开一篇文章讲),每次和客户聊,都想传达一个概念,数据如果是一种资源,那也是可以被众多消耗方同时使用和反复使用的资源,个体的使用不会妨碍他人的使用。数据只有越被使用才能积累数据的应用价值(当然裸数据直接售卖的方式不在我所讨论的大数据应用范畴)。

二、价值无定值

延续上面说的,裸数据直接售卖,在我们积累了大量的数据应用实践经验之后再回过头来看,是觉得非常可笑的,所有想对某个数据字段定价,然后公开买卖的,都是短时和自绝的行为(个人观点,不要动砖头)。数据就像是无形资产一样,市场估值取决于买者对该项数据的需要程度,合适的数据服务应用于某个客户产品,产生的作用千差万别,硬要给某个数据定一个价,只能让数据贬值或让高买者对大数据产生不信任。但是并不是说数据是无价的,数据一定要有一个价值,然后让它流动应用起来,不断调整迭代到合适的附加值,聪明的数据应用者会最大程度利用具有真正附加值的应用模式创造财富。

三、会问问题

没有能够自动从大数据中获取经济价值的方式,没有捷径和想当然,我反对所有说只要有大数据就什么也不需要干了的说法。企业单纯的存储数据没有什么用处,而存储什么,清除什么,业内可以选择的高端技术都已经准备好静待选择。现在对于一家企业来说:前瞻性的深入理解哪些数据值得首先存储和处理,是第一要务。

大数据只提供答案,但它对该问的问题保持缄默,这些问题来自负责人的智慧,提出怎样的问题视关键!就像柏拉图说的那样:最终获胜的将是那些“知道如何提出问题的人”,只有那些知道怎么样提出问题的人才知道,哪些数据可能会回答问题,如何用这些数据回答问题。

大数据行业里最缺乏或者将来身价最高的人,就是既理解业务,又了解数据,知道怎么提出业务的问题,也知道怎么用大数据解答问题的大数据专家(打个广告:欢迎来数澜应聘产品经理提升身价)

大数据技术提供了高端快速的尖端技术,使得大数据处理技术能够日行千里。但是如果不选择正确有效的方向,反而累加为错误支付的成本。在大数据时代,一个正确的方向,正确的提问,正确的思路,比高精尖的科学技术、海量实时的模型算法更重要。

四、数据要有活性

长话短说,数据有保质期,需要不断更新,没有任何数据是一尘不变的,数据如果不更新,就像死水一样,所以如果有数据,就要赶紧用起来,存着又不知道该怎么用,存久了价值就指数下降了。

五、不直接售卖

也许大家觉得直接售卖现在也形成产业链了,看起来也是一种新模式了,我只想说说直接售卖的弊端:

(1)数据本身没有确切的定价,过早定价会降低溢价空间;

(2)售卖的方式无法形成技术壁垒(今天讨论的是大数据商业应用领域,科学研究是另一个话题),购买的数据可以再次低价售卖,形成恶性循环做低数据价值;

(3)数据安全问题,个体数据无法通过直接售卖的方式进行应用,但个体数据是非常值得研究和应用的数据内容,需要寻找一种安全脱敏合法的方式,将大数据反哺便利用户日常生活。

六、相关性而非因果性

中国人传统的理念讲因果,因此“大数据在乎相关性而非因果性”这个观念从国外传来时还是很颠覆的,不过大数据因为其强大的“广泛数据都可计算”特性,使得不需要再探究因果,根据现有充足海量的数据就可以做出分析或预测。但是关于这个特征是不是还要再颠覆一次,搞清楚因果,我还在实践中,也欢迎有体会的朋友们抛砖。

【文章来自一个爱吃的数据人沿途随笔】

原文地址:https://blog.51cto.com/14463231/2422708

时间: 2024-11-08 07:41:12

大数据是啥,可以吃的吗?的相关文章

大数据时代下的用户洞察:用户画像建立(ppt版)

大数据是物理世界在网络世界的映射,是一场人类空前的网络画像运动.网络世界与物理世界不是孤立的,网络世界是物理世界层次的反映.数据是无缝连接网络世界与物理世界的DNA.发现数据DNA.重组数据DNA是人类不断认识.探索.实践大数据的持续过程. 图1 大数据发展路径 陈新河把网络画像分为行为画像.健康画像.企业信用画像.个人信用画像.静态产品画像.旋转设备画像.社会画像和经济画像等八类,并通过实践案例进行了阐释. 未来,人生的每个历程无时无刻不由数据驱动. 图2 数据驱动人生 未来,设备全生命周期也

LinkedIn高级分析师王益:大数据时代的理想主义和现实主义(图灵访谈)

转自:http://www.ituring.com.cn/article/75445 王益,LinkedIn高级分析师.他曾在腾讯担任广告算法和策略的技术总监,在此期间他发明了并行机器学习系统“孔雀”,它可以从数十亿的用户行为或文本数据中学习到上百万的潜在主题,该系统被应用在腾讯可计算广告业务中.在此之前,他在Google担任软件工程师,并开发了一个分布式机器学习工具,这个工具让他获得了2008年的“Google APAC 创新奖”.王益曾在清华大学和香港城市大学学习,并取得了清华大学机器学习和

大数据实践总结---一点思考

本文算是一个阶段总结吧!总算是把MapReduce给搞完了.细想这三周来的收获,可能除了代码,更多的是逻辑上的提高吧!下边就以之前只会理论时的一些问题来开启本文吧! 1,大数据架构师,产品经理需要写代码吗? 需要,只不过写代码的程度不同.大数据架构师要详细了解大数据的各个模块功能,相关的接口参数.可以说,架构师要对代码有很详细的了解.大数据的相关工作中,架构,开发,运维都需要写代码.但每个人写的代码内容也不相同.对于一个IT公司来说,这三块主要是主开发人员,对代码经验都有很大要求. 产品经理,主

张书乐:“神偷拍”抓了神偷 大数据时代让手规矩点

在大数据时代,每一个人的行为,都会因为数据的细微变化,而出现各种个性化的特征. 文/张书乐 日前,株洲媒体报道了个很正经的本地奇闻,一个扒手扒窃了个女大学生小佳的智能手机,却恰巧被和小佳同行的闺蜜无意间拍了下来,结果报警.登报.摸排.抓获,一切都飞快的完成.而一切的起因,仅仅是两个女生平时有偷拍对方"吃相"丑照互动的习惯. 据说,扒手第二天上街,在报纸上看到自己的照片,吓得哆嗦. 这一幕似乎一直都是在大片中看过,比如系列美剧<疑犯追踪>,各种根据摄像头下不同人的行为举止来判

离线轻量级大数据平台Spark之MLib机器学习库概念学习

Mlib机器学习库 1.1机器学习概念 机器学习有很多定义,倾向于下面这个定义.机器学习是对能通过经验自动改进的计算机算法的研究.机器学习依赖数据经验并评估和优化算法所运行出的模型.机器学习算法尝试根据训练数据使得表示算法行为的数学目标最大化,并以此来进行预测或作出决定.机器学习问题分类为几种,包括分类.回归.聚类.所有的机器学习算法都经过一条流水线:提取训练数据的特征->基于特征向量训练模型->评估模型选择最佳.特征提取主要是提取训练数据中的数值特征,用于数学建模.机器学习一般有如下分类:

老李分享大数据生态圈

老李分享大数据生态圈 大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的.你可以把它比作一个厨房所以需要的各种工具.锅碗瓢盆,各有各的用处,互相之间又有重合.你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者刨子去皮.但是每个工具有自己的特性,虽然奇怪的组合也能工作,但是未必是最佳选择.         大数据,首先你要能存的下大数据. 传统的文件系统是单机的,不能横跨不同的机器.HDFS(Hadoop Distributed FileSy

c#WEB转入大数据HADOOP平台的2014总结

浮浮沉沉的那是流水,起起落落的才是人生嘛. 抽根烟先--(各位同学都知道我不抽烟哈,这个,哈哈,思考人生的时候还是会抽根)刚刚和同学吃完饭从滨江路回来,我和他在一起一般都是谈谈自己的近况.我和他住得不远,上班离得很近,但是也不经常见面,但是需要对方的时候打个电话,总会在一个电话后及时出现在你的面前(搞得像基友一样,罪过,罪过).这个是必须的,我和他也算一种前世修来的缘份吧,认识马上快10年了,大学同学中,我是他在这里的唯一,他也是我在这里的唯一,也许这辈子剩下的时间还得走下去,生活中的坎坷我们互

大数据带来广袤无垠的想象空间,但也只是想象而已

?? 近日,有幸到贵阳学习了一圈大数据,多谢贵阳北斗空间崔师弟的支持和安排.显然,贵阳是一座超级牛逼的城市,将自已定位为高大上的"数据之都",已建成大数据展示中心和大数据交易所,贵州七朵云[电子政务云.工业云.智慧旅游云.智能交通云.食品安全云.电子商务云.环保云]已开始在天上飘,今年还轰轰烈烈地举行了国际大数据产业博览会,简直比北上广热闹多了. 小弟在此无意也无理评价贵阳的大数据建设得如何,毕竟只是听到许多的讲解和看到许多的DEMO,但是否真的用之于服政利企惠民?实际上没有去深究.参

柏林森:购物中心需要大数据,场景化营销是着力点

购物中心精细化运营势在必行 虽然线上零售对线下零售造成很大的冲击,但在零售总额实际比例中,线下零售占比高达90%,而线上零售只占10%.展望未来,线下零售依然会占零售的重要地位,因为我们每个人都会有一个物理的身体,物理便利性和物理体验性这两个支撑点足以支撑线下零售长远发展.物里体验即我们身体体验,对吃喝玩乐.生活娱乐服务我们都需要我们物理的身体去体验,而这些服务在线上我们是无法切身体验到的.这种纯体验的零售业态典型代表就是购物中心,它将越来越往全体验式发展. 越来越多的报告证明,消费者逐渐回归线