大数据自动挖掘”才是现在这些大数据的真正意义

http://www.cognoschina.net/club/thread-66425-1-1.html  仅供参考

“大数据自动挖掘”才是现在这些大数据的真正意义

  现在大数据火得不行,几乎人人都在说大数据,但到底什么是大数据,恐怕没有多少人知道,鱼目混珠的人太多。

  大数据不是指很多很多数据。

  所以不是存储了很多数据就是在搞大数据了,因为“大数据”只是个简称,说全一点应是“大数据挖掘”,没经过挖掘的大数据只是没有开采出来的原油,一点用处都没有。

  大数据也不是指一般意义上的数据挖掘。

  有很多人以前是搞数据分析或数据挖掘的,当《大数据时代》这本书一问世、大数据开始火的时候,他们摇身一变就成了搞大数据的专家了。如果真是这样,就根本没必要提大数据这事儿,因为它本来就一直存在着,只不过换个说法。就好像我们没必要今天突然提出个说法“饮H2O”来代替“喝水”.嗯,对,那叫玩概念。

  “大数据挖掘”其实还没有说全,再说完整点,应该是“大数据自动挖掘”。

  以前的数据分析或挖掘,是指人通过数据去进行分析,挖掘出一些规律性的东西以供以后使用。

  但面对大数据,由于不光是数据量太大,而且往往包括数据的维度也很多,人已不可能去处理这样海量的数据,甚至是如何处理都不知道,这时必须用电脑来自动处理,挖掘出数据中的规律。

  但是目前电脑还不能像人那样进行严密、复杂的逻辑思维,因此它们也无法用我们人的思维模式去分析数据,人可能只要较少的数据就能分析出其中的规律,数据多了反而没有办法,所以我们人类都是采用抽样分析。

  电脑则正好相反,无法根据少量数据去分析出规律,但它有一个优势,那就是运算速度非常快,因此有可能处理海量数据以后找出其中的规律。

  由于电脑还不能进行复杂的逻辑思维,所以它的处理方法很简单,就是进行简单的统计运算,也就是“硬算”,统计出在什么情况会出什么样的结果,然后当类似的情况再出现时,它就会告诉我们可能会出现某种结果了。

  由这里也可看大数据的另一个特点,即大数据主要是进行预测,告诉你未来将会出现什么样的结果。而不是只分析出过去的走势和现状,未来还是要由人去判断。
为什么这种简单的方法会有效呢?这就回到“大数据”这个词上来了,那就是因为数据量非常大,统计出来的结果就往往是正确的。

  大家一定都知道这个例子,扔硬币来统计正、反面出现的机率,如果只扔10次,也许正面出现9次,以此来得出结论肯定是错的;但如果你扔10万次、100万次,甚至更多,那你统计出来的结果基本是正确的,正、反面出现的机率一定是各50%.

  是的,大数据自动挖掘就是依据这一原理。

  这里没有严密的因果分析,不是通过数据分析出原因再推导出结果;而是通过统计知道有这样的情况,一般就会有这样的结果,也即现象与结果的相关性。所以大数据就有一个显着的特点,只关心相关性,不关心因果;用更通俗的话说就是“只知道结果,不知道原因”.

  这实际是人们根据电脑的优势,找出了一个全新的数据分析、挖掘方式,与传统的方式完全不同,所以传统那些搞数据分析或挖掘的专家并不能称作为搞大数据的。

  不过你一定要小心,冷不防你就会碰上一个这样的专家,他们甚至可能是来自某名牌大学的知名教授之类。进到书店你也会看到许多讲大数据的书,封面无一例外都有很大的“大数据”三个字,但其实都是在讲传统、人工的数据分析方式,和大数据一点边都不沾。当然,这里不包括《大数据时代》这本书。

  另外,传统搞神经网络、深度学习等人工智能的,也基本不算大数据,因为这里面还是很多人为因素,包括建模型、对程序进行训练等,这里人仍需要对所分析的业务逻辑非常熟悉才能做,目前这种方法也难以达到实用的效果。而大数据只是让电脑根据一些简单却巧妙的算法,去进行大量数据的统计,找出连人都想不到的规律。大数据在这里基本是与业务逻辑无关的,人不需要知道这是什么业务,比如分析移动互联网行业的数据,他不需要知道这个行业的来龙去脉、当前状况等,他只需要对大量历史数据进行统计,就能够找出其未来的走势。

  说到这,你一定很想问,那就找不到一个真正搞大数据的了?

  先来讲个小故事:

  80年代有俩计算机呆子在IBM做翻译系统。当时的砖家都在探索语言之间的内在联系,语法、句法神马的。俩呆子路数不同,他们把能找到的各种语言相对应的文献全部做成数据,旁人批评“这种计算机蛮力不算科学”,后来他俩被一个对冲基金老板招走了。现这俩呆子是复兴科技co-CEO,老板是Jim Simons.

  复兴科技co-CEO每位年收入大概是1亿美元,比华尔街各大行CEO的年收入要高一些,关键是这两位几乎名不见经传。他们老板James Simons比较有名,是位数学家,跟陈省身一起写过定理,跟杨振宁是同事,年收入超过10亿美元,现在退休做慈善。清华有Chern-Simons楼,是杨振宁拉Simons掏钱修的。

  在金融投资领域,只关注相关性、不关注因果的对冲基金做得很好(复兴科技,DE Shaw),但金融理论基础深厚、大数据分析能力欠佳的公司却没有类似的业绩,MIT金融学家罗闻全坦言不明白复兴科技在干什么。
喂,说你呢,别老盯着人家年收入1亿美元。

  这里关键的是很多人批评“这种计算机蛮力不算科学”(这些人肯定都是砖家,否则估计也没资格批评),还有就是金融学家们完全不明白他们在干什么。

  这说明了什么?说明了在国外发达国家赞成这种方式的人很少,知道怎么用这种方式的人就更少了,那么各位可以想像下在中国能有多少人知道这种方法该怎么做。

  在中国,如果谁用这种非主流的野路子做事,别说评专家、教授了,更别说什么收入上亿了,你估计不被饿死的机率有多大。

  反正笔者知道一个家伙,从2000年开始,就像美国那两个呆子,用这种“不科学的蛮力的硬算方法”进行语义相关度分析,做的事与那两个呆子搞的翻译系统异曲同工,都是有关语言的。可以说他在这方面做出了突破性成果,然而他写的成果文档,博士、专家们看都不看。他现在也就在一家小公司做一份普通IT工作,勉强维持温饱,曾经好长一段时间找不到合适工作,差点去洗碗、当保安。

  也许有人要问了,搞语言方面的去搞数字,这靠谱吗?用大数据的思路,你别管原因,那两个复兴科技的呆子已经告诉你结果了。

  非要知道原因,也可以跟你说说:

  其实语言比数字复杂太多了,举个简单的例子吧:1和2,电脑天然就知道它们的关系,知道哪个大、哪个小,以及大多少;但是“人”和“大”,电脑怎么知道这二者有什么关系,要知道也行,传统的方法就是进行很多人工注解(专业叫词性标注)。要让电脑自己通过数据挖掘来知道文字的意义和相关性,甚至连基本的词库都不给电脑,而让它自己去建,那实在太难了点,简直就是匪夷所思,然而那个家伙做到了。

  也就是说在大数据方面,语言处理与数字相比,难度绝对不是一、两个数量级的差别,因此能做语言的,做数字就很简单了。在有就还是大数据的特点,大数据是不管你什么样的数据,它就是找出相关性,所以文字和数字并没有太大区别。

  前段时间那家伙碰到有人提出一个行业趋势分析的问题,他说只用一个小时就想出了算法,只要把大量数据拿来就能出结果,但是在中国没人敢相信他。

  好了,有点跑题,不好意思。不过你现在知道什么是真正的“大数据”了吧。首先记得大数据是用来进行预测的,即直接告诉你未来的结果,另外就是牢牢记住7个字“大数据自动挖掘”,那就谁也忽悠不了你了。

大数据自动挖掘”才是现在这些大数据的真正意义

时间: 2024-10-10 17:03:04

大数据自动挖掘”才是现在这些大数据的真正意义的相关文章

想学习大数据?这才是完整的大数据学习体系

大数据 干货走起,闲话不多说,以下就是小编整理的大数据学习思路 第一阶段:linux系统 本阶段为大数据学习入门基础课程,帮大家进入大数据领取打好Linux基础,以便更好的学习Hadoop.habse.NoSQL.saprk.storm等众多技术要点. 另:目前企业中无疑例外是使用Linux来搭建或部署项目的 第二阶段:大型网站高并发处理 本阶段的学习是为了让大家能够了解大数据的源头,数据从而而来,继而更好的了解大数据.通过学习处理大型网站高并发问题反向的更加深入的学习Linux,同事站在了更高

上篇 | 大数据公司挖掘数据价值的49个典型案例(值得收藏)

导读:本文是近年来不同行业.不同领域的大数据公司的一些经典案例总结.尽管有些已经是几年前的案例,但其中的深层逻辑对于未来仍有启发. 本文力图从企业运营和管理的角度,梳理出发掘大数据价值的一般规律:一是以数据驱动的决策,主要通过提高预测概率,来提高决策成功率:二是以数据驱动的流程,主要是形成营销闭环战略,提高销售漏斗的转化率:三是以数据驱动的产品,在产品设计阶段,强调个性化:在产品运营阶段,则强调迭代式创新. 01 上篇:天然大数据公司的各种套餐 从谷歌.亚马逊.Facebook.LinkedIn

大数据公司挖掘数据价值的49个典型案例!信息量很大

大数据公司挖掘数据价值的49个典型案例 对于企业来说,100条理论确实不如一个成功的标杆有实践意义,本文的主旨就是寻找"正在做"大数据的49个样本. 力图从企业运营和管理的角度,梳理出发掘大数据价值的一般规律:一是以数据驱动的决策,主要通过提高预测概率,来提高决策成功率;二是以数据驱动的流程,主要是形成营销闭环战略,提高销售漏斗的转化率;三是以数据驱动的产品,在产品设计阶段,强调个性化;在产品运营阶段,则强调迭代式创新. 上篇 天然大数据公司的各种套餐 从谷歌.亚马逊.Facebook

大数据公司挖掘数据价值的49个典型案例

对于企业来说,100条理论确实不如一个成功的标杆有实践意义,本文的主旨就是寻找“正在做”大数据的49个样本.力图从企业运营和管理的角度,梳理出发掘大数据价值的一般规律: 一是以数据驱动的决策,主要通过提高预测概率,来提高决策成功率;二是以数据驱动的流程,主要是形成营销闭环战略,提高销售漏斗的转化率;三是以数据驱动的产品,在产品设计阶段,强调个性化;在产品运营阶段,则强调迭代式创新. 上篇 天然大数据公司的各种套餐 从谷歌.亚马逊.Facebook.LinkedIn,到阿里.百度.腾讯,都因其拥有

灵玖LJParser系统大数据语义挖掘的平台

大数据挖掘中最重要的是决定挖掘什么样的知识,这是在数据的收集.处理.挖掘的整个过程中都需要认真考虑的问题. 大数据技术涉及存储.搜索.传输.计算.挖掘等多方面.大数据挖掘旨在从大数据中挖掘出未知且有用的知识.通过挖掘,大数据的价值才得以体现,所以挖掘对大数据有着举足轻重的意义. 大数据挖掘有两个基本问题,即"挖什么(what to mine)"与"怎么挖(how to mine)".前者决定从数据中抽取什么样的信息,统计什么样的规律,后者决定怎样具体进行抽取与统计.

灵玖软件:NLPIR技术助力行业大数据智能挖掘

大数据时代业已到来,当今世界正处在一个数据爆炸的时代.伴随着多媒体.云计算.物联网.社交网络等技术的发展,以及天文观测.空间地理.金融分析等各领域每天都在产生巨量的数据,这些数据如此庞大,其规模.其涌现速度和其处理难点超出目前常规技术能管理.处理和分析的能力.一般来说,大数据具有量大(Volume).流动性大(Velocity),种类多(Variety),分布式(distributed).非一致(nonuniformity)等特性,这些特点决定了在大数据时代,我们传统的数据处理技术必须有革命性的

大志非才不就,大才非学不成

零.苦逼码农的自我修养系列 PS:为什么此部分序号是零而不是一?因为这是作为一个码农所应该具有的基础之中的基础,要想做个好码农,此部分还得花大力气啃书啊,这决定了我们看待计算机程序的高度. 0.1 数据结构与算法学习总结系列 (1)你必须知道的指针基础系列: { 预备篇 gcc开发环境搭建 } { 指针的声明和使用.数组与指针的关系 } { 指针的移动.指针的危险 } { sizeof计算长度.strcpy的安全性问题 } { 应用篇 自己实现strlen函数,endsWith函数 } { 内存

阳宇宸:大数据分析及挖掘

大数据引领我们走向数据智能化时代 [WHAT]大数据   定义 大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理的数据集合,是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的海量.高增长率和多样化的信息资产. 大数据时代的背景 20世纪90年代,数据仓库之父的Bill Inmon就经常提及Big Data. 2011年5月,在"云计算相遇大数据"为主题的EMC World 2011 会议中,EMC 抛出了Big Data概念. 半个世纪

民生银行十五年的数据体系建设,深入解读阿拉丁大数据生态圈、人人BI 是如何养成的?(转载)

早在今年的上半年我应邀参加了由 Smartbi 主办的一个小型数据分析交流活动,在活动现场第一次了解到了民生银行的阿拉丁项目.由于时间关系,嘉宾现场分享的内容非常有限.凭着多年对行业研究和对解决方案的嗅觉与敏感性,意识到这个阿拉丁项目的完整性和独特性超出了以往我所接触过的所有 BI 领域的项目案例,很值得再次深入的探讨.学习与研究.对于很多公司在建设自身的 BI 或者大数据平台体系上,这个项目案例有很好的参考与借鉴意义.(另外一个我个人比较推崇的大数据建设的案例是美的的大数据平台建设案例.) 在