大数据挖掘的本质和意义

近期,国外黑客利用俄罗斯影子经纪人曝光的美国国家安全局(NSA)若干利用smb协议(445端口) 漏洞而制作的勒索软件,席卷全球并把国内许多大学的大四毕业生论文给加密了。该勒索软件实际是一种蠕虫病毒,它首先利用邮件附件等方式感染一台主机,然后它会自动扫描局域网内开放了445端口的主机,一旦发现,就利用内置的ms17010(俗称“蓝色永恒”)的漏洞,把这些机子也感染。紧接着将所有的文档资料用特殊算法加密,是之无法正常打开,只有按要求提供赎金,黑客才会远程解密该电脑。

然而这篇文章并不想讨论这此勒索软件的技术原理,而是想从一位朋友提到一个很有意思的现象说起。朋友发现就在几天前(2017年5月10日)比特币的价格突然暴涨,而这次的勒索软件需要通过比特币来支付赎金,所以朋友将比特币的突然暴涨和这次勒索软件席卷全球联系到了一起,推测勒索软件团伙买入大量比特币,将比特币的市场价格迅速提高,从而通过勒索软件迫使受害者用更高的市场价格买入比特币,使他们可以攫取更多经济利益。

我对朋友的推测过和思维方式表示赞同,或许少数人会认为这是阴谋论,或者属于事后诸葛。但我觉得这就是大数据挖掘该发挥作用的时候,如果未来多次出现勒索软件爆发之前比特币价格迅速暴涨的事情,那关联性就会很大。

现在开始进入正题,大数据挖掘的本质和意义到底是什么?大数据挖掘的本质就是对历史数据进行碰撞,挖掘出看似违背常理,其实情理之中的一些潜在的规则和规律。他的意义就是利用潜在的规则和规律预测到人类预测不到的、未来一定会发生的事情。

说起大数据挖掘,它就是高级智能的最充分的体现,人类也是运用的很多的一种智能技能,平时我们对一个小孩说,“我看准了这个孩子,他一定会有成就,会有出息”,或者“我看准了你,你一定没出息”,这其实就是人类的一种预测,人类凭什么去预测其他人的未来,凭借的就是对其他人以前行为的一种分析、总结、提炼,最后预测。人类也是最喜欢使用“假如”、“如果”这种词语的物种,也表明人类是善于使用预测的。

而互联网时代,计算机能够利用大量的信息与数据,类似于人类的方式,对这些信息和数据进行碰撞、提炼,总结出一些从所未有的规则,就像前面提到的,比特币价格暴涨竟然和勒索软件风靡有关,还比如最经典的案例,超市里纸尿裤竟然和啤酒销量惊人一致是因为孩子父亲买了纸尿裤都会买再买瓶啤酒这种预料之外而又情理之中的关联规则。

只不过,我认为,大数据挖掘应该是挖掘系统性的社会性规则,而不是这对某个个人进行挖掘和预测。我坚信,社会性的潜在关联规则会更多,更出乎我们普通人的意料,更让我们人类想象不到。这才是未来大数据挖掘的发展之路。

一旦大数据挖掘走上这条发展之路,那么预测社会未来的发展规则将不是梦想,统计学升级版就是大数据挖掘。

时间: 2024-10-03 23:10:27

大数据挖掘的本质和意义的相关文章

顶尖大数据挖掘实战平台(TipDM-H8)产品白皮书

    顶尖大数据挖掘实战平台 (TipDM-H8)           产  品  说  明  书 广州泰迪智能科技有限公司 版权所有 地址: 广州市经济技术开发区科学城232号 网址: http://www.tipdm.com 邮箱: [email protected] 热线: 40068-40020 企业QQ:40068-40020 邮编: 510663 电话: (020)82039399 目  录 1                     引言.....................

旅游研究院大数据挖掘与分析科研平台建设方案

一. 背景 一.1 数据挖掘和大数据分析行业背景和发展趋势 移动互联网.电子商务以及社交媒体的快速发展使得企业需要面临的数据量成指数增长.根据 IDC <数字宇宙>(Digital Universe)研究报告显示,2020 年全球新建和复制的信息量已经超过 40ZB,是2015年的12倍;而中国的数据量则会在2020年超过8ZB,比2015年增长22倍.数据量的飞速增长带来了大数据技术和服务市场的繁荣发展.IDC亚太区(不含日本)最新关于大数据和分析(BDA)领域的市场研究表明,大数据技术和服

移动互联网时代的大数据挖掘和精准营销

中国的这些年喜欢搞概念,什么云计算大数据啊,国家支持,专家鼓吹,各大会议论坛精彩纷呈,热闹过后发现还是默默地在用国外的技术和平台,就如同PC操作系统没有我们的份,手机操作系统也没有我们的份,虽然我们是世界上电脑和手机拥有量最多并且人们最喜欢玩手机的国家,感觉我们的学术专家和行业大佬们就只会扯蛋,扯多了会痛,痛定思痛,痛何如哉!吃饱喝足后还是继续扯蛋.相当可悲,若大个中国,真正心平静气地去做研究和开发的专家或企业应该是极少的或者很快就挂掉了,我们都太心急太功利太浮躁,政策是支持的,目标是巨大的,口

灵玖软件:大数据挖掘技术比数据更重要

数据与信息是重要的生产要素和战略资产,已在全球达成共识.然而,失去控制和无组织的数据和信息却不能很好地发挥战略资产的作用.信息挖掘是对文献.数据等信息资源对象进行分类.标引.描述.揭示,使之有序化.系统化的过程,其目的恰好是将无序的.分散的数据和信息整理成有序的信息资源,保证用户的有效获取和利用.因此,信息挖掘对于大数据资源的管理与利用具有重要作用. 同时,当前的大数据环境给信息挖掘带来了巨大的影响.正确地识别这些影响,对于凝练信息挖掘的研究方向.使其适应当前的发展环境.与国家的重大需求对接.为

安防大数据挖掘的利刃:模式识别和深度学习技术

人工智能的概念提出已经很多年,但最近一次大热是在“人机大战”战胜世界围棋高手李世石的AlphaGo.同样,近几年安防行业热门的深度学习和模式识别的概念也频频出现在公众的视野当中,那么它们是如何应用在安防领域中?目前最前沿的应用又有哪些?以下将为您一一解答. 安防大数据挖掘 平安城市从2010年在全国推广至今已经6年,目前各地平安城市建设即将进入扩容改建期,需要更加综合与智能的整体解决方案.公共安防已不再局限于扩张视频监控覆盖广度和密度以及清晰度,而是由扩密度的传统安防时代向注重视频大数据挖掘.使

大数据分析- 基于Hadoop/Mahout的大数据挖掘

随着互联网.移动互联网和物联网的发展,我们已经切实地迎来了一个大数据的时代.大数据是指无法在一定时间内用常规软件工具对其内容进行抓取.管理和处理的数据集合,对大数据的分析已经成为一个非常重要且紧迫的需求.目前对大数据的分析工具,首选的是Hadoop平台.Hadoop在可伸缩性.健壮性.计算性能和成本上具有无可替代的优势,事实上已成为当前互联网企业主流的大数据分析平台. 一.培训对象 1,系统架构师.系统分析师.高级程序员.资深开发人员. 2,牵涉到大数据处理的数据中心运行.规划.设计负责人. 3

31页PPT:基于Spark的移动大数据挖掘

31页PPT:基于Spark的移动大数据挖掘 数盟11.16 Data Science Meetup(DSM北京)分享:基于Spark的移动大数据挖掘分享嘉宾:张夏天(TalkingData首席数据科学家) @张夏天_机器学习 内容提要: TalkingData移动数据服务现状和挑战 为什么选择Spark TalkingData移动大数据挖掘 应用.系统和算法 Spark不是全部 以下为详细内容:

反思K-S指标(KPMG大数据挖掘)

评估信用评级模型,反思K-S指标 2015-12-05 KPMG大数据团队 KPMG大数据挖掘 "信用评级"的概念听起来可以十分直截了当.比如一天早上你接到电话,有个熟人跟你借钱,而你将在半睡半醒间迅速做出决定:借,还是不借.在灵光闪现的一秒里,你或许考虑了对方的脾气秉性.经济实力.家庭住址.种种黑白历史--但最终,你面对的是一道只有两个选项的单选题,并需要承担选择的后果,这就是一种最简单的"评级".商业银行对待申请借贷的客户也类似.为了控制不良贷款.避免损失,银行

突破R内存限制的企业级大数据挖掘利器:Microsoft R Server 快速上手

R语言是一款非常优秀的数据挖掘工具,拥有顶尖的数据处理.数据挖掘课数据可视化.是数据从业者必备的一把利器.但是其基于内存的诟病也一直被人所嫌弃,虽然这几年很多优秀的扩展包极大提升了R语言的性能,但是在面对企业级大数据挖掘面前,也会显得力不从心. 现在我们也不用担心R语言这个问题了,自从微软收购了商业版R以后,就进行了很多的整合和优化,之前只面向高校学生免费试用,现在,我们企业界的数据从业者也可以免费下载Microsoft R Server ,利用MRS处理大数据,MRS对开源R100%兼容,能充