近期,国外黑客利用俄罗斯影子经纪人曝光的美国国家安全局(NSA)若干利用smb协议(445端口) 漏洞而制作的勒索软件,席卷全球并把国内许多大学的大四毕业生论文给加密了。该勒索软件实际是一种蠕虫病毒,它首先利用邮件附件等方式感染一台主机,然后它会自动扫描局域网内开放了445端口的主机,一旦发现,就利用内置的ms17010(俗称“蓝色永恒”)的漏洞,把这些机子也感染。紧接着将所有的文档资料用特殊算法加密,是之无法正常打开,只有按要求提供赎金,黑客才会远程解密该电脑。
然而这篇文章并不想讨论这此勒索软件的技术原理,而是想从一位朋友提到一个很有意思的现象说起。朋友发现就在几天前(2017年5月10日)比特币的价格突然暴涨,而这次的勒索软件需要通过比特币来支付赎金,所以朋友将比特币的突然暴涨和这次勒索软件席卷全球联系到了一起,推测勒索软件团伙买入大量比特币,将比特币的市场价格迅速提高,从而通过勒索软件迫使受害者用更高的市场价格买入比特币,使他们可以攫取更多经济利益。
我对朋友的推测过和思维方式表示赞同,或许少数人会认为这是阴谋论,或者属于事后诸葛。但我觉得这就是大数据挖掘该发挥作用的时候,如果未来多次出现勒索软件爆发之前比特币价格迅速暴涨的事情,那关联性就会很大。
现在开始进入正题,大数据挖掘的本质和意义到底是什么?大数据挖掘的本质就是对历史数据进行碰撞,挖掘出看似违背常理,其实情理之中的一些潜在的规则和规律。他的意义就是利用潜在的规则和规律预测到人类预测不到的、未来一定会发生的事情。
说起大数据挖掘,它就是高级智能的最充分的体现,人类也是运用的很多的一种智能技能,平时我们对一个小孩说,“我看准了这个孩子,他一定会有成就,会有出息”,或者“我看准了你,你一定没出息”,这其实就是人类的一种预测,人类凭什么去预测其他人的未来,凭借的就是对其他人以前行为的一种分析、总结、提炼,最后预测。人类也是最喜欢使用“假如”、“如果”这种词语的物种,也表明人类是善于使用预测的。
而互联网时代,计算机能够利用大量的信息与数据,类似于人类的方式,对这些信息和数据进行碰撞、提炼,总结出一些从所未有的规则,就像前面提到的,比特币价格暴涨竟然和勒索软件风靡有关,还比如最经典的案例,超市里纸尿裤竟然和啤酒销量惊人一致是因为孩子父亲买了纸尿裤都会买再买瓶啤酒这种预料之外而又情理之中的关联规则。
只不过,我认为,大数据挖掘应该是挖掘系统性的社会性规则,而不是这对某个个人进行挖掘和预测。我坚信,社会性的潜在关联规则会更多,更出乎我们普通人的意料,更让我们人类想象不到。这才是未来大数据挖掘的发展之路。
一旦大数据挖掘走上这条发展之路,那么预测社会未来的发展规则将不是梦想,统计学升级版就是大数据挖掘。