《大数据分析中的计算智能研究现状与发展》这篇文章是郭平、王可、罗阿理、薛明志发于2015年11月发表于软件学报。
该篇文章讨论了大数据分析中计算智能研究存在的问题和进一步的研究方向,阐述了数据源共享问题,并建议利用以天文学为代表的数据密集型基础科研领域的数据开展大数据分析研究。
大数据和人工智能是现代计算机技术应用的重要分支,近年来这两个领域的研究相互交叉促进,产生了很多新的方法、应用和价值。大数据和人工智能具有天然的联系,大数据的发展本身使用了许多人工智能的理论和方法,人工智能也因大数据技术的发展步入了一个新的发展阶段,并反过来推动大数据的发展。
在阅读过程中,我的第一个问题:什么是大数据?
这是一种文化基因(meme),一个营销术语,确实如此,不过也是技术领域发展趋势的一个概括,这一趋势打开了理解世界和制定决策的新办法之门。根据技术研究机构IDC的预计,大量新数据无时不刻不在涌现,它们以每年50%的速度在增长,或者说每两年就要翻一番多。并不仅仅是数据的洪流越来越大,而且全新的支流也会越来越多。比方说,现在全球就有无数的数字传感器依附在工业设备、汽车、电表和板条箱上。它们能够测定方位、运动、振动、温度、湿度、甚至大气中的化学变化,并可以通信。将这些通信传感器与计算智能连接在一起,你就能够看到所谓的物联网(Internet of Things)或者工业互联网(Industrial Internet)的崛起。对信息访问的改善也为大数据趋势推波助澜。
大数据技术是继移动互联技术和云计算技术之后一项颠覆性的信息技术,它使得我们拥有了对一些数量巨大、种类繁多、价值密度极低、本身快速变化的数据有效和低成本存取、检索、分类、统计的能力。但这并不意味着我们今天能够有效和低成本地了解这些数据中蕴藏的巨大价值,尤其是这些数据中隐性的社会科学规律和经验所代表的巨大价值。所幸,人工智能领域的一些理论和比较实用的方法,已经开始用于大数据分析方面,并显现出初步令人振奋的结果。本文就大数据和人工智能未来发展的相互关系和潜力进行一些初步探讨。
我们认为,人工智能领域的一些理论和比较实用的方法,能够显著和有效地提升我们所拥有的大数据的使用价值,与此同时,大数据技术的发展也将在为人工智能提供用武之地的同时,唤醒人工智能巨大的潜力,从而使这两个领域的技术和应用出现加速发展的趋势。
关于大数据技术和人工智能的应用 ,人工智能的应用域非常广泛,下面我将具体从几个方面进行说明:
机器人
目前机器人已经能在受控制的条件下进行一些自动化操作,比如汽车制造。不过让它们像人类一样做出复杂的行为仍旧十分困难。尽管如此,一些前沿机器人的表现还是令人惊叹,它们可以解放人类劳动力,从事一些更具创造性的工作。亚马逊的机器人大军就能林立的货架中取出物品交给人类。
研究人员正在训练机器人读取人类行为的信息,从而能在更复杂的项目上与人类合
作。人类和机器可以各发挥所长,人类更灵巧,而机器人的动作更精确。卡内基梅隆大学的专家David Bourne制作了一款机器人手臂,可以帮助汽车焊接。在测试中,机器人会告诉人类将各部件放在哪里,然后时行精确的焊接,对更复杂的任务,它会交给人类伙伴。
机器学习
它是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论等多门学科。机器学习的目的是从数据中自动分析并获得规律,并利用规律对未知数据进行预测。目前机器学习已经广泛应用于我们的生活中,例如互联网搜索、垃圾邮件过滤、机器翻译、在线广告、手写识别等。然而机器学习本身也有硬伤,即容易过拟合和容易引起维数灾难(CurseofDimensionality)。而且经典的机器学习算法并不能真正表达“学习”的过程,无法产生具有确切现实意义的事物的概念,比如人脸识别,其实机器并没有得到“人脸”真正的实际意义,只是把人脸与其他事物区分开来。
大数据下的“精准”生活
出门问问在谷歌眼镜上装置了第一款中文语音搜索应用,当你戴上这款眼镜时,你就能看到眼前出现“开始语音问答”字眼,然后你只需说出“附近有什么饭店”、“银行在哪里”„„眼镜上就会自动出现附近饭店、银行所在的位置等信息,然后你可以挑选一家,眼镜上接着出现路线导航„„
出门问问创始人、首席执行官李志飞说,除了这些服务,更难得的是,人的语音有普通话、方言,还有带有各种口音的普通话。该中文语音搜索能利用大数据来理解各种场景和口音,进行智能化判断。此外,用户利用GPS传感器搜索导航、收听音乐等,每天会产生很多数据,服务器能收集数据并进行处理,在未来可为用户提供更智能、快捷服务。
通过搜索数据,拥堵景点、路线早知道 中国工程院院士、中国互联网协会理事长邬贺铨说,大数据在热点检索中也有很好的应用。如在长假前,很多人在网络上搜索旅游景点、旅店、火车与飞机航班信息等,由此可分析得出哪些旅游景点和交通路线会发生拥塞。如去年国庆节,九寨沟景点极度拥堵。该情况已引起有关部门的重视,一些省的旅游局已与百度达成协议,让百度通过搜索情况,提前预警哪些时候哪些地方会出现旅游拥堵。
对零售商的贡献
沃尔玛和Kohl’s等世界著名的零售商,通过分析销售、定价和经济、人口、天气方面的数据来为特定的门店选择合适的产品,并确定降价的时机。物流公司,如UPS,挖掘货车交付时间和交通模式方面的数据以调整路线。
全球最大的传统零售业巨头,沃尔玛自然不会忽略现在如日中天的移动互联网浪潮。在其收购了一系列电商创业公司之后,沃尔玛实验室试图通过大数据挖掘技术来改变现在的电子商务市场。
据沃尔玛全球电子商务总监Stephen O’Sullivan介绍,沃尔玛实验室计划将这家零售业巨头的10个不同的网站整合成一个,同时将一个10个节点的Hadoop集群扩展到250个节点的Hadoop集群。目前实验室正在设计几个能将当前像Oracle、Neteeza这样的开放资源的数据库进行迁移、整合的工具。
而这次开发大数据挖掘工具,是因为O’Sullivan和他的团队在大数据整
合过程中碰到了一些麻烦,同时发现目前适用于开源大数据的工具较少。所以计划自行开发一些适合开源数据库的大数据整合分析工具,未来还会将这些工具的源代码进行开放,为更多从事大数据挖掘的人士提供帮助。 在此之前,沃尔玛曾进行了一系列的收购。包括3亿美元收购的Kosmix(沃尔玛实验室前身)、OneRiot、Small Society、Social Calenda、Set Direction、Grabble等多家中小型创业公司。这些创业公司无一例外的要么精于数据挖掘和各种算法、要么在移动社交领域有其专长,这些都是沃尔玛进军移动互联网的重要力量。
而沃尔玛这个零售商巨头企业不仅在大数据挖掘方面投入较大,在具体销售过程中也有自己的特色,比如我们耳熟能详的啤酒尿布的故事就是该企业通过大数据挖掘以后得出的结论,他们在这样的搭配销售中尝到了甜头,由此也证实了大数据挖掘的必要性。
作为一家传统的零售业企业,能够在移动互联网和大数据挖掘上投入如此多的财力物力,说明沃尔玛已经看到了未来大数据的重要性。而在沃尔玛的带领下,相信未来传统企业也会更快的踏入大数据时代。 购物
传感数据,精准找到最佳顾客
大数据还能精准针对顾客来投放广告。邬贺铨举例说,美国超市的最好顾客是女性顾客,特别是孕妇。超市发现,孕妇会关注或购买一些没有刺激性的化妆品,还关心婴幼儿用品。但关心不等于购买,超市无法从购物数据上找到这些最佳顾客。那该怎么办呢? 于是,超市在推车上安装GPS和传感器,只要顾客在没有刺激性化妆品或婴幼儿用品柜台前站立时间长,尽管不购买这些商品,但超市也知道哪些顾客在关注这些商品,进而判断该顾客是否是孕妇或准备怀孕,并把相应广告发送到这些顾客的手上。
“本来这个事情进展得很顺利,结果《纽约时报》刊登了一个顾客的投诉信,说超市把孕妇和婴儿广告发送到自己一个上初中女儿的手机里。第二天,超市在《纽约时报》上发了一封道歉信,说‘大数据也有搞错的时候’。时隔不久,又有一封信刊登在《纽约时报》上,顾客道歉说,‘我错怪超市了,我后来发现我女儿意外怀孕了’。”邬贺铨说。如此精准地找到顾客的情况,在我国也在进行中。时趣首席技术官张首华说,褚橙是云南特产橙类,以味甜著称,其售卖季节仅一个月。时趣通过大数据分析,提出了“励志”、“创业”等关键卖点信息,再筛选出一批喜欢在网上购买生鲜水果的微博用户,精准地把褚橙信息发送到这些用户的微博上。
三.大数据和人工智能的发展前景
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
虽然大数据目前在国内还处于初级阶段,但是商业价值已经显现出来。首先,手中握有数据的公司站在金矿上,基于数据交易即可产生很好的效益;其次,基于数据挖掘会有很多商业模式诞生,定位角度不同,或侧重数据分析。比如帮企业做内部数据挖掘,或侧重优化,帮企业更精准找到用户,降低营销成本,提高企业销售率,增加利润。据统计,目前大数据所形成的市场规模在51亿美元左右,而到2017年,此数据预计会上涨到530亿美元。
时至今日,包括IBM、HP、EMC、Oracle、微软、Intel、TeraData等的IT企业纷纷推出自己的大数据解决方案。大数据技术应用前景广阔,2012年大数据市场已经达到116亿美元。IDC预计,到2017年,大数据市场将到达470亿美元。 到目前为止,大数据技术已能够有效地对一些数量巨大、种类繁多、价值密度极低、本身快速变化的数据有效和低成本存取已有的人工智能技术已经能够使大数据的使用价值凸显出来,初步展现大数据的价值。
建立具有真正意义的人工智能系统,是人类一直以来的梦想。面向大数据和人工智能的研究近来呈现出螺旋上升式发展态势,大数据时代的到来,赋予人工智能新的起点、新的使命和新的召唤。因此,在不久的将来,我们不难想象,大数据和人工智能领域的各种理论和方法,会有加速的发展趋势,从而史无前例地影响整个人类的发展进程。
下面介绍大数据的四大发展趋势:
趋势一数据的资源化
何谓资源化,是指大数据成为企业和社会关注的重要战略资源,并已成为大家争相抢夺的新焦点。因而,企业必须要提前制定大数据营销战略计划,抢占市场先机。
趋势二:与云计算的深度结合
大数据离不开云处理,云处理为大数据提供了弹性可拓展的基础设备,是产生大数据的平台之一。自2013年开始,大数据技术已开始和云计算技术紧密结合,预计未来两者关系将更为密切。除此之外,物联网、移动互联网等新兴计算形态,也将一齐助力大数据革命,让大数据营销发挥出更大的影响力。 趋势三:科学理论的突破
随着大数据的快速发展,就像计算机和互联网一样,大数据很有可能是新一轮的技术革命。随之兴起的数据挖掘、机器学习和人工智能等相关技术,可能会改变数据世界里的很多算法和基础理论,实现科学技术上的突破。 趋势四:数据科学和数据联盟的成立
未来,数据科学将成为一门专门的学科,被越来越多的人所认知。各大高校将设立专门的数据科学类专业,也会催生一批与之相关的新的就业岗位。与此同时,基于数据这个基础平台,也将建立起跨领域的数据共享平台,之后,数据共享将扩展到企业层面,并且成为未来产业的核心一环。
另外,大数据作为一种重要的战略资产,已经不同程度地渗透到每个行业领域和部门,其深度应用不仅有助于企业经营活动,还有利于推动国民经济发展。它对于推动信息产业创新、大数据存储管理挑战、改变经济社会管理面貌等方面也意义重大。
现在,通过数据的力量,用户希望掌握真正的便捷信息,从而让生活更有趣。对于企业来说,如何从海量数据中挖掘出可以有效利用的部分,并且用于品牌营销,才是企业制胜的法宝