未来五年内将重塑大数据技术的五种趋势

请大家不要再纠结于一块磁盘能保存多少数据或者企业到底会不会采用Hadoop。关于大数据的真正问题在于,企业用户将如何使用Hadoop、我们的系统到底能在智能化道路上走多远、我们又该如何保证这一切都处于控制之下。

过去几年当中,大数据技术已经迎来长足发展;从一个乐观积极的流行词汇变成人见人恨的疑难杂症,关注重点也由纯粹的数据规模转向对类型及速度的追 求。所谓“大数据”及其相关技术在经历了高度重视、详细甄别以及吐故纳新之后,实际成果很可能与我们的认知存在较大差异。然而时至今日,我们正站在历史的 重要转折点上、此前围绕这一话题引发的各类争论将最终带来明确的结论。

如今自动化与智能化已经成为整个世界运转的新方向,这一趋势在简化数据发掘工作的同时、也把智能化特性引入万事万物——从移动应用到交通系统无所不 包。大数据的“大”绝不是最终目标,各类新型处理模式的涌现旨在将日益增长的数据交付量转化为智能化成效。所谓分类也不是最终目标,它的意义在于帮助我们 实现大规模数据量化的同时、更为深入了解我们身边的世界。

在这样的背景下,我们将借助本届Structure Data大会这一平台钻研更多相关细节——此次会议将于本月十九号在纽约拉开序幕,为期一周。在此期间,世界各地的技术巨头、知名企业以及一部分最为睿智 的新兴企业都会派出发言代表与大家分享自己的真知灼见。他们将探讨与大数据BI产品相关的各类话题,内容涵盖对抗贩卖人口、Hadoop未来发展方向乃至人工智能 前沿技术。

下面我将为大家带来我自己一直在关注的五大发展趋势,也许有助于各位提前把握会议发言人们的探讨话题以及表述方向。如果大家有意参加此次会议,希望我的这篇展望文章能够起到抛砖引玉的作用。

1. Hadoop以坚定步伐发展为真正的平台

Apache Hadoop也许仍然只是一套分布式文件系统、MapReduce也将继续扮演执行框架的角色,但Hadoop可绝不会这样止步不前。归功于YARN等各 类通用性发展成果,Hadoop集群如今已经能够针对任意数量的不同工作负载运行任意数量的不同执行框架,同时充分发挥同一套底层存储基础设施所带来的资 源优势。举例来说,面向ETL作业的MapReduce集群现在也可以同时充当支撑机器学习的Spark集群、面向流处理的Storm集群以及针对交互式 SQL的Tez集群。

从本质上讲,Hadoop已经从一款面向特定任务的实用工具转变为一整套能够支持各类应用程序的真正平台。以Airbnb以及Twitter为代表 的早期采用者已经从这种新型用途当中取得竞争优势,Cloudera、Hortonworks以及MapR等Hadoop方案供应商也在自身产品中引入多 种新功能并支持主流Hadoop用户在某些情况下所需要的新型框架。Continuuity、Mortar Data以及WibiData等新兴企业通过简化大数据应用程序的方式加快了这一演化的进程,同时也对一部分技术基础进行了开源化处理、从而为更多开发人 员提供相关工具。

当然,受到Hadoop向平台转化趋势影响的绝不仅仅是开发人员,众多软件厂商也感受到了这股时代洪流。传统数据仓库、数据库甚至统计软件供应商必须接受这一现实,即Hadoop如今能够帮助他们以更低的成本保存更多数据、同时以多种方式对其内容进行分析。

2.人工智能开始崛起

我们拥有计算设备、我们拥有数据、我们也拥有算法:因此,我们现在已经拥有建立人工智能的技术基础。请别误会,人工智能还不像科幻小说中描述的那样 恐怖、也无法真正取代人类的地位,但这项技术最终必将成为现实。由于机器学习方案的不断进步,我们已经能够通过智能手机进行语音指令识别、拥有能够预测用 户喜好的媒体服务、可以在数十亿个数据点之间摸清关系脉络的软件以及善于挖掘潜在价值空间的应用程序。

IBM的沃森系统已经近在咫尺,足以为厨师们提供准确的食谱配料清单。

展望未来,针对上述领域的深入学习将帮助我们的人工智能系统变得更加实用也更为强大。在复杂数据集当中,这些模型能够提取并识别出无法通过编程实现 的深入分析途径。在无人监管的情况下,深入学习项目已经能够成功把握特定对象的外观、将不同语言的词汇加以映射甚至学会主机游戏的操作规则。几乎就在一夜 之间,众多原本无法实现的任务如今似乎都拥有了可行的解决途径——例如能够内容标注使其具备可搜索性,或者以出色的准确性预测用户的词语表意以及接下来要 输入的内容。

通过将新型内容应用在新领域当中,这些方案完全有可能为我们带来更为可观的潜在价值。特定癌细胞聚集在一起会表现出怎样的特性?我们能否帮助护士了 解原本只有医生能够接触到的信息?哪些原本无法准确衡量的因素组合能够反映出导致青少年自杀的原因?我们需要如何推动自动驾驶汽车与无人飞机进入商业应用 领域?诚然,人工智能并不是什么救世主,但它确实为我们展示出光明而且广阔无垠的可能性。

3.为人们带来分析能力

与真正的高难度基础设施与普遍适用的算法相比,将数据分析推向标准化并使其成为易于实现的技能似乎并不算什么了不起的成就——但这一趋势仍然有可能 给我们的社会带来重大变革。只需为普通民众提供以新型方式审视身边数据的能力,就相当于为我们的生活开启了一扇通往无限可能的大门。

举例来说,昨天我就利用免费软件为自己的iTunes媒体库建立起一幅网络图形,并把斯诺登在最近一次采访中所使用的几个词汇与国安局局长 Keith Alexander的发言进行了一番比较。我并没有用到数据科学或者深入学习技术,但我仍然能够完成较为简单的分析任务、而后对自己发现的有趣数据进行审 视。在此之前,我还曾经映射过自己的Twitter粉丝、分析Gigaom网站各位作者发布的头条、甚至对自己的食物摄入量以及锻炼强度进行了汇总。也许 促使年轻人们积极以有趣的方式审视并分析自己的数据会有助于激励数据技术专家们进一步把相关方案推向民间——谁说得准呢?

而且随着目前可供普通民众使用的工具愈发先进、我们所收集到的数据量日益拓展(其中包括来自健身器材、联网汽车以及物联网等来源的数据),这种对于 自身的量化分析也将变得越来越重要。出于各种目的,我们自身正逐步成为数据输入与算法输出流程的重要组成部分。我们的个人数据将带来方方面面的影响——包 括我们看到的广告内容以及收到的招聘信息——而且这一切都将变得顺理成章:每位用户至少能够了解到企业、机构以及政府部门所掌握的小部分信息。

4. 云计算

早在三年前我就说过,云计算与大数据的发展路线必将交接、碰撞,而这一猜测也已经成为现实——只是实际影响范围比我的预计更为广泛。事实上,这场浩 大融合带来的最大影响几乎没有反映在Hadoop、商务智能套件或者任何其它分析软件即服务方案的实际使用能力当中。诚然,这些趋势让新兴企业及成熟公司 能够更轻松地将新型工作负载迁移到云环境当中;但就我个人来说,云技术变革带来的最大意义在于为原本艰深的计算机科学引入了民主化进程。

我已经强调过,目前一部分技术方案已经以“即服务”形式供大家使用(主要通过API实现),而且这一阵营仍在不断壮大之中。如果大家身为一位开发人 员,而且希望学习Hadoop以及Elastic MapReduce的使用方法,那么如今已经有现成方案可供选择。如果大家希望能接入某种服务,例如IBM的沃森云或者MindMeld API,并需要在自己的数据当中借用其它算法所提供的人工智能层,现成方案同样多种多样。在谷歌以及Pinterestto Netflix等众多厂商的支持下,上述大部分技术方案都将被逐步嵌入到我们所使用的服务当中。

如果这些方案真的管用,而且能为开发人员带来真正的智能化能力(这里所说的‘智能化’并非一般意义上的推荐功能,那更像是一种难以回避的瘟疫而非优 势),那么即使是平平无奇的任务也足以为消费者带来超出预期的良好效果。相信很多朋友在了解食品采购清单的具体条目之外,还希望搞清这些食材有哪些好处, 如果部分食材暂时断货、我们还有哪些后备选项或者在哪里能以更低的价格买到同类货品。在智能手机与其它计算设备所带来的处理能力与数据容量的支持之下,经 过精心设计的应用程序完全能够把我们从AT&T信号塔处获取到的信号转化为实际收益。

5. 法律法规

最后,法律制度也将成为大数据发展过程中的潜在影响因素——具体效果如何取决于大家的审视角度。就目前来看,仲裁者、立法者、监管者甚至总统都在努 力弄清收集到的这批庞大数据到底意味着什么,并以此为基础勾勒出某种秩序草案。当然,要在这条湍流当中摸着石头过河并非易事,在此过程中充分发挥所有竞争 优势更是难上加难。

在管理流程当中,最为棘手的难题就是如何妥善保护消费者的个人隐私;这部分信息拥有巨大挖掘潜力、足以显著改善消费者的实际体验,但同时也会带来侵 犯个人隐私的巨大风险。另外,大量宣传资金也开始涌入这一新兴领域。我们希望能以最划算的价格买到食材或者新服饰,也希望能够参与DNA测绘项目并拿到 99美元的回报。但我们同时也需要确保自己提供的潜在敏感信息不会被泄露给他人或者出现在不应出现的场合——例如一台公用计算机的滚动广告上。

这一点对于法律制定者以及其他起草法律框架、法规以及判例法的从业人士而言算是一项巨大挑战,他们需要保证消费者在获得正当利益的同时避免遭遇隐私 泄露。坦率地讲,我不太相信他们能在不理解大数据技术及其指向的情况下制定出可行的方案,我也不相信大家会对这样产生的结果感到满意。

当然,我们不希望Facebook、谷歌以及Geico等厂商对自己的全部数据进行深入分析,但我们同样不希望重新经历那段网站设计古怪难用、出租车干等不来、工作效率极其低下而且生活毫无个性化可言的悲惨岁月。

时间: 2024-10-17 09:42:14

未来五年内将重塑大数据技术的五种趋势的相关文章

不只是Hadoop:大数据技术的未来道路

在实时数据的世界当中,我们为什么还要执着于Hadoop这一片森林? 作为一套以批量处理为主要诉求的架构方案,Hadoop仍然堪称大数据技术领域的荣耀长子.然而根据451研究集团的调查数据显示,其实际普及效果仍然不及显赫的声誉. 那些已经率先部署了Hadoop解决方案的企业可能希望稍稍放慢自己的前进脚步.伴随着Apache Spark以及其它一系列技术方案的出台(包括Storm.Kafka等等),我们似乎与Hadoop的批量处理思路渐行渐远.转而踏上了一条真正通往实 时性未来的发展道路. 批量并非

视频大数据技术在智慧城市中的应用

现代社会的信息量正以飞快的速度增长,这些信息里又积累着大量的数据.预计到2025年,每年产生的数据信息将会有超过1/3的内容驻留在云平台中或借助云平台处理.我们需要对这些数据进行分析和处理,以获取更多有价值的信息.在未来的"智慧城市"中,会有越来越大的结构化以及非结构化的数据.那么我们如何高效地存储和管理这些数据,如何分析这些数据呢?答案是,我们需要强有力的大数据处理系统进行支撑. 作为目前最火热的词汇之一,大数据在各个领域都已有了较为成熟的应用.在视频监控领域,大数据时代正悄悄来临.

大快大数据技术架构的构成模块

大数据也不是近几年才出现的新东西,只是最近几年才真正意义上变得热门.火爆!而这要得益于互联网信息技术的快速发展,网络改变世界.改变生活,大数据技术的应用让这样的改变更为深刻. 关注大数据或者是互联网方面新闻的人应该知道,大数据已经上升到了国家战略的高度.可以说这是时代发展的必然趋势,从国家战略层面推进大数据技术的普及与应用,一个至关重要且非常核心的问题--数据安全问题就非常突出.解决数据安全问题,必然要回归到大数据开发所使用的框架! 国内的大数据开发起步较晚于国外,所有关于大数据大开发的各种标准

常用的大数据技术有哪些?

大数据技术为决策提供依据,在政府.企业.科研项目等决策中扮演着重要的角色,在社会治理和企业管理中起到了不容忽视的作用,很多国家,如中国.美国以及欧盟等都已将大数据列入国家发展战略,微软.谷歌.百度以及亚马逊等大型企业也将大数据技术列为未来发展的关键筹码,可见,大数据技术在当今乃至未来的重要性! 大数据学习QQ群:716581014 大数据技术,简而言之,就是提取大数据价值的技术,是根据特定目标,经过数据收集与存储.数据筛选.算法分析与预测.数据分析结果展示等,为做出正确决策提供依据,其数据级别通

大数据学习路线图 让你精准掌握大数据技术学习?

大数据指不用随机分析法这样捷径,而采用所有数据进行分析处理的方法.互联网时代每个企业每天都要产生庞大的数据,对数据进行储存,对有效的数据进行挖掘分析并应用需要依赖于大数据开发,大数据开发课程采用真实商业数据源并融合云计算+机器学习,让学员有实力入职一线互联网企业. 今天小编的技术分享详细学习大数据的精准路线图,学好大数据就还得靠专业的工具. 大数据学习QQ群:119599574 阶段一. Java语言基础 Java开发介绍.熟悉Eclipse开发工具.Java语言基础.Java流程控制.Java

大数据技术学习路线,有信心能学好的朋友,就开始吧

如果你看完有信心能坚持学习的话,那就当下开始行动吧! 一.大数据技术基础 1.linux操作基础 linux系统简介与安装 linux常用命令–文件操作 linux常用命令–用户管理与权限 linux常用命令–系统管理 linux常用命令–免密登陆配置与网络管理 linux上常用软件安装 linux本地yum源配置及yum软件安装 linux防火墙配置 linux高级文本处理命令cut.sed.awk linux定时任务crontab 2.shell编程 shell编程–基本语法 shell编程

大数据学习路线 让你精准掌握大数据技术学习

大数据指不用随机分析法这样捷径,而采用所有数据进行分析处理的方法.互联网时代每个企业每天都要产生庞大的数据,对数据进行储存,对有效的数据进行挖掘分析并应用需要依赖于大数据开发,大数据开发课程采用真实商业数据源并融合云计算+机器学习,让学员有实力入职一线互联网企业. 今天小编的技术分享详细学习大数据的精准路线图,学好大数据就还得靠专业的工具. 阶段一. Java语言基础 Java开发介绍.熟悉Eclipse开发工具.Java语言基础.Java流程控制.Java字符串.Java数组与类和对象.数字处

学习大数据技术,从优秀的书籍开始

AI时代全面来临,大数据.人工智能引领科技创新潮流,获得国家政策大力支持,前景广阔.乘风破浪.逐梦前行,成功就在脚下.学习大数据技术,除了必要的大数据学习路线图的指引之外,想要进一步提升至自己的技术,就要从优秀的书籍开始读起,书读百遍其义自见! 对于大数据技术的学习,小编为你甄选了以下学习大数据的优秀书籍,为了自己的高薪未来,收起游戏,开始阅读吧! 互联网科技发展蓬勃兴起,人工智能时代来临,抓住下一个风口.为帮助那些往想互联网方向转行想学习,却因为时间不够,资源不足而放弃的人.我自己整理的一份最

10个最热门的大数据技术

大数据已经融入到各行各业,哪些大数据技术是最受欢迎?哪些大数据技术潜力巨大?请听大讲台老师对10个最热门的大数据技术的介绍. 互联网科技发展蓬勃兴起,人工智能时代来临,抓住下一个风口.为帮助那些往想互联网方向转行想学习,却因为时间不够,资源不足而放弃的人.我自己整理的一份最新的大数据进阶资料和高级开发教程,大数据学习群:868847735 欢迎进阶中和进想深入大数据的小伙伴加入. (一)预测分析 预测分析是一种统计或数据挖掘解决方案,包含可在结构化和非结构化数据中使用以确定未来结果的算法和技术.