2019年大数据技术应用发展趋势


2019年大

当前最火热的新兴科技莫过于人工智能,而国内的大数据公司也纷纷转战AI战场。某种程度上,大数据已不再是科技界的话题宠儿。在Gartner的Hype Cycle中,大数据技术也已经进入到了Plateau of Productivity的商业化应用阶段。

?

任何新兴科技总会经历创新萌芽到期望幻灭的周期,这并不奇怪。就2018年行业应用现状来看,大数据正逐步成为企业的标准化应用技术:从早期尝试搭建分布式集群、到数据采集汇总、到数据加工与开发、再到大数据的应用场景落地,企业数据架构已经全面接纳、融合了分布式平台,并经历了从集中式、到混合式的探索期。

在这里我还是要推荐下我自己建的大数据学习交流裙:667367234, 裙 里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据开发相关的),包括我自己整理的一份2018最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴。
?

大数据技术的成熟应用也间接推动了技术社区的发展。Hadoop\Spark已经被大部分企业所接纳,事实标准的地位愈加稳固;Spark 2.4的发布能够看出对微批(micro-batch)处理的优化和Avro格式的数据支持。在流计算领域,Kafka Streams逐渐被企业所采纳作为低延迟的选型方案;Flink和Spark Streaming仍是采用最多的计算框架,与实时机器学习结合应用于风控、营销、信贷等场景端。此外,2018年容器技术和机器学习随着AI的潮流开始规模化应用于零售、金融、政府等领域,如Kubernetes/Docker、TensorFlow。

?

2019年大数据领域的技术及应用的发展总体上仍将处于一个稳步迭代的创新周期。在新兴开源技术的尝试方面,企业将更趋于理性和审慎;大数据计算引擎、大数据PaaS及工具和组件成为科技部门的标配;结合AI技术,大数据应用将大量落地,并产生业务价值。

?

根据技术市场和企业客户需求的观察,我总结了2019年大数据技术发展趋势。总体来说,数据资产管理、增强分析、智能化数据基础设施、面向AI的分布式框架看、数据安全管理是大数据技术应用领域的几个关键方向。

?

1.数据资产管理

随着大数据与人工智能在行业中的应用进入深水区,企业将越来越重视数据资产管理方法论体系建设——即从架构、标准、研发、质量、安全、分析到应用的统一,从而实现技术到业务价值的转化和变现。

?

一个比较奇怪的现象是:虽然越来越多的企业尝试采用了大数据技术、也在业务场景中尝试运用AI技术,但行业整体上仍缺少数据资产管理的方法论体系。换句话说,技术的应用超前于规则、标准和制度。事实上,仍然没有太多企业将数据作为资产进行有序、价值的整理,而只是把数据治理工作作为一项必须完成的任务来执行(监管要求等原因)。

?

2019年数据资产管理将仍是企业数据部门面临的难点与挑战。即使是大型、领先的互联网公司和科技型企业,在数据资产管理这一课题上仍在不断探索新的方法,如全链路智能管理体系、数据资产的贡献度、资产定义与研发管理的有机整合、数据基线度量与质量规范的工具化、可视化等。

? ??

?

?

2.增强分析

?

Gartner把增强分析(Augmented Analytics)定义为:侧重于增强智能的特定领域,使用机器学习来转换分析内容的开发、消费和共享方式。增强分析功能将迅速推进到主流应用,作为数据准备、数据管理、现代分析、业务流程管理、流程挖掘和数据科学平台的关键特性。

?

近两年自助式BI分析工具和算法平台已经屡见不鲜,但在实际行业应用中带来的业务价值并不大。究其原因,我认为一方面是常规的自助式BI分析和算法平台仍未脱离工具范畴,离实际的业务场景距离仍然较远。换句话说并没有深度集成到业务流程当中;另一方面是从BI到AI仍需要解决数据抽取、数据预处理、数据融合的问题,这需要占据数据科学家大量的时间。如何解决普通业务用户也能快捷便利的访问数据并进行验证分析是实现自动化分析的一大难点。

?

增强分析是数据科学的深化应用。通过将机器学习算法自动化实现数据准备,简化数据处理过程,实现分析及洞察的自动化,为传统业务人员提供了更便捷的通过数据和算法实现业务分析的可能性。

?

3.AI驱动的数据基础设施

在这里我还是要推荐下我自己建的大数据学习交流裙:667367234, 裙 里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据开发相关的),包括我自己整理的一份2018最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴。
?

2018年基本可以称之为人工智能的元年。多数企业布局了机器学习、深度学习技术的人力、工具和基础设施,有一些行业解决方案也逐步落地。不过在真实世界中,搭建基于AI的生态系统,重点并非算法本身,“AI驱动业务价值”这一命题意味着高昂的成本和资源投入。

?

Google在其论文《Hidden Technical Debt in Machine Learning Systems》中提到:真实世界中的AI系统只有一小部分依赖于机器学习算法,其依赖于大量复杂的基础设施。在数据配置、数据采集、特征提取、数据校验、资源管理、分析工具、服务基础设施、监控工具均需要高昂的开销。在多数领域,AI驱动的生产力仍未实现规模效应,如何解决数据基础设施的自动化。

?

Only a small fraction of real-world ML systems is composed of the ML code, as?shown by?the smallblack box in the middle. The required surrounding infrastructure is vast and complex.

?

从今年的大数据平台和工具市场来看,越来越多的构建AI解决方案工具,从AI建模、AI算法框架的工具,逐步演化为面向数据开发、流程调度、A/B实验、数据分析、服务管理等工具,从而实现AI驱动的数据基础设施。这种趋势意味着过去专业的数据科学家、数据工程师与开发人员合作实现AI解决方案,逐渐转变为开发者可以通过AI驱动的数据基础设施(如开发测试工具、建模工具、分析工具等),独立实现AI应用的开发过程;而数据科学家更专注于算法本身的构建及优化。

?

4.面向AI的分布式计算框架

?

随着AI成为科技领域的宠儿,以及机器学习技术的进步,对于面向AI的分布式计算系统的需求变得更加迫切。一种激进的声音是Hadoop/Spark已死,市场需要性能更好、扩展性更强、更适应AI时代的计算引擎解决方案。但这种论调看看也就罢了。Hadoop/Spark阵营的开源分布式社区已成为大数据处理的事实标准,在行业中的应用也在不断深化,各类商业化版本也在为满足更多的行业解决方案而迭代。不过,由于Hadoop/Spark设计的初衷并不是为了构建AI应用,在性能、任务并行、任务状态可变、异构计算(如GPU与CPU)等方面均有一定的问题和瓶颈。

?

目前开源社区已经有一些面向AI的分布式计算框架,比如UC Berkeley的Ray项目。与MapReduce和Spark这类并行跑批处理架构不同,AI分布式架构要求支持更细细粒度任务依赖,比如小数据量训练、灵活任务依赖、以及异构计算的优化。而大数据商业化公司、Hadoop发行版厂商如Cloudera(现已于Hortonworks合并),也势必在AI和机器学习应用领域进行产品调整和重构,以提供更多的基于云端的AI解决方案。

?

?

?

5.数据安全即服务

安全与隐私保护是这两年提及较多的关键词,尤其在GDPR(General Data Protection Regulation)发布之后,敏感信息约束和数据安全检查成为互联网、移动端的用户数据管控的难点。在过去,数据安全管理在很多企业搭建大数据平台和应用时容易忽视的点,如安全定级、隐私分级、数据打标、加密与脱敏、自动化访问授权等。

?

在未来一到两年,企业将越来越重视数据安全管理的应用,在信息安全上的投资预算增长迅速。Gartner曾预测在2019年全球企业在信息安全产品及服务上的投资将达到1240亿美元,同比增8.7%。这个数字我认为略显保守,低估了数据安全和隐私保护领域应用前景。事实上在2017-2018年,国内大数据市场已经出现了不少专注于数据安全领域的供应商,提供隐私访问控制、数据加密脱敏、信息风险监测、数据沙箱等产品应用。这一领域的赛道目前规模还不大、市场比较分散,细分领域的厂商多以客户本地化部署为主。随着DevSecOps(开发、安全与运维)和大数据安全分析平台等理念逐步被市场所采纳,数据安全即服务的云托管服务将更为普及,而基于机器学习的数据安全预测和分析引擎也将出现,应用于数据加密、脱敏、打标、事件分析、恶意文件检测、SIEM系统等领域。

关注微信公众号:程序员交流互动平台!获取资料学习!

数据技术与应用发展趋势:数据资产管理、增强分析、智能化数据基础设施、面向AI的分布式框架、数据安全即服务。

原文地址:http://blog.51cto.com/14078334/2322409

时间: 2024-08-01 12:04:19

2019年大数据技术应用发展趋势的相关文章

2015年主宰大数据技术的五大发展趋势

大数据技术自出现以来以一种异常火热的速度发展着,且种种迹象表明这种发展趋势在2015年将会继续持续下去.MapR联合创始人兼首席执行官John Schroeder预测,2015年将有五大发展趋势主导大数据技术,MapR是致力于Hadoop分发版的专业公司. 仅仅几年时间里,大数据技术就从之前的炒作阶段逐渐发展成为新数字时代中的核心技术之一.2014年,企业内部的大数据计划慢慢地从测试阶段走向研发和生产.Schroeder表示,2015年,企业的大数据技术将会进一步推进,并向前发展,甚至会产生更多

未来五年内将重塑大数据技术的五种趋势

请大家不要再纠结于一块磁盘能保存多少数据或者企业到底会不会采用Hadoop.关于大数据的真正问题在于,企业用户将如何使用Hadoop.我们的系统到底能在智能化道路上走多远.我们又该如何保证这一切都处于控制之下. 过去几年当中,大数据技术已经迎来长足发展:从一个乐观积极的流行词汇变成人见人恨的疑难杂症,关注重点也由纯粹的数据规模转向对类型及速度的追 求.所谓“大数据”及其相关技术在经历了高度重视.详细甄别以及吐故纳新之后,实际成果很可能与我们的认知存在较大差异.然而时至今日,我们正站在历史的 重要

不只是Hadoop:大数据技术的未来道路

在实时数据的世界当中,我们为什么还要执着于Hadoop这一片森林? 作为一套以批量处理为主要诉求的架构方案,Hadoop仍然堪称大数据技术领域的荣耀长子.然而根据451研究集团的调查数据显示,其实际普及效果仍然不及显赫的声誉. 那些已经率先部署了Hadoop解决方案的企业可能希望稍稍放慢自己的前进脚步.伴随着Apache Spark以及其它一系列技术方案的出台(包括Storm.Kafka等等),我们似乎与Hadoop的批量处理思路渐行渐远.转而踏上了一条真正通往实 时性未来的发展道路. 批量并非

互联网大会带你了解大数据的未来发展趋势

大数据,虽然与我们的生活息息相关,但很多人不了解大数据的意义所在.或许是因为大数据这个概念太过宽泛,也没有具体的产品做支撑,但大数据对国家对企业可真的是有着举足轻重的地位.2017互联网大会,更是带起了大数据的狂潮. 大数据已经成为改变世界的力量,无数据不智能,无数据不商业,作为未来世界的基础设施,所有的企业都无法回避数据化这一过程.阿里巴巴集团董事局主席马云在大会现场表示:"未来30年数据将成为生产资料,计算会是生产力,互联网是一种生产关系.如果我们不数据化,不和互联网相连,那么会比过去30年

2019国际大数据数博会-软件数据时代展会

为更好的交流展示国内外大数据技术应用和经验成果,推动我国大数据产业快速健康发展,由中国电子信息产业协会主办,2019中国(北京)国际大数据产业博览会" 在2019年5月16-18日在北京亦创国际会展中心召开.本届展览会将以"促进大数据新时代变革.共赢新时代机遇和挑战"为主题,诚邀各单位.企业负责人及专业观众一起探讨大数据产业的未来和发展,共同展示大数据产业领域的最新成果.新技术,探讨行业动向.进行面对面的商业交流等.且此次会展将吸引世界各国的媒体前来报道. 为推动大数据行业健

你如何制定一份可实施的2019年大数据学习计划?

那么如何才能制定出一份可行性强的大数据学习计划呢? 我们可以从以下几个方面去制定. 一.目标 首先你需要制定一个明确的你想要实现的长远的目标.比如,半年内学习相关课程,初步掌握大数据基础知识:比如,一年内熟悉并能在实际项目中应用:再比如,1年内达到市面上对大数据分析师的基本要求,成功找到一份大数据分析师的工作. 在这里还是要推荐下我自己建的大数据学习交流群:529867072,群里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据软件开发相

基于大数据技术的手机用户画像与征信研究

内容提要:手机用户画像是电信运营商实现“数据驱动业务与运营”的重要举措.首先,介绍了手机用户画像过程中对个人隐私保护的方法,然后分析手机用户画像的数据来源与大数据实现技术,最后,通过数据样本实例分析手机用户画像在个人征信中的应用. 引言 随着计算机网络技术的不断发展,“数据即资源”的大数据时代已经来临.用户画像是电信运营商为了避免管道化风险,实现“数据驱动业务与运营”的重要举措.用户画像与应用大数据技术对客户分类密切相关,是单个客户的众多属性标签的累积:另一方面,在运营商涉足的消费金融领域,对手

浅谈大数据技术

忽如一夜春风来,无人不谈大数据.大数据就像前两年的云计算一样,是一个时下被炒得很火的概念.那么什么是大数据,大数据是如何定义的,大数据处理技术有哪些,大数据能给我们带来什么益处?虽然我不知道现在这些概念是如何被炒作的,但是作为一名互联网行业的从业者,作为一个大数据技术的实践者,根据自己的理解和经验发表一点浅显的认识,理解肯定有不到位之处请大家批评指正. 无论是大数据技术还是云计算技术,其实这些技术都不是突然冒出来的,而是随着互联网技术的发展,人们把现有的技术加以整合,总结,概括出来并冠一个新名字

京东基于大数据技术的个性化电商搜索引擎

介绍京东个性化搜索引擎应用场景,和如何利用大数据技术实现个性化搜索.京东个性化场景包括基于行为.偏好.地域.时间.好友关系等维度,其中偏好是个性化搜索重点考虑的内容,分享会介绍搜索如何应用长期偏好.实时偏好以及偏好在不同的平台(web.移动.微信/手Q)起到的作用.在实现个性化搜索当中会分享京东搜索在解决个性化过程中遇到的问题.使用的技术.以及经验和思考. 原文:http://www.infoq.com/cn/presentations/jingdong-personalized-search-