大数据科学新发展展望:不得不知的四大趋势

从2012年开始,几乎人人(至少是互联网界)言必称大数据,似乎不和大数据沾点边都不好意思和别人聊天。从2016年开始,大数据系统逐步开始在企业中进入部署阶段,大数据的炒作逐渐散去,随之而来的是应用的蓬勃发展期,一些代表成熟技术的标志性IPO在国内外资本市场也不断出现。转眼间,大数据几年前经历的泡沫正在无可争议地转移到人工智能身上。可以说,在过去的一年,AI所经历的共同意识“大爆炸”与当年的大数据相比,有过之而无不及。最近风口又转移到区块链上了,某种程度上也成为业内人士焦虑的一种诱因了。

但无论技术热点如何变换,我们能看到的是,随着行业沉下心来进行实质的落地,大数据生态也越来越细分。今天就我和大家来谈谈大数据领域的一些新变化、新趋势。

一、数据治理与安全 Data Governance & Security

就发展趋势而言,这个可以放在第一位来讲讲。

多年来,数据已经在企业中不断快速积累。物联网(IoT) 更是不断加速数据的生成。

对于许多企业来说,大数据的解决方案就是利用类似于开源的Apache Hadoop等技术作为基础支持,创建数据湖(Data Lake),即创建整个企业的数据管理平台,用于以本机格式存储企业的所有数据。数据湖将通过提供一个单一的数据存储库来消除信息孤岛,整个组织都可以使用该存储库来进行业务分析、数据挖掘等各种应用。当有了数据湖之后,大家会倾向于认为这东西将会成为一个全方位和万能的大数据集,例如点击流数据、物联网数据、日志数据等都会被要求进入这个湖中,而这些数据很难处理的问题却会被忽略。

但是,除非你知道数据湖里具体有什么,并且能够访问到合适的数据进行分析,否则数据湖再大也没有意义。因此,最后大家都会意识到许多数据湖是表现不佳的资源,人们不知道其中存储着什么内容,如何进行访问,或者如何从这些数据中获取洞察力。

但是,方便地找到想要的东西、同时管理好权限并不容易。除了数据湖以外,治理的另一个主题是以安全的、可审计的方式为任何人提供对可靠数据的便捷访问。

所以,站在管理并使用好公司数据资产的角度而言,数据治理犹如公司的顶层制度和宣言一样需要被重视,并且用相应的策略、流程等来进行落实。最终目的是通过实现数据治理,来提升数据管理、确保数据质量、形成开放共享的新局面等。此外,数据治理也是决策、职能以及操作流程有机组合的系统,并且人们对这些数据资产承担责任。

二、致力于协作的数据工作台发展

在大多数大型企业里,大数据的采用是从少数独立项目开始的,个推也是如此:譬如这里做一点Hadoop集群,那里用一用分析工具,跑一个简单业务模型,以及意识到需要设立一些新的职位(数据科学家、首席数据官)等等。

现在,业务场景越来越丰富,异质性也越来越突出,各种各样的工具在整个企业范围内得到了使用。在公司的组织范围内,集中化的“数据科学部门”正在逐渐让位于更加去中心化的组织,原因在于集中化的部门越来越走向瓶颈,也更容易造成资源的流失。

这个由数据科学家、数据工程师以及数据分析师组成的群体,正日益嵌入到不同的业务部门里。因此,对于平台来说需求已经很明显了,那就是要让一切都能协作到一起来,因为大数据的成功正是建立在设立一条由技术、人以及流程组成的装配线基础之上的。

因此,一些全新的协作平台类型(譬如 Jupyter等)正在加快出现,引领着所谓的DataOps(与DevOps对应)领域的发展。

三、数据科学自动化

数据科学家(Data Scientist)依然是市场上炙手可热的争夺对象。但是我们在周围却很少见到这类人,哪怕是财富前1000强的公司也为无法招到更多“数据科学家”而感到困扰。而在一些组织里,数据科学部门正在从使能者演变为瓶颈。

与此同时,AI的大众化以及自服务工具的蔓延使得数据科学技能有限的数据工程师,甚至是数据分析师在执行一些基本操作时变得更加容易了,而这些操作直到最近仍然是数据科学家的领地。在自动化工具的帮助下,企业大量的大数据工作,尤其是那些简单枯燥的工作,将由数据工程师和数据分析师进行处理,而不必麻烦有着深厚技术技能的数据科学家。当然,即便如此,数据科学家目前还不需要太过“恐惧”。

在可预见的未来里,自服务工具和自动化模型将会“增强”数据科学家而不是消灭他们,会解放他们,让他们把焦点放在需要判断、创造力、社会化技能或者需要垂直行业知识的任务上,那样才能更加体现科学家的名号。

四、大数据管理员的崛起

大数据管理员(BDA)也对标于数据库管理员(DBA),虽然两个英文字母只是变换了一下顺序,但是其内涵相差甚远。一个非常明显的趋势是,企业将对一个新岗位角色产生需求,即大数据管理员。DBA大家已经非常熟悉,但它与大数据时代下的数据管理员,有非常大的差别。

数据管理员处于数据使用者和数据工程师之间。为了取得成功,数据管理员在进行大数据系统的维护工作之外,还必须了解数据的含义以及掌握应用于数据中的一些技术。

数据管理员需要清楚整个组织内需要执行的数据分析类型,哪些数据集非常适用于这项工作,以及如何将数据从原始状态转换为数据使用者执行这项工作所需的形态和形式。数据管理员应使用像自助服务数据平台这样的系统来加快数据使用者访问基本数据集的端到端流程,而无需制作无数的数据副本。

结语

以上四个方面是数据科学在实践发展中提出的新需求,谁能在这些方面得到好的成绩,谁便会在这个大数据时代取得领先的位置。

原文地址:http://blog.51cto.com/13031991/2094168

时间: 2024-12-14 14:45:08

大数据科学新发展展望:不得不知的四大趋势的相关文章

大数据科学相关岗位,需要具备哪些数学基础?

在不久的将来,大智时代一定会彻底走入我们的生活,多智时代专注于人工智能.大数据.云计算和物联网的入门学习和科谱资讯,让我们一起携手,引领人工智能的未来 数据科学相关岗位要具备哪些数学基础?想成为一名顶级的数据科学家还需要掌握其他领域的知识,比如编程能力.具有一定的商业头脑,以及对数据的独特分析和好奇心态. 有时候,作为一名数据科学家(甚至是团队的初级分析师),你必须全心全意地学习那些基础的数学知识,或者正确地应用这些技术,有时候你可以通过使用一些API或者拿来即用的算法完成相关任务.大数据科学相

我国大数据未来的发展方向

2018年,中国的大数据产业上演了冰火之歌.一方面,随着互联网,大数据,人工智能等现代信息技术的不断突破,大数据产业蓬勃发展.特别是在传统(物理)经济与数据经济深度融合的背景下,电子商务,医疗,教育,媒体,政务等成熟领域的大数据产业呈上升趋势.另一方面,欧盟的通用数据保护条例(GDPR)于2018年5月25日生效,这是历史上最严格的个人数据保护法案.它远离欧洲,对全球和国内数据市场造成了很大的冲击. 2019年,中国大数据产业经历了数据安全风暴和快速发展,将迎来国家和地方双重政策推动等重大机遇,

阿里爸爸大数据的应用与展望(笔记)

阿里全息大数据构建与应用笔记 阿里全息大数据构建与应用笔记 这个双十一你剁手了吗?→_→反正我的手机是收到了来自阿里爸爸的各种短信轰炸- 然而在购物之余,你又是否能够回答这么几个问题:电商是如何应用在大数据相关技术的?大数据给在线营销带来了怎么样的变革?在线购物体验在过去几年发生了怎么样的变化? 那么接下来就来看看大数据与在线营销能擦出怎样的火花- 1.数据的进化历程 ①大数据与数据的区别 ○量大,如果你只有几千条几百条的数据,还不好意思叫大数据 ○彼此关联,如果你的数据东一个西一个没什么关联,

大数据未来五年展望

今年,大数据和云计算一起作为科技术语出现.大数据意味着非常多的事情,但是被援引的次数太多了,几乎失去了其本来的定义.大数据的定义通常和速率(数据移动得快),体积(数据规模庞大),和种类(非结构化和结构化的信息)三点有关. 大数据真的如人们所描述的那样吗?是的.对我来说,大数据代表了科技和商业的一致——也就是首席信息官们始终追求的圣杯(Holy Grail)——成为了一件顺理成章的事情.大数据项目从本质上来说和营收.风险利润是相关的.换句话说,信息科技和商业世界情不自禁地联合了起来. 显然我们正处

追本溯源 解析“大数据生态环境”发展现状(CSDN)

程学旗先生是中科院计算所副总工.研究员.博士生导师.网络科学与技术重点实验室主任.本次程学旗带来了中国大数据生态系统的基础问题方面的内容分享.大数据的发展越来越快,但是对于大数据的认知大都还停留在最初的阶段——大数据是一类资源.一类工具,其实“大数据”更多的体现的是一个认知和思维,是一种战略.认知和文化. 以下为分享实录全文: 一年多来,通过组织中国大数据技术大会.CCF大数据学术会议以及各类大大小小的应用峰会与学术论坛,结合我们科学院网络数据科学与技术重点实验室所承担的与大数据相关的重大基础课

软交所--万物互联 大数据成新威胁

互联网宽带.移动技术高速发展,人们在畅享网络生活高效.便利.快捷的同时,却也面临着日趋严重的网络信息安全威胁和隐患. 本周三,亚太信息安全领域最权威的年度峰会--2014中国互联网安全大会(ISC 2014)召开.本届大会的主题为"互联世界,安全第一",大会聚焦互联网时代.大数据背景下的信息安全所面临的全新挑战和问题,深入探讨了智慧城市.互联网金融.数字医疗.可穿戴计算等业界关心的问题. 360董事长周鸿祎认为,给信息安全管理体系带来了巨大冲击,传统的系统安全.边界安全等,已无法防卫以

1.试述大数据对思维方式的重要影响。 2.详细阐述大数据、云计算、物联网之间的区别与联系。 3.简述你对大数据应用与发展的看法,以及你在这次大数据浪潮中想扮演什么角色。

1.大数称巨量资料,指的是需要新处理模式才能具有更强的决策力.洞察力和流程优化能力的海量.高增长率和多样化的信息资产.所以利用大数据的人们思维更加的敏锐,也会对人们的思维方式产生扩大化,通过大量的数据进行分析,从而形成更多推进人类社会进步的产品,走上更新的时代. 2.物联网产生大数据,大数据助力物联网.目前,物联网正在支撑起社会活动和人们生活方式的变革,被称为继计算机.互联网之后冲击现代社会的第三次信息化发展浪潮.物联网在将物品和互联网连接起来,进行信息交换和通信,以实现智能化识别.定位.跟踪.

大数据现状和未来展望--百度大数据主任架构师马如悦访谈

导读:6 月 1 ~ 2 日,GIAC 全球互联网架构大会将于深圳举行.GIAC 是一个面向架构师.技术负责人及高端技术从业人员的技术架构大会.今年的 GIAC 已经有腾讯.阿里巴巴.百度.今日头条.科大讯飞.新浪微博.小米.美图.Oracle.链家.唯品会.京东.饿了么.美团点评.罗辑思维.ofo 等公司专家出席. 在大会前夕,高可用架构采访了本届 GIAC大数据分论坛 出品人马如悦,就目大家广泛关注的大数据方面的问题进行了访谈. 马如悦,百度大数据主任架构师,当前是百度大数据技术总负责人,百

大数据行业,发展现状及前景分析!

大数据时代的到来,简单的说是海量数据同完美计算能力结合的结果.确切的说是移动互联网.物联网产生了海量的数据,大数据计算技术完美地解决了海量数据的收集.存储.计算.分析的问题.大数据时×××启人类社会利用数据价值的另一个时代. 分享之前推荐一个大数据学习交流qq群 大数据行业发展现状 1.一些数据的记录是以模拟形式存在,或者以数据形式存在,但是存贮在本地,不是公开数据资源,没有开放给互联网用户,例如音乐.照片.视频.监控录像等影音资料.现在这些数据不但数据量巨大,并且共享到了互联网上,面对所有互联