大数据时代,我诚惶诚恐的拥抱

这是最好的时代,也是最坏的时代,让我们拥抱大数据时代。----题记

这几天拜读了维克托·迈尔的《大数据时代》,感慨颇多,技术引领我们进入数据时代。数据存储、分析能力的提高大大改变,基于大数据的分析结果已经完完全全改变了我们的生活,如便捷的翻译、便捷的输入、新产品的推荐等。大数据已经成为学术界、业界关心的热切关心的问题,大数据时代的技术模式、管理模式都尚且未知。本文在梳理大数据的学术研究脉络的基础上,分析大数据和云计算的关系,大数据内涵及与信息技术发展的关系,并尝试对大数据在学术界和业界的发展进行预测。

实验室今年申请的自科基金,或多或少与大数据相关,虽然从技术角度刻意削弱了大数据的内涵,但是从评审意见看出大数据作为亮点被指出,说明学术界对大数据的重视。大数据虽然在互联网行业中如火如荼的被讨论着,基于笔者的既有知识,大数据原本是描述生物学领域下对于基因序列检测所获取的大量的、高速数据,《Nature》在08年发表专刊对大数据进行讨论,而Lynch则从高校科研数据管理中提出科学数据是大数据的一种,提出了数据价值的时间耗散现象。由此看书,大数据起于生物科学,而兴于互联网。无论是Google,还是亚马逊,都记录了大量广大网民日常行为,构成大量数据。对于大数据应用的文章,<哈佛商业评论>上的文章<Strategy & Competition Big Data: The Management Revolution>为大数据的商业变革进行了深入分析,认为大数据将互联网的个性化商业服务向个人化推送,企业将能更有效的刻画用户偏好,为客户管理管理、产品推荐都提供较好的数据支撑。然而,就目前为止,学术上对大数据的研究更多停留在定性分析角度,尚且缺乏实证和计算科学上的研究,大数据的关键属性尚未可知,笔者认为学术界满意开展对大数据的研究原因有二:首先,满足大数据的特性的数据集难以获取,既有定量研究都是基于样本数据;然而,学术界实验的计算能力不够,面向大数据的算法以及应用更多出于企业摸索阶段。《大数据时代》给出的多个案例都证明了大数据的可用性,但是这些案例也都是利用大数据去解释企业行为及得到的效果,直接基于大数据概念下的应用尚未可见,其根本原因是满意界定何为大数据。笔者较为同意维克多在《大数据时代》的定义,大数据不在于数据之大,而在数据的总体,其本质在于利用数据总体而非数据样本去分析数据。大数据带来三个方面的改变:追求总体数据、追求相关关系而非因果关系、追求混杂行而非精确性。对于大数据特征的分析,笔者非常同意清华大学陈国青教授提出的4V,规模巨大(Volumn),形式多样(vary),高速产生(V??),以及潜在价值(Value).大数据提供了从个人化层次以及宏观层次两个层面的数据描述。

笔者认为大数据是对云计算的延伸,云计算是大数据简单地应用,前几天关于云计算的多见于云存储以及云音乐等简单应用,但云计算为大数据准备好了技术,实现数据统一,数据共享,而大数据是云计算的进一步延伸,更加关注数据分析技术和数据应用思维。笔者同意《大数据时代》中认为大数据是数据、技术和思维三国鼎立的时代,而大数据时代催生出新的商业模式,数据拥有者、数据中间商等成为新的商业宠儿,对商业模式的巨大冲击,利用大数据预测消费者行为都是大数据的商业内涵,企业有机会更为准确的服务消费者。虽然《大数据时代》提出相关关系在大数据的重要性,但将相关关系至于大数据内涵尚需要深入分析,笔者认为因果关系仍然处于数据分析的核心,大数据概莫如是,原因有二:相关关系的本质是因果关系链;二,人类的逻辑推理能力是基于因果关系的积累,而非相关关系的发现。当然,书中对于是什么的观点无可厚非,问题解决只需要知道是什么即可,对于为什么可以因为效率而暂放一边,但是因此放弃因果关系还是不妥当。

由《大数据时代》,大数据的发展的关键在两个方面:首先是数据的获取,如何合理、有效、快捷、有柔性的获取支持现在以及未来大数据分析的数据集仍然是问题,其中包括,数据获取的合法性以及数据设计问题,获取之后的存储相信在存储成本下降,非关系型存储技术的发展将不是问题。然后是大数据的分析问题,有效的分析技术仍然是大数据应用的关键,虽然google利用检索词预测流感爆发是大数据的成功应用,但是通用的分析技术,降低分析硬件需求仍然值得讨论,SaaS可能是解决这一问题的可能渠道,但是如何实现数据分析仍然是个问题,现有MapReduce,Hadoop等系统本质上是治标不治本,大数据碎片化的过程中必然数据大量数据关联。笔者认为大数据分析技术的关键在于如何将现有分析技术应用在大数据集,使之能够处理大数据。而《大数据时代》中提出的简单算法在大数据集下显示出比复杂算法较优的效果的现象,笔者更多认为是复杂算法在现有硬件条件下无法有效进行计算,信息技术的发展必然要解决这个问题。

最后,推荐《黑镜》给大家去看,这里有对于大数据道德的深入思考,不再赘述。

时间: 2024-10-12 20:57:59

大数据时代,我诚惶诚恐的拥抱的相关文章

(原创)大数据时代:数据分析之基于微软案例数据库数据挖掘案例知识点总结

随着大数据时代的到来,数据挖掘的重要性就变得显而易见,几种作为最低层的简单的数据挖掘算法,现在利用微软数据案例库做一个简要总结. 应用场景介绍 其实数据挖掘应用的场景无处不在,很多的环境都会应用到数据挖掘,之前我们没有应用是因为还没有学会利用数据,或者说还没有体会到数据的重要性,现在随着IT行业中大数据时代的到来,让我一起去拥抱大数据,闲言少叙,此处我们就列举一个最简单的场景,一个销售厂商根据以往的销售记录单,通过数据挖掘技术预测出一份可能会购买该厂商产品的客户名单,我相信这也是很多销售机构想要

第29本:《大数据时代》

第29本:<大数据时代> 最近大数据火了,还经常听到Hadoop和Mapreduce,我经常勘探地震资料处 理后的地震数据体,动不动几十个G,算不算大数据?好像与现在说的这个大数据概念相差太远,就一直想了解一下这个大数据到底是什么含义.从SUN那里借来 <大数据时代>读了一读,明白了不少基本概念和示例,与我们的数GB的地震数据体不是一回事,想把大数据应用于石油行业,看来还得琢磨琢磨. <大数据时代>这本书的章节划分非常清晰,主要讲了思维.商业和管理方面的变革,每一章有一

数据分析变革 大数据时代精准决策之道——互动出版网

这篇是计算机类的优质预售推荐>>>><数据分析变革 大数据时代精准决策之道> 畅销书<驾驭大数据>作者.Teradata公司的首席分析官Bill Franks力作 内容简介 能够快速适应不断变化的市场环境的能力是获得成功的关键.本书旨在将数据分析嵌入运营流程,帮助读者将从数据(包括大数据和小数据)分析中获得的业务洞察与日常运营紧密集成在一起. 本书确切地讲述了使分析运营化到底意味着哪些变革,并告诉读者如何建立团队.创建文化.升级分析方法论并利用技术,使企业向

在大数据时代,你需要这样思考

维克托?迈尔?舍恩伯格和肯尼斯?库克耶在<大数据时代>中告诉我们大数据的4V特点,即Volume(大量).Velocity(高速). Variety(多样).Veracity(真实).相比小数据,大数据一定是复杂的.然而,复杂性对于我们来说,绝对是一个机会而不应是一个问题.面对 大数据时代的扑面而来,如何拥抱大数据,从思考方式的转变开始. 从“基于预设的结构化数据库”到“无需预设的非关系型数据库” 小数据时代,我们对于数据的存储与检索一直依赖于分类法和索引法,分类和索引是一种清晰获取数据的机制

大数据时代给社会科学研究带来新问题

大数据时代的图书出版是近两年的热点,8月27日即将在北京开幕的第21届北京图博会之前,不少出版界人士已纷纷开始筹备热议.那么,大数据时代,对学 术出版乃至社会科学研究有什么样的影响及意义呢?中国传媒大学调查统计研究所所长沈浩近日在第十五届全国皮书年会上,就相关话题做了专题报告. 沈浩认为,大数据时代,数据科学让人们越来越多地从数据观察到人类社会的复杂行为模式,以数据为基础,并非是数据改变了我们,起决定作用的是我们可用知识的增加. “大数据真的来了,我们要拥抱大数据,大数据对我们生活产生重大影响.

马云:大数据时代_最重要的是做最好的自己

原文链接 摘要: 做个二十名的人其实蛮好的.大数据时代,最重要的是让每个人做最好的自己. 6月29日上午,天津"世界智能大会"现场,马云作了万字演讲,以下是马云演讲整理: 我今天不是为不同而不同,我觉得进入数据时代,一个很重要的事,每个人对每个问题的看法.角度.深度和广度必须是不一样的,只有不一样,你才是你. 做个二十名的人其实蛮好的.大数据时代,最重要的是让每个人做最好的自己. 6月29日上午,天津"世界智能大会"现场,马云作了万字演讲,以下是马云演讲整理: 我今

大数据时代与精准运维

 随着科技的进步,我们正步入一个新的时代,新常态下,由重视数量到更注重质量,以创新做为推动力,互联网+.工业4.0.中国制造2025.以及大数据.云计算科技迸发出全新活力,以人为本智能时代就要到来,智能连接.智能服务.智能制造,"连接一切,充分感知"是这个时代的特征.因此,利用这个时代的特定服务,企业家们精准掌舵,站在风口上的人,注定将是大时代的弄潮人. 什么是大数据 大数据,就是随着信息化技术的发展,特别是互联网技术的发展,积累了大量的信息数据资产,这些资产具有四个特点:第一,数

大数据时代,市场对企业级云存储的需求更加迫切

随着移动互联网的迅速发展,智能终端.可穿戴设备.智能家居.物联网以及基因测序正在快速普及.企业和用户每天接触的数据吞吐量呈现出指数级的增长趋势,我国社会正在步入大数据爆炸的时代. 大数据时代降临的今天,个人云存储服务早已迈向免费时代,而中国各行各业的互联网化与现实世界数据化的趋势,计算和应用都更加需要集中化,使得市场对企业级别云存储的需求更加迫切. 企业级数据的大爆发 IBM商业研究院与牛津大学的合作调研研究报告称,整个人类文明所获得的全部数据中,有 90%是过去两年内产生的.而到了 2020

计算机网络管理基础服务安装+大数据时代的网络运维

使用yum方式完成服务安装 ___By Nemo(仅供参考) Notice:Apache 安装好之后,我又改回桥接模式用rpm安装了. 首先,让你的虚拟机上个网,所以需要把网卡设置成nat模式,在宿主机上先拨个号,设好后重启linux系统. 重启后,打开firefox,看是不是能上网.Ok,但nat模式默认的ip是动态分配的,咱们得按照老师的要求把设成你静态的学生牌号.所以咱们得这么设一下!应该通过vmware虚拟机中-->Edit(编 缉)-->Virtual Net Editor(虚拟网络