科学研究与大数据概念的滥用

Esri 中国 卢萌

突如一夜春风来,千树万树梨花开。2012年兴起的“大数据”潮流,让“data”这个IT圈子里面的名词一下风靡各个行业。可以说,没有任何一个IT界的术语能够受到如此之大的关注和使用。除了传统IT界以及和IT圈子相关的行业以外,各种如餐饮业、房地产业、金融业等都迫不及待的宣布了自己的”大数据“战略。

微软研究院的《第四范式:数据密集型的科学研究》,将人类的科学研究从实验型科学研究、理论型科学研究和模拟计算型科学研究三个范式的定义之后,推出了第四个范式,即数据密集型的科学研究。

所以,大数据的风潮不可避免的刮进了科学研究领域。

就在这种全民热炒的时代,还是有一群科技工作者保持着冷静的。大数据这个名词虽然是科学研究界最早提出来的,但是真正被推广和使用的,都是在互联网领域,特别是对于大数据的公认的那些个V不管是最早的3V还是4V,到现在的11V,无一不是与互联网所产生的数据洪流的特性相匹配的,科学研究界真的需要这些吗?

首先,大数据从概念上讲究数据的“快”,这里的快可以是产生快、传播快、变化快、处理速度快等。但是在科学研究领域,很多数据的并没有这么多快的概念。比如在地理信息相关的很多领域,如土地利用、土壤变化、行政区划等信息中,多年不变,或者变化很少是很常见的现象。

其次,关于维度的问题。大数据有一种思想,就是去收集更多的数据,不管这个数据是否目前能够用得上,是否是我们目前所关注的信息,只要有可能,就去收集,不怕全不怕多,就怕没有(很多时候,很多公司和研究者,都进入一种为了数据而数据的走火入魔的状态)。特别是NoSQL这种数据思想的流行,让很多研究者高呼“妈妈再也不用担心我的数据存储范式了……”。但是,我们知道在科学领域,首先要定义的就是你的科学研究目标,目标必须要界定清晰,那么你的数据结构一开始就要设计得符合你的研究目标,这样才能有目的性的开展工作,如果不预先进行详细界定和设计,在研究的过程中就会导致目标的弱化以至于迷失。

还有关于数据价值的问题。互联网的数据可用“得来全不费工夫”来形容,特别是我们常用来举例的推特、谷歌、脸书这样的互联网行业。但是科学研究的每一份数据都得来不易,无论是从实验中获取,还是实地考察采样,每一份数据后面都可能有极其高昂的人力和时间成本。

获取更多的数据,是一个理想的状态,但是如果每一份数据都有很大的成本,要想在科学研究领域达到互联网领域那种数据量,是一个几乎无法完成的任务。

当然,《大数据时代》的思想来看,大数据的大并不是单纯的数量庞大的概念,还包含有完整性分析的概念。

在科研领域,获取完全的数据,进行分析也是一个理想状态。就从地理信息领域来看,采样点以点方式存在,根据地理信息要素的概念,点要素只有(X,Y)的性质,只表示位置,不能表示大小,所以不管怎么进行采集,也无法铺满整个研究区域。所以各种以样本来估算整体的算法,在地理信息领域才如此重要,包括空间抽样、地统计分析等。

大数据是一种思想,但是在使用的过程中不能犯教条主义,不是数据量才加大数据,也不是符合各种V才叫大数据,我们需要在真正理解的情况下,去应用。正如小平同志说的:黑猫白猫,抓住老鼠,才是好猫!

时间: 2024-10-07 05:29:33

科学研究与大数据概念的滥用的相关文章

大数据概念及应用

麦肯锡是最早提出大数据时代已经到来:“各个行业和领域都已经被数据给渗透了,目前数据已成为非常重要的生产因素了.对于大数据的处理和挖掘将意味着新一波的生产率不断增长和消费者盈余浪潮的到来.” 大数据概念最早是IBM定义的,将大数据的特征归纳为4个“V”(量Volume,多样Variety,价值Value,速 Velocity),或者说特点有四个层面:第一,数据体量巨大.大数据的起始计量单位至少是P(1000个T).E(100万个T)或Z(10亿个 T);第二,数据类型繁多.比如,网络日志.视频.图

大数据概念

大数据(big data),是指无法在可承受的时间范围内用常规软件工具进行捕捉.管理和处理的数据集合. 在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的<大数据时代>  中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理.大数据的4V特点:Volume(大量).Velocity(高速).Variety(多样).Value(价值). 现在正是学习大数据的最好机遇,不花一分钱就可以成为大数据高手,实现年薪50万的梦想. 王家林的第一个中国梦:免费为全社会培养100万名优秀的大

大数据仅仅是概念还是有实用性

从去年开始,不管是互联网行业还是其他行业,“大数据”一词开始频繁出现. “概念”性质的东西在中国的互联网圈子总是可以快速传播,这里面有很多原因,其中就有整体氛围所致:大多数互联网的创业者都是希望通过前瞻性的创新来改变世界,受到资本追捧,最终套现.在这个过程中,概念飞快的传播.包装,成为各种打着标签的产品.而实用主义者只被动接受,缺乏正确认知深刻的探索. 从下图可以看出,2008年大数据概念开始传播后,在百度和Google的“大数据”和“Big Data”的检索趋势(下图数据中Baidu的PV加权

大数据基本概念

大数据概念想必大家都不陌生,毕竟是近年来最热门的话题之一.在计算机以及互联网如此普及的今天,我们所有人每天都会在互联网上产生大量的数据,例如在淘宝浏览商品时会产生数据,使用社交app进行即时通讯时也会产生数据,每天股市的上涨下跌及交易量也是数据......如此可见,每天互联网上产生的数据是有多庞大,数据可谓是无处不在: 但是数据量大,只是大数据概念的特征之一,大数据有4个特征简称4V特征: 在2001年,高德纳分析员道格·莱尼在一份与其2001年的研究相关的演讲中指出,数据增长有三个方向的挑战和

【大数据】大数据时代--网络数据与科学的时代

大数据_大数据时代_大数据概念_网络大数据 随着大数据时代的来临,大数据也吸引了越来越多的关注.网络大数据(http://www.raincent.com)整合了大数据,大数据概念,大数据处理,大数据分析,cdn,cdn加速,idc,网络测量,网络监测,网络安全测量,网站性能监测,行业分析报告,行业研究报告,免费行业报告等服务为一体,力争打造中国最大的网络大数据中心. 这两个词最早出现是在上世纪90年代.按照当时的解释,大科学时代主要是指单打独斗的时代结束了,要搞集团军式的科研.也有一种说法是,

[转载]大数据人才流失: 科研为何陷入困境

[转载]大数据人才流失: 科研为何陷入困境 已有 5 次阅读 2014-5-13 12:27 |系统分类:观点评述    推荐到群组 无论无处不在的"大数据"概念引起怎样的联想,逐步增长的数据规模确是改变着我们和世界的交互方式.这在工业界.政界.媒体.学术界,几乎任何领域,都是事实.逐渐增强的对大数据进行收集.处理.抽象化,并从中得到启发的能力,拓宽了我们的知识面. 然而近年来,科学研究领域加速转变到以数据为核心,是有负面影响的.总结来说就是:称职的科学研究者需要的能力,和称职的工业界

大数据,无处不在

作者:萝卜(微信:Robbie_Qi) 今天早上看新闻频道,里面正在播房产继承难的新闻,它的结束语引起了我的注意,新闻大意是说,要解决个人来回提取相关档案的难题,应该“建立云计算平台,利用大数据技术查询档案”,我当时就被记者的水平所折服,一个普通的信息系统联网的事情,尽然也能和云计算.大数据搭上边,这是在炫知识,还是在让观众犯晕? 大家可能也有类似的感觉,尤其是从去年起,我们听到.看到“大数据”这个词的频率是越来越高了,从购物大数据,到出行大数据,从大数据吃到大数据游,简直是无处不在,仿佛一夜之

【大数据论文笔记】大数据技术研究综述

大数据的基本概念: 1.大数据的产生 a.科学研究 b.物联网的应用 c.海量网络信息的产生 2.大数据概念的提出 3.大数据的"4V"特征 a.Volume(容量大):大数据巨大的数据量与数据完整性 b.Variety(种类多):要在海量.种类繁多的数据间发现其内在关联 c.Velocity(速度快):更快地满足实时性需求 d.Value(价值密度低):将信息转化为知识 4.大数据的应用领域 a.商业 b.金融 c.医疗 d.制造业 大数据的处理流程 1.数据采集 2.数据处理与集成

大数据概论

大数据概述 1.大数据时代 1.第三次信息化浪潮 根据IBM前首席执行官郭士纳的观点,IT领域每隔十五年就会迎来一次重大变革. 信息化浪潮 发生时间 标志 解决问题 代表企业 第一次浪潮 1980年前后 个人计算机 信息处理 Inter.AMD.IBM.苹果.微软.联想.戴尔.惠普等 第二次浪潮 1995年前后 互联网 信息传输 雅虎.谷歌.阿里巴巴.百度.腾讯等 第三次浪潮 2010年前后 物联网.云计算和大数据 信息爆炸 将涌现出一批新的市场标杆企业 2.信息科技为大数据时代提供技术支撑 存