大数据的目的:生产小型数据

大数据的目的:生产小型数据

弱水三千,只取一瓢。如果拥有着一切,那么我只是需要能够解答我关心的问题的答案。
如果我们想使用智能手机在指定的范围内定位选择一家意式餐厅。只需要轻轻的点击几下,智能终端就会列出当前所在的位置周边10公里以内的意大利餐厅。这个简单的LBS应用,其后面用于被查询的数据库是及其庞大而复杂的(该地理数据库包括了全世界所有的餐馆的数据,包括它们的基本信息、经纬度、街道地址、用户评价等等),但是针对所关心的内容,产生的结果数据集确非常的小(例如,在我们的智能终端上只会显示这五家餐厅的位置以及相应的标注,点击之后还可以弹出确切地址、电话号码以及评级等信息)。我们所需要的无非就是在这五家餐厅中选择一家用餐而已。

在这个例子中,解答我们关心的问题的数据信息,是从大型数据集中获得的。但是最终你的分析和结论,都是采用了一个小型的数据集来完成(即是满足你搜索条件的五家餐厅)。

大数据资源的目的,就在于生产各种小型的数据集。没有什么解析工作是直接在大数据资源中进行的,大数据资源的使用一般仅限于搜寻和检索。大数据资源实际上通过各种方式收集和组织了大量复杂的数据,在这样的资源中,已经准备好了解答你的各种问题。当然,在未来,数据的生产者和组织者还有很多事需要做,例如如何辨别酒吧和餐厅?外卖店和餐厅有什么区别?那些数据应该被收集?如果发生了数据丢失应该如何处理?如何有效的保存数据等)

大数据很少进行全盘分析(当然,也有可能),大多数情况下,都是通过过滤,大幅度降低数据维度和数量,把大数据分成相对较小的数据进行。此规则适用于科学研究中的数据分析。

澳大利亚“平方公里镜阵”探路者

泛星计划(Panoramic Survey Telescope And RapidResponse System,Pan-STARRS)

大型强子对撞机

位于澳大利亚的“平方公里镜阵”,拥有七组全球级别的射电望远镜;欧洲核子研究中心的大型强子对撞机以及美国空军资助的泛星计划(Panoramic
Survey Telescope And Rapid ResponseSystem,Pan-STARRS,直译为全景巡天望远镜和快速回应系统),每天都能产生PB级的数据量。研究人员就是使用这些原始的数据,来生存小型的数据集以进行研究和分析。

耀变体

下面一个例子说明了从大型数据集中获取数据子集的可行性。耀变体是罕见的超大质量的黑洞中释放出来的速度接近光速的放射流,(它是一种密度极高的高变能量源,被假定为是处于寄主星系中央的超大质量黑洞。耀变体是目前已观测到的宇宙中最剧烈的天体活动现象之一,并已成为星系天文学的一个重要话题。)宇宙学家萌都希望尽可能多的了解这些奇怪的物体。研究的第一步,就是尽可能多的去收集获取与耀变体相关的对象信息。然后在所有的收集到的耀变体对象中,进行各种对比、测量和识别,以确定其的总体特征。最后发现,在广域红外探测器(WISE)收集到的整个可观测的宇宙红外数据中,耀变体的其中一个伽马射线的特征标识没有被包含在其他的天体特征中。研究人员从WISE的数据中,提取到了与这个伽马射线相似的红外特征,这意味着观测到的天体现象中,有300组对象与耀变体有关。通过对这300组对象进一步研究,使得研究者认为,约有150组对象是耀变体。这150组的对象,是从天文数字级的数据中分析出来的。这就是大数据资源的工作原理,通过一定的方法,来构造一个可用于高效分析的小型数据集。

时间: 2024-10-17 20:58:44

大数据的目的:生产小型数据的相关文章

京信通信:数据智能为生产调试“增效瘦身”

摘要: "数据驱动测试优化,突破自动测试边界,赋能智慧测试新模式."--京信智能制造副总经理葛鑫 "进入车间,映入眼帘的是一条长约20 米的 O 型生产线,产线前三名工人和几个机器人正协同工作,将各种元器件的印刷线路板(PCBA 板)与产品壳体组装起来. "数据驱动测试优化,突破自动测试边界,赋能智慧测试新模式."--京信智能制造副总经理葛鑫 "进入车间,映入眼帘的是一条长约20 米的 O 型生产线,产线前三名工人和几个机器人正协同工作,将各种元

大数据理论体系总结--数据仓库管理与全链路数据体系

前言 就这样,大数据领域蓬勃发展了好几年,有很多伙伴执迷于技术,成为了分布式计算与存储的领域专家.也有很多伙伴执迷于数据,成为了行业的数据研发专家.当然还有很多小伙伴,热衷于工具系统开发,成为了数据技术专家.那么我们回过头来考虑,什么是大数据,什么又是数据仓库,什么又是数据技术.大数据其实是个非常笼统的感念,它是由数据仓库演化而来的数据与技术方法论,那么我们先说一下数据仓库的由来: 早在多年以前在Hadoop.Spark.Storm.Kafka等系列分布式计算与存储.消息中间件还没有成熟的时候,

Data.gov.uk电子政务云,牛津大学NIE金融大数据实验室王宁:数据治理的现状和实践

牛津大学NIE金融大数据实验室王宁:数据治理的现状和实践 我是牛津互联网研究院的研究员,是英国开放互联网的一个主要的研究机构和相关政策制订的一个机构.今天主要给大家介绍一下英国数据治理的一些现状和实践.Data.gov.uk就是相当于英国的电子政务云.我不知道大家还记不记得这个画面,这是2012年伦敦奥运会的时候,当时的一幕,一个房子拉开了之后一个人在里面座着打计算机,这个人是一个英国籍也是牛津大学毕业的科学家,也是万维网之父.他当时创造互联网时候当时是一个博士生,他有一个想法就是说能不能有一个

数据分析的目的是发现数据价值

数据分析的目的是把隐没在一大批看来杂乱无章的数据中的信息集中.萃取和提炼出来,以找出所研究对象的内在规律. 在实用中,数据分析可帮助人们作出判断,以便采取适当行动.数据分析是组织机构有目的地收集数据.分析数据,使之成为信息的过程.这一过程是质量管理体系的支持过程.在产品的整个寿命周期,包括从市场调研到售后服务和最终处置的各个过程都需要适当运用数据分析过程,以提升有效性.例如J.开普勒通过分析行星角位置的观测数据,找出了行星运动规律.又如,一个企业的领导人要通过市场调查,分析所得数据以判定市场动向

从0到1构建大数据生态系列1:数据蛮荒中的拓荒之举

缘起 我们都知道,当前大数据的需求基本属于遍地开花.无论是帝都.魔都,还是广州.深圳,亦或是全国其他各地,都在搞大数据:不管是不到百人的微小公司,还是几百上千人的中型公司,亦或是上万的大型公司,都在需求数据岗位. 大公司暂且不论,他们一切都走在前头.那么,对于中小型企业来说,开始尝试以数据的思维去思考问题,开始涉足大数据领域,这就是一个从0到1的过程了. 有(bu)幸(xing),近半年来,我亲自见证以及亲身体会到了这个过程,或者至今仍然在完善1这个过程中.期间,有痛苦有坑.有喜悦有成功.有沉静

分布式大数据系统巧实现,全局数据调度管理不再难

背景 看到这个题目,我们会有很多疑问:什么是分布式大数据系统中的全局数据管理?为什么要从全局对数据进行管理?这种对数据从全局进行分布和调度的策略是在什么样的背景下产生的?如果我们不解决全局数据管理的问题,分布式大数据系统中将会面临一些什么样的风险? 总的来说:基于大数据,云计算的需求,加快了分布式系统的发展:开源分布式系统的发展,让海量数据存储和处理变的简单:产生了很多为了解决特定问题,服务特定业务的专有集群:集群之间数据无法共享,存在冗余甚至重复,迁移和复制代价高昂,同时还面临数据校验,验证和

大数据面临的问题:数据是否需要共享?

大数据面临的问题:数据是否需要共享? 在这个大数据时代,数据带来的难题可真不少,比如,一个企业重要的资产中包括一些特殊的数据,那么就会遇到一个问题,企业是否应该与合作伙伴和供应商共享这些数据,还是应该保留其专有权? 在有关Facebook公司宽松的数据共享政策和欧盟实施通用数据保护条例(GDPR)之间,很多人都在谈论数据隐私和消费者权利.那么作为Facebook或Google等公司的消费者,应该分享多少数据呢? 那么对于企业呢? 企业可能正在处理自己的数据隐私难题,他们应该与合作伙伴.供应商还是

大数据技术之_18_大数据离线平台_02_Nginx+Mysql+数据收集+Web 工程 JS/JAVA SDK 讲解+Flume 故障后-如何手动上传 Nginx 日志文件至 HDFS 上

十一.Nginx11.1.介绍11.2.常见其他 Web 服务器11.3.版本11.4.Nginx 安装11.5.目录结构11.6.操作命令十二.Mysql12.1.介绍12.2.关系型数据库(SQL)种类12.3.特征12.4.术语12.4.与非关系型数据库比较(Not Only SQL)12.4.1.种类12.4.2.特征12.4.3.总结十三.数据收集13.1.收集方式13.2.数据的事件类型13.2.1.Launch 事件13.2.2.PageView 事件13.3.Nginx 日志收集

超级(无限)大的 --- 整型10进制数据与16进制数据相互转换

<html> <title>超级(无限)大的 --- 整型10进制数据与16进制数据相互转换</title> <head> <meta charset="utf-8"/> <meta name="keywords" content="数据压缩算法,超过整数表示范围的大数据算术运算,大进制数据互相转换" /> <meta name="keywords"