大数据的目的:生产小型数据
弱水三千,只取一瓢。如果拥有着一切,那么我只是需要能够解答我关心的问题的答案。
如果我们想使用智能手机在指定的范围内定位选择一家意式餐厅。只需要轻轻的点击几下,智能终端就会列出当前所在的位置周边10公里以内的意大利餐厅。这个简单的LBS应用,其后面用于被查询的数据库是及其庞大而复杂的(该地理数据库包括了全世界所有的餐馆的数据,包括它们的基本信息、经纬度、街道地址、用户评价等等),但是针对所关心的内容,产生的结果数据集确非常的小(例如,在我们的智能终端上只会显示这五家餐厅的位置以及相应的标注,点击之后还可以弹出确切地址、电话号码以及评级等信息)。我们所需要的无非就是在这五家餐厅中选择一家用餐而已。
在这个例子中,解答我们关心的问题的数据信息,是从大型数据集中获得的。但是最终你的分析和结论,都是采用了一个小型的数据集来完成(即是满足你搜索条件的五家餐厅)。
大数据资源的目的,就在于生产各种小型的数据集。没有什么解析工作是直接在大数据资源中进行的,大数据资源的使用一般仅限于搜寻和检索。大数据资源实际上通过各种方式收集和组织了大量复杂的数据,在这样的资源中,已经准备好了解答你的各种问题。当然,在未来,数据的生产者和组织者还有很多事需要做,例如如何辨别酒吧和餐厅?外卖店和餐厅有什么区别?那些数据应该被收集?如果发生了数据丢失应该如何处理?如何有效的保存数据等)
大数据很少进行全盘分析(当然,也有可能),大多数情况下,都是通过过滤,大幅度降低数据维度和数量,把大数据分成相对较小的数据进行。此规则适用于科学研究中的数据分析。
澳大利亚“平方公里镜阵”探路者
泛星计划(Panoramic Survey Telescope And RapidResponse System,Pan-STARRS)
大型强子对撞机
位于澳大利亚的“平方公里镜阵”,拥有七组全球级别的射电望远镜;欧洲核子研究中心的大型强子对撞机以及美国空军资助的泛星计划(Panoramic
Survey Telescope And Rapid ResponseSystem,Pan-STARRS,直译为全景巡天望远镜和快速回应系统),每天都能产生PB级的数据量。研究人员就是使用这些原始的数据,来生存小型的数据集以进行研究和分析。
耀变体
下面一个例子说明了从大型数据集中获取数据子集的可行性。耀变体是罕见的超大质量的黑洞中释放出来的速度接近光速的放射流,(它是一种密度极高的高变能量源,被假定为是处于寄主星系中央的超大质量黑洞。耀变体是目前已观测到的宇宙中最剧烈的天体活动现象之一,并已成为星系天文学的一个重要话题。)宇宙学家萌都希望尽可能多的了解这些奇怪的物体。研究的第一步,就是尽可能多的去收集获取与耀变体相关的对象信息。然后在所有的收集到的耀变体对象中,进行各种对比、测量和识别,以确定其的总体特征。最后发现,在广域红外探测器(WISE)收集到的整个可观测的宇宙红外数据中,耀变体的其中一个伽马射线的特征标识没有被包含在其他的天体特征中。研究人员从WISE的数据中,提取到了与这个伽马射线相似的红外特征,这意味着观测到的天体现象中,有300组对象与耀变体有关。通过对这300组对象进一步研究,使得研究者认为,约有150组对象是耀变体。这150组的对象,是从天文数字级的数据中分析出来的。这就是大数据资源的工作原理,通过一定的方法,来构造一个可用于高效分析的小型数据集。