大数据与传统数据

小编说:在这个人人都说大数据的时代,许多人对大数据的印象只是停留在仰望的阶段,其实大数据没人们说得那么神奇、玄乎或者是无所不能,今天我们就以传统数据作为比对,看看大数据究竟有什么特点让其处于时代的浪潮之巅。 
本文选自《从1开始——数据分析师成长之路》。

  大数据与传统数据相比的主要特点可以概括为:数据量“大”、数据类型“复杂”、数据价值“无限”。 

  数据量大十分好理解,以前我们存储数据使用的单位是 KB,一个Excel表格也就几十到几百KB,现在我们经常说到GB甚至是TB乃至PB的数据量级,它们的数量关系如下所示。 
                       1MB=1024KB 
                       1GB=1024MB 
                       1TB=1024GB 
                       1PB=1024TB 
  更直观一点,1KB相当于512个汉字,1MB就相当于六本红楼梦的字数……而淘宝网在2015年3月每天大约能产生7TB的数据量,相当于4000万本红楼梦的数据量,而中国最大的图书馆中国国家图书馆的藏书量是3000万册。由此看来,我们的大数据着实是数据量巨大了。而只说能够产生如此大量数据的原因有哪些呢?我们不妨从数据获取的方式、数据传输的方式和数据存储的方式来探讨数据量大的这个问题。 
  数据获取方式的质变是大数据能够产生的核心要素。传统的数据获取方式多是以人工的方式获取数据,最大的特点是手动输入数据,曾有一段时间,超市是通过要求收银员键入用户特征来采集用户数据的,键盘的样子大体上会是如图3-3所示的造型。 

  超市通过这样的方式来收集用户的数据,对收集的数据进行分析,来对用户画像与人群定位。试想在超市每天如此大的接待量情况下,收银员能否保证数据录入的准确性呢?与此同时,通过人工输入的方式每天能够采集多少数据呢?类似的这种键盘记录的方式还有许多人工录入数据的方式不再一一举例,传统记录数据的方式必定只能是小范围的,少量的和准确度欠佳的。而现在的数据获取方式大多是通过URL传输和API接口,大体上数据获取的方式有这样几类:爬虫抓取、用户留存、用户上传、数据交易和数据共享。 

  自有数据与外部数据是数据获取的两个主要渠道。在自有数据中,我们可以通过一些爬虫软件有目的的定向爬取,比如爬取一批用户的微博关注数据,某汽车论坛的各型号汽车的报价等。用户留存多是用户使用了公司的产品或是业务,用户在使用产品或是业务中会留下一系列行为数据,这个构成了我们的数据库主体,通常的数据分析多基于用户留存的数据。用户上传数据诸如持证自拍照、通讯录、历史通话详单等需要用户主动授权提供的数据,这类数据往往是业务运作中的关键数据。相较于自有数据获取,外部数据的获取方式简单许多,绝大多数都是基于API接口的传输,也有少量的数据采用线下交易以表格或文件的形式线下传输。此类数据要么采用明码标价一条数据多少钱,或是进行数据共享,交易双方承诺数据共享,谋求共同发展。 
  至此,我们看到新时代的数据获取形式相较于传统数据获取的方式更加多元、更加高效。 
  同样的大数据与传统数据的传输方式也截然不同。传统数据要么以线下传统文件的方式,要么以邮件或是第三方软件进行传输,而随着API接口的成熟和普及就好像以前的手机充电接口,从千奇百怪、五花八门到今天的两大主要类别:iPhone系统与Android系统。API接口也随着时代的发展逐渐标准化、统一化,一个程序员只用两天的时间就能完成一个API接口开发,而API接口传输数据的效率更是能够达到毫秒级。 
  在数据存储方面,大数据的存储环境相较于传统数据的存储已经跃升了好几个数量级。犹记得十多年前软盘还非常高级,存储量达到20MB的软盘已然很贵,更别说U盘和移动硬盘了。 
  大数据与传统数据的另一个显著差异是数据类型的丰富。传统数据更注重于对象的描述,而大数据更倾向与对数据过程的记录。为了便于大家理解,下面简单的举个例子说明传统数据与大数据的记录方式有何区别。 
  传统数据的记录方式如下表。 

  大数据的记录方式如下表。 

  很明显地看到,传统数据和大数据记录数据的最大区别是大数据不仅对对象进行了描述,还加入了时间、地点等维度,这样的数据记录的是一个过程,从小明进入餐厅之前开始一直到小明离开餐厅,这整个过程都会被记录下来。而传统数据的记录方式更倾向于对结果的简单描述。 
  当然,大数据能记录的用户就餐数据远不局限于上述所列的字段,理想状况的大数据监控甚至会记录用户吃饭的方式、吃饭时的行为、吃饭时的面部表情等一系列数据,这些数据反映了用户对就餐环境的感受,对餐食口味的反应,进一步可以用来改进就餐环境、食物口味,给出点餐建议。 
  大数据与传统数据的核心差异在于其价值的不可估量。传统数据的价值体现在信息传递与表征,是对现象的描述与反馈,让人通过数据去了解数据。而大数据是对现象发生过程的全记录,通过数据不仅能够了解对象,还能分析对象,掌握对象运作的规律,挖掘对象内部的结构与特点,甚至能了解对象自己都不知道的信息。 
  诸如某百科对一个人的描述与概括,记录了这个人的身高、体重、出生年月、兴趣爱好、日常活动、亲朋好友等数据,这些算是传统数据,通过这些传统数据你能知道和认识这个人。如果用大数据的方式来记录一个人,那就可以详细到他几点起床、睡眠质量、身体状况、每个时间点在做什么事等一系列过程数据,通过这些过程数据我们不仅知道和认识这个人,还能知道他的习惯性格,甚至能挖掘出隐藏在生活习惯中的情绪与内心活动等信息。这些都是传统数据所无法体现的,也是大数据承载信息的丰富之处,在丰富的信息背后隐藏着巨大的价值,这些价值甚至能帮助人们达到“所思即所得”的境界。 
  大数据价值的特殊之处就在于它的可挖掘性,同样的一堆数据,不同的人能得到不同层次的东西。就好像同样见一个人,有些人只看他的外貌好不好看,有些人能从他的表情中读出心理活动,从眼神中看出阅历,从衣着打扮中读出品味,从鞋子上读出生活习惯。而这些深层次的非表象的内容需要技巧与实力去挖掘出来,这就是我们说的数据分析与数据挖掘。 
  本文选自《从1开始——数据分析师成长之路》,点此链接可在博文视点官网查看此书。 
                     

  想及时获得更多精彩文章,可在微信中搜索“博文视点”或者扫描下方二维码并关注。
                   

时间: 2024-10-22 04:56:15

大数据与传统数据的相关文章

传统数据与大数据

作者:萝卜(微信:Robbie_Qi) “问世间,大数据为何物,直教人众说纷纭”.一本<Big Data>的书,掀起了大数据的浪潮,不管是IT人士,还是媒体精英,都在议论大数据,春运大数据.出游大数据.美食大数据.阅读大数据……,那么,大数据到底是什么呢?难道量大.数大就是大数据吗?如果是这样,大数据就是炒旧饭了,殊不知电信领域无论从数量规模,还是从数据值在多年前就可以说是大数据了. 现在很多人都用4V来定义大数据,即Volume(大量).Velocity(高速).Variety(多样).Va

康大厨第三讲 | 莫道前路难,传统数据中心的完美逆袭

文/张振华 康鹏 康大厨又上菜啦! 此次康大厨暂别OpenStack,给大家带来新菜:传统数据中心.听这"菜名",似乎与通信网络技术高速发展的现代社会不是很搭呢~那么,就搬个小板凳,听康大厨讲讲传统数据中心的完美逆袭之路吧! 康大厨私人课堂今日第三讲,每周一期,期期不落,总有一款适合你~ ◆  ◆  ◆  ◆  ◆ 技术趋势 数据中心是承载企业的关键业务系统最重要的IT基础设施, 是企业核心数据管理中心.随着企业信息化建设的推进,新一代通信网络技术的不断成熟,以及互联网应用的深化,大量

这些传统数据集成的痛,你还在经历吗?

20多天后,我们将步入2020年.在即将过去的2019年,人工智能.5G.数字货币等技术不断冲击着传统的数据治理模式,你所在的企业是否同样感受到了冲击?在这些难以言说的痛中间,又有多少是传统数据集成所带来的? 今年,随着数据驱动决策的理念逐渐深入人心,越来越多的企业开始逐步对存量的数据资产进行消费,在数据消费过程中引入各种数据集成的工具,来解决数据打通的问题,并用于后端数据消费:如分析报表.数据查询.和数据挖掘等工作. 大数据时代的到来,不仅意味着数据来源更加广泛,数据存储量增加,同时对于数据及

大数据与传统数据分析的不同之处

大数据和以往的信息产出方式相比具有三个明显的特征-数据量大.非结构性和实时性,它创造了一个无限可能的世界.企业正在以史无前例的方式建立和应用大数据解决方案,这些方案不仅能够帮助他们实现收益的最大化,更重要的是他们重新定义了与客户的关系. 企业为何变得如此痴迷?大数据真的和以前大范围数据处理有着如此大的差别么?     ? 抽样数据分析VS全数据分析 直到近期,企业还在使用统计抽样数据技术分析大批量数据.通过这种技术得出数据集之后,企业分析这些推测数据,并在推测结果之上作出预测.但如果使用大数据技

大数据时代的数据存储,非关系型数据库MongoDB

在过去的很长一段时间中,关系型数据库(Relational Database Management System)一直是最主流的数据库解决方案,他运用真实世界中事物与关系来解释数据库中抽象的数据架构.然而,在信息技术爆炸式发展的今天,大数据已经成为了继云计算,物联网后新的技术革命,关系型数据库在处理大数据量时已经开始吃力,开发者只能通过不断地优化数据库来解决数据量的问题,但优化毕竟不是一个长期方案,所以人们提出了一种新的数据库解决方案来迎接大数据时代的到来——NoSQL(非关系型数据库). 为什

如何区分三个大数据热门职业–数据科学家、数据工程师、数据分析师?

随着大数据行业的逐步兴起,相关大数据的职业也成为热门职业,给人才的发展带来了很多机会.数据科学家.数据工程师.数据分析师已经成为大数据行业最热门的职位.那么它们又是如何定义的呢?有什么职责? 1.数据科学家是指能采用科学方法.运用数据挖掘工具对复杂多量的数字.符号.文字.网址.音频或视频等信息进行数字化重现与认识,并能寻找新的数据洞察的工程师或专家(不同于统计学家或分析师). 2.数据工程师一般被定义成“深刻理解统计学科的明星软件工程师”.如果你正为一个商业问题烦恼,那么你需要一个数据工程师.他

企业大数据-之机器数据

机器数据的来源 何为机器数据,就对其字面意思理解,机器产生的数据.那机器数据具体都是怎样的?比如:日志数据.监控摄像图传过来的数据.手机传过来的数据.传感器传过来的.扫码.....几乎遍布生活的点点滴滴. 机器数据的传统解决方案 对于这样的数据,以前的IT运维监控.视频监控软件.动力环境系统都有实现过,主要对设备的健康度阈值做临界告警,而视频中就是对摄像图的传过来的影像分 屏展示,独立环境对机房的温湿度监测,临界告警.以前对于机器数据分析在很大意义上是没有进展的,而分析就是用数据说话,随着大数据

大数据时代的数据存储,非关系型数据库MongoDB(一)

爆炸式发展的NoSQL技术 在过去的很长一段时间中,关系型数据库(Relational Database Management System)一直是最主流的数据库解决方案,他运用真实世界中事物与关系来解释数据库中抽象的数据架构.然而,在信息技术爆炸式发展的今天,大数据已经成为了继云计算,物联网后新的技术革命,关系型数据库在处理大数据量时已经开始吃力,开发者只能通过不断地优化数据库来解决数据量的问题,但优化毕竟不是一个长期方案,所以人们提出了一种新的数据库解决方案来迎接大数据时代的到来——NoSQ

大数据落地的大挑战,明略数据在老环境中寻找新路径

"大数据"一词进入了十九大报告中,报告提出要"推动互联网.大数据.人工智能和实体经济深度融合".换句话说,就是要把大数据这样的先进技术,落地到实际的行业应用和业务场景中,对实体经济发挥真正的作用,创造实在的价值. 从2015年起,"大数据"一词就被移出了Gartner的新兴技术炒作曲线.然而,据有关统计,截至2017年8月初,我国大数据领域有183家企业获得融资,其中A轮81家.天使轮51家,也就是72%的大数据企业仍处于创业初期,商业模式仍有待