一、什么是大数据
四个特性(4个V)
数据量大(Volume)
- 大数据摩尔定律:IDC估测数据一直以50%的速度增长,到2020年,全球将拥有35ZB的数据量。(GB>TB>PB>EB>ZB)
快速化(Velocity)
- 处理速度快,1秒级决策
多样化(Varity)
数据类型繁多,大部分为非结构化数据。(文本,图像,视频等等等等)
- 10%结构化数据,储存在数据库中
- 90%非结构化数据,与人类信息密切相关
价值密度低(Value)
- 价值密度低,很多数据并没有价值,可能有用的数据比例很低,但确有巨大的商业价值
二、大数据的影响
1、Jim Gary总结在科学研究上,人类从实验,理论,计算(计算机)发展到了数据时代。现代可以以数据为驱动,比如我们不知道问题是什么,可以仅仅通过分析数据,从而发现问题,并解决问题。
2、大数据颠覆了传统的思维方式
- 全样而非抽样
- 由于存储和计算的技术发展,现在可以处理全部数据而不需要做统计抽样。
- 效率而非精确
- 统计抽样要求算法精度非常高,不然放在全样时误差会被放得特别大。而现在可以全样分析,是多大误差就多大误差,我们现在更注重计算的效率。
- 相关而非因果
- 不问为什么,只找关联。(比如淘宝告诉用户,买产品A的用户同时买了产品B,不会告诉用户为什么买产品B,只陈述这样的相关事实)
三、大数据的应用
典型应用实例
1、影视剧投资
例如:某公司对整个互联网作大数据分析,发现如果有导演大卫芬奇,影帝凯文史派西拍摄著名小说《纸牌屋》会取得成功,这也是美剧《纸牌屋》的由来。
2、谷歌预测流感
过去由各个医疗机构汇报趋势再汇总,判断是否有流感趋势,这个过程非常缓慢。
而谷歌拥有大量用户,从用户搜索流感药品的关键词,通过大数据技术,实时分析以后就可以得出是否有流感趋势,实时性非常高。
四、大数据关键技术
- 数据采集
- 数据存储和管理
- 数据处理与分析
- 数据隐私与安全
最关键的两点,两大核心技术:
- 分布式存储
- 分布式处理
大数据的计算模式
- 批处理计算:MapReduce, Spark (实时性低,不能做到秒级相应)。
- 流计算:比如日志流,用户点击流,数据一直到达。一旦批量处理则失去商业性。Storm, S4,Flume等。
- 图计算:图形结构的处理。 Pregel, GraphX, Giraph等。
- 查询分析计算: 交互式查询分析。Dremel, Hive, Cassandra等等。这类实时性很高。
五、大数据与云计算、物联网的关系。
云计算:通过网络,以服务的方式为用户提供非常廉价的IT资源(不再需要自己底层构建设施:建机房,维护设备等等。云计算也有自己的数据中心,一般由数千个刀片服务器组成)。
云计算主要解决两个问题:
- 解决海量的分布式存储和处理
- 虚拟化,多租户
云计算的三种服务
IaaS(Infrastructure as a Service): Amazon EC2,IBM Blue Cloud,Sun Grid
- 把底层设施当做服务提供给用户
Paas(Platform as a Service): IBM IT factory, Google App Engine, Force.com
- 云计算的开发环境,提供各种接口,满足客户开发云产品的需求。
SaaS(Software as a Service): Google Apps, Microsoft "Software + Services"
- 软件放在云端,不再需要本地安装,只要有网络,则可以在云端使用软件。
物联网(Internet of Things, IOT):物物相连的互联网,是互联网的延伸。比如掌上公交,可以用手机实时定位公交,等于把你的手机和公交实时连接在了一起。
- 第一层:感知层,传感器,摄像头等等。
- 第二场:网络层,通过网络传到数据中心。电信网,互联网,电网等等。
- 第三层:处理层
- 第四层:应用层
物联网的关键技术
最关键的是感知技术:二维码,RFID,传感器等等。
总结:云计算为大数据提供了技术基础。大数据为物联网提供数据分析支撑。物联网为云计算提供了应用空间。
原文地址:https://www.cnblogs.com/learnwhileucan/p/10171290.html