大数据的概述

一、什么是大数据

四个特性(4个V)

数据量大(Volume)

  • 大数据摩尔定律:IDC估测数据一直以50%的速度增长,到2020年,全球将拥有35ZB的数据量。(GB>TB>PB>EB>ZB)

快速化(Velocity)

  • 处理速度快,1秒级决策

多样化(Varity)

  数据类型繁多,大部分为非结构化数据。(文本,图像,视频等等等等)

  • 10%结构化数据,储存在数据库中
  • 90%非结构化数据,与人类信息密切相关

价值密度低(Value)

  • 价值密度低,很多数据并没有价值,可能有用的数据比例很低,但确有巨大的商业价值

二、大数据的影响

1、Jim Gary总结在科学研究上,人类从实验,理论,计算(计算机)发展到了数据时代。现代可以以数据为驱动,比如我们不知道问题是什么,可以仅仅通过分析数据,从而发现问题,并解决问题。

2、大数据颠覆了传统的思维方式

-  全样而非抽样

  • 由于存储和计算的技术发展,现在可以处理全部数据而不需要做统计抽样。

- 效率而非精确

  • 统计抽样要求算法精度非常高,不然放在全样时误差会被放得特别大。而现在可以全样分析,是多大误差就多大误差,我们现在更注重计算的效率。

- 相关而非因果

  • 不问为什么,只找关联。(比如淘宝告诉用户,买产品A的用户同时买了产品B,不会告诉用户为什么买产品B,只陈述这样的相关事实)

三、大数据的应用

典型应用实例

1、影视剧投资

例如:某公司对整个互联网作大数据分析,发现如果有导演大卫芬奇,影帝凯文史派西拍摄著名小说《纸牌屋》会取得成功,这也是美剧《纸牌屋》的由来。

2、谷歌预测流感

过去由各个医疗机构汇报趋势再汇总,判断是否有流感趋势,这个过程非常缓慢。

而谷歌拥有大量用户,从用户搜索流感药品的关键词,通过大数据技术,实时分析以后就可以得出是否有流感趋势,实时性非常高。

四、大数据关键技术

  1. 数据采集
  2. 数据存储和管理
  3. 数据处理与分析
  4. 数据隐私与安全

最关键的两点,两大核心技术:

  1. 分布式存储
  2. 分布式处理

大数据的计算模式

  1. 批处理计算:MapReduce, Spark (实时性低,不能做到秒级相应)。
  2. 流计算:比如日志流,用户点击流,数据一直到达。一旦批量处理则失去商业性。Storm, S4,Flume等。
  3. 图计算:图形结构的处理。 Pregel, GraphX, Giraph等。
  4. 查询分析计算: 交互式查询分析。Dremel, Hive, Cassandra等等。这类实时性很高。

五、大数据与云计算、物联网的关系。

云计算:通过网络,以服务的方式为用户提供非常廉价的IT资源(不再需要自己底层构建设施:建机房,维护设备等等。云计算也有自己的数据中心,一般由数千个刀片服务器组成)。

云计算主要解决两个问题:

  1. 解决海量的分布式存储和处理
  2. 虚拟化,多租户

云计算的三种服务

IaaS(Infrastructure as a Service): Amazon EC2,IBM Blue Cloud,Sun Grid

  • 把底层设施当做服务提供给用户

Paas(Platform as a Service): IBM IT factory, Google App Engine, Force.com

  • 云计算的开发环境,提供各种接口,满足客户开发云产品的需求。

SaaS(Software as a Service): Google Apps, Microsoft "Software + Services"

  • 软件放在云端,不再需要本地安装,只要有网络,则可以在云端使用软件。

物联网(Internet of Things, IOT):物物相连的互联网,是互联网的延伸。比如掌上公交,可以用手机实时定位公交,等于把你的手机和公交实时连接在了一起。

  1. 第一层:感知层,传感器,摄像头等等。
  2. 第二场:网络层,通过网络传到数据中心。电信网,互联网,电网等等。
  3. 第三层:处理层
  4. 第四层:应用层

物联网的关键技术

最关键的是感知技术:二维码,RFID,传感器等等。

总结:云计算为大数据提供了技术基础。大数据为物联网提供数据分析支撑。物联网为云计算提供了应用空间。

原文地址:https://www.cnblogs.com/learnwhileucan/p/10171290.html

时间: 2024-10-18 02:15:26

大数据的概述的相关文章

2019大数据学习方向【最新分享】

一.大数据运维之Linux基础打好Linux基础,以便更好地学习Hadoop,hbase,NoSQL,Spark,Storm,docker,openstack等.因为企业中的项目基本上都是使用Linux环境下搭建或部署的. 1)Linux系统概述2)系统安装及相关配置?3)Linux网络基础?4)OpenSSH实现网络安全连接?5)vi文本编辑器 6)用户和用户组管理7)磁盘管理?8)Linux文件和目录管理?9)Linux终端常用命令?10)linux系统监测与维护 二.大数据开发核心技术 -

合格大数据分析师应该具备的技能

阶段一.业务数据分析师 课程一.数据挖掘/分析师之硬技能 - 必备常用工具使用与高级技巧 本部分内容主要介绍了数据挖掘.分析师.数据产品经理必备的常用工具的,主要有 Excel,Visio,Xmind,PPT的涉及图表数据分析方面的高级技巧,包括但不限于:数据透视表演练.Vision跨职能流程图演练.Xmind项目计划导图演练.PPT高级动画技巧等! 一.Excel 1)数据分析工具EXECL入门介绍2)数据透视表演练 3) 数据处理4) EXECL报告自动化5) PPT报告数据自动化 二.Vi

Laxcus大数据管理系统(2)- 第一章 基础概述 1.1 基于现状的一些思考

第一章 基础概述 1.1 基于现状的一些思考 在过去十几年里,随着互联网产业的普及和高速发展,各种格式的互联网数据也呈现爆炸性增长之势.与此同时,在数据应用的另一个重要领域:商业和科学计算,在各种新兴技术和产业需求的推动下,对数据存储和计算要求也日益提高,并且对计算数据的准确性和精度也远高于互联网数据.而在这些现象的背后,当前的数据计算早已经突破MB量级,GB成为常态,TB变得流行,正在向PB迈进的时候,面对如此庞大的数据量,如果管理和使用它们,满足各种计算需求,发现和筛选其中有价值的信息,通常

大数据学校(二)hadoop概述及Google的三篇论文

学习大数据,学什么?怎么学? 1.原理和运行机制.体系结构(非常重要)2.动手:搭建环境.写程序 目的:1.学习内容 2.熟悉一些名词 一.各章概述(Hadoop部分) (一).Hadoop的起源与背景知识 1.什么是大数据?两个例子.大数据的核心问题是什么? 举例: (1)商品推荐:问题1:大量的订单如何存储? 问题2:大量的订单如何计算? (2)天气预报:问题1:大量的天气数据如何存储? 问题2:大量的天气数据如何计算? 大数据的核心问题: (1)数据的存储:分布式文件系统(分布式存储)(2

大数据技术之_20_Elasticsearch学习_01_概述 + 快速入门 + Java API 操作 + 创建、删除索引 + 新建、搜索、更新删除文档 + 条件查询 + 映射操作

一 概述1.1 什么是搜索?1.2 如果用数据库做搜索会怎么样?1.3 什么是全文检索和 Lucene?1.4 什么是 Elasticsearch?1.5 Elasticsearch 的适用场景1.6 Elasticsearch 的特点1.7 Elasticsearch 的核心概念1.7.1 近实时1.7.2 Cluster(集群)1.7.3 Node(节点)1.7.4 Index(索引 --> 数据库)1.7.5 Type(类型 --> 表)1.7.6 Document(文档 -->

大数据学习之Storm实时计算概述及安装部署33

一:Storm概述 网址:http://storm.apache.org/ ApacheStorm是一个免费的开源分布式实时计算系统.Storm可以轻松可靠地处理无限数据流,实现Hadoop对批处理所做的实时处理.Storm非常简单,可以与任何编程语言一起使用,并且使用起来很有趣! Storm有许多用例:实时分析,在线机器学习,连续计算,分布式RPC,ETL等.风暴很快:一个基准测试表示每个节点每秒处理超过一百万个元组.它具有可扩展性,容错性,可确保您的数据得到处理,并且易于设置和操作. Sto

一分钟了解阿里云产品:大数据计算服务MaxCompute概述

阿里云发布了许多产品,今天让我们来了解下大数据计算服务MaxCompute这款产品吧. 什么是MaxCompute呢? MaxCompute是由阿里云自主研发,是阿里巴巴自主研发的海量数据处理平台.提供针对TB/PB级数据.实时性要求不高的分布式处理能力,应用于数据分析.挖掘.商业智能等领域.主要服务于批量结构化数据的存储和计算,可以提供海量数据仓库的解决方案以及针对大数据的分析建模服务.阿里巴巴的离线数据业务都运行在MaxCompute上. MaxCompute有什么优势和特点呢?下面让我来简

Laxcus大数据管理系统(3)- 第一章 基础概述 1.2 产品特点

1.2 产品特点 Laxcus大数据管理系统运行在计算机集群上,特别强调软件对分布资源可随机增减的适应性.这种运行过程中数据动态波动和需要瞬时感知的特点,完全不同与传统的集中处理模式.这个特性衍生出一系列的新变化,需要重新审视产品的目标,设计新的架构,当我们把这些需求和定位综合起来,然后逐一分解归并后,最终形成与以往完全不同的结果. 1.2.1 以节点为单位的计算集群 在Laxcus设计里,节点是计算机集群的基本单位.相较与物理性质的计算机来说,节点是一个逻辑概念的单位.以一台实体计算机为例,在

大数据入门第零天——总体课程体系概述

主要包括以下几大块: 大数据基础课程     离线数据分析 离线数据分析hbase 实时数据分析 Scala函数式编程 Spark内存计算 机器学习增强 前五天的课程都是基础课,主要包含Linux基础,shell编程基础以及Java中的多线程.JVM等基础知识,如果你没有相关的基础知识,请自己提前学习. 离线部分课程主要包括:hadoop.hive.flume.azkban.hbase等以及项目实战 实时部分课程主要包括:storm.kafka.redis以及项目实战 内存计算部分课程主要包括: