大数据分析处理框架——离线分析(hive,pig,spark)、近似实时分析(Impala)和实时分析(storm、spark streaming)

大数据分析处理架构图

数据源: 除该种方法之外,还可以分为离线数据、近似实时数据和实时数据。按照图中的分类其实就是说明了数据存储的结构,而特别要说的是流数据,它的核心就是数据的连续性和快速分析性;

计算层: 内存计算中的Spark是UC Berkeley的最新作品,思路是利用集群中的所有内存将要处理的数据加载其中,省掉很多I/O开销和硬盘拖累,从而加快计算。而Impala思想来源于Google Dremel,充分利用分布式的集群和高效存储方式来加快大数据集上的查询速度,这也就是我上面说到的近似实时查询;底层的文件系统当然是HDFS独大,也就是Hadoop的底层存储,现在大数据的技术除了微软系的意外,基本都是HDFS作为底层的存储技术。上层的YARN就是MapReduce的第二版,和在一起就是Hadoop最新版本。基于之上的应用有Hive,Pig Latin,这两个是利用了SQL的思想来查询Hadoop上的数据。

时间: 2024-10-01 03:52:26

大数据分析处理框架——离线分析(hive,pig,spark)、近似实时分析(Impala)和实时分析(storm、spark streaming)的相关文章

大数据分析处理必备工具

大数据技术,就是从各种类型的数据中快速获得有价值信息的技术.大数据领域已经涌现出了大量新的技术,它们成为大数据采集.存储.处理和展现的有力武器. 一.大数据接入   1.大数据接入       已有数据接入.实时数据接入.文件数据接入.消息记录数据接入.文字数据接入.图片数据接入.视屏数据接入   2.大数据接入技术       Kafka.ActiveMQ.ZeroMQ.Flume.Sqoop.Socket(Mina.Netty).ftp/sftp 二.大数据存储   1.大数据存储    

“大数据分析高级工程师”培训

“大数据分析高级工程师”培训 课程背景: 随着云时代的来临,大数据技术将具有越来越重要的战略意义.大数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产要素,人们对于海量数据的运用将预示着新一轮生产率增长和消费者盈余浪潮的到来.大数据分析技术将帮助企业用户在合理时间内攫取.管理.处理.整理海量数据,为企业经营决策提供积极的帮助.大数据分析作为数据存储和挖掘分析的前沿技术,广泛应用于物联网.云计算.移动互联网等战略性新兴产业.虽然大数据目前在国内还处于初级阶段,但是其商业价值已经显现出来.为

使用Storm实现实时大数据分析

摘要:随着数据体积的越来越大,实时处理成为了许多机构需要面对的首要挑战.Shruthi Kumar和Siddharth Patankar在Dr.Dobb’s上结合了汽车超速监视,为我们演示了使用Storm进行实时大数据分析.CSDN在此编译.整理. 简单和明了,Storm让大数据分析变得轻松加愉快. 当今世界,公司的日常运营经常会生成TB级别的数据.数据来源囊括了互联网装置可以捕获的任何类型数据,网站.社交媒体.交易型商业数据以及其它商业环境中创建的数据.考虑到数据的生成量,实时处理成为了许多机

《云计算架构技术与实践》连载20:2.4.5 大数据分析云

2.4.5大数据分析云 基于云计算总体架构下的大数据分析云解决方案,如图2-33所示. 图2-33 大数据分析云解决方案架构子系统组合 大数据分析云解决方案为海量静态数据批处理以及大流量动态流数据处理为关键特征的企业及行业应用场景提供支撑,通过自动化提取与归纳价值信息实现业务增值.大数据分析云由云计算的并行数据分析与挖掘平台所支撑,可充分利用云计算底层能力创造最大价值. 在海量静态数据批处理的场景下,大数据分析平台需要充分分析经过相当长一段时间积累的,存储容量庞大的历史数据(如话单.日志.话统信

大数据分析工具采购指南

  大数据分析工具使用户能够分析各种各样的信息--包括结构化事务数据和社交媒体帖子.Web服务器日志文件及其他形式的非结构化和半结构化数据.一旦组织决定要购买一个大数据分析工具,下一步就是制定一个流程,评估可用的产品,然后从中找到一个最适合你需求和要求的产品. 下面我们将介绍在评估各种大数据分析工具符合企业需求的程度时可能用到的必备特性和特定属性.然后,你再编写一个预案请求(RFP),说明使用这些工具将如何解决组织的需求. 一.  建模技术的广度与深度 供应商已经应用了不同级别的建模,并且相应地

基于Hadoop离线大数据分析平台项目实战

基于Hadoop离线大数据分析平台项目实战  课程学习入口:http://www.xuetuwuyou.com/course/184 课程出自学途无忧网:http://www.xuetuwuyou.com 课程简介: 某购物电商网站数据分析平台,分为收集数据.数据分析和数据展示三大层面.其中数据分析主要依据大数据Hadoop生态系统常用组件进行处理,此项目真实的展现了大数据在企业中实际应用. 课程内容 (1)文件收集框架 Flume ①Flume 设计架构.原理(三大组件) ②Flume 初步使

Flume+Hadoop+Hive的离线分析系统基本架构

PS:历史原因作者账号名为:ymh198816,但事实上作者的生日并不是1988年1月6日 最近在学习大数据的离线分析技术,所以在这里通过做一个简单的网站点击流数据分析离线系统来和大家一起梳理一下离线分析系统的架构模型.当然这个架构模型只能是离线分析技术的一个简单的入门级架构,实际生产环境中的大数据离线分析技术还涉及到很多细节的处理和高可用的架构.这篇文章的目的只是带大家入个门,让大家对离线分析技术有一个简单的认识,并和大家一起做学习交流. 离线分析系统的结构图 整个离线分析的总体架构就是使用F

大数据分析之技术框架整理

大数据离线部分 HDFS 1:HDFS的架构部分及工作原理 NameNode:负责管理元素据,将信息保存在内存中 DataNode:保存数据,以块的形式保存.启动后需要定时的向NameNode发送心跳,报告自身存储的块信息 2:HDFS的上传过程 3:HDFS的下载 4:NameNode的元数据安全机制 以记日志的形式将每一个操作写在磁盘的日志文件中,然后借助Secondary NameNode的checkpoint功能将fsImage和日志进行合并. 重点:记住checkpoint工作过程 5

电商大数据项目(二)-推荐系统实战之实时分析以及离线分析

电商大数据项目-推荐系统实战(一)环境搭建以及日志,人口,商品分析http://blog.51cto.com/6989066/2325073电商大数据项目-推荐系统实战之推荐算法http://blog.51cto.com/6989066/2326209电商大数据项目-推荐系统实战之实时分析以及离线分析http://blog.51cto.com/6989066/2326214 五.实时分析Top IP(实时分析Top用户)一)模块介绍电商网站运营中,需要分析网站访问排名前N的IP,主要用来审计是否