Spark概述

1. Spark定义
构建与计算集群之上支持大数据集的快速的通用的处理引擎
a)快速： DAG、Memory
b)通用：集成Spark SQL、Streaming、Graphic、R、Batch Process
c)运行方式：
StandAlone
YARN
Mesos
AWS
d)数据来源：
Hdfs Hbase Tachyon Cassandra Hive
and Any Hadoop Data Source
2.Spark协议栈
2.1 Hadoop生态系统

2.2 Spark协议栈

2.3 Spark VS Mapreduce

MapReduce 与Spark比较
1.what? 处理对象
a)MapReduce:基于磁盘File的大数据处理系统
b）Spark：基于RDD(弹性分布式数据集)，可以显示的将RDD数据存储到磁盘和内存中
2.where(软硬件上下文)？
a)MapReduce: Disk
b)Spark: Mem
3.when？(应用场景)
a)MapReduce：可以处理超大规模数据，适合日志分析挖掘等迭代较少的长任务需求，结合了数据的分布式的计算
b)spark：适合数据的挖掘，机器学习等多伦迭代式计算任务

容错性：
a)数据容错性
MapReduce：容错性基于HDFS 冗余机制 ->安全模式->数据校验->元数据保护
spark：容错性基于RDD，spark容错性比mapreduce容错性低，但在处理效率上优势比较明显
b)节点容错性

时间： 2024-12-06 08:04:48

Spark概述的相关文章

spark概述和安装部署

1.spark概述 1.什么是spark 基于内存的计算引擎,它的计算速度非常快.但是spark仅仅只涉及到数据的计算,没有涉及到数据的存储. 2.为什么学习spark 比mapreduce计算速度快很多. 3.spark特点 1.速度快比mapreduce在内存中快100x,在磁盘中快10x 1.由于mapreduce每次job的中间结果数据都会落地到磁盘中,而spark每次中间结果数据可以不落地(可以保存在内存中) 2.mapreduce任务对应都会产生一些map任务和reduce任务,这

Spark概述及集群部署

Spark概述什么是Spark (官网:http://spark.apache.org) Spark是一种快速.通用.可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目.目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL.Spark Streaming.GraphX.MLlib等子项目,Spark是基于内存计算的大数据并行计算框架.Spark基

Spark教程(2)-Spark概述及相关组件

1.概述 Spark起源于加州大学伯克利分校RAD实验室,起初旨在解决MapReduce在迭代计算和交互计算中的效率低下问题.目前Spark已经发展成集离线计算,交互式计算,流计算,图计算,机器学习等模块于一体的通用大数据解决方案. 2.Spark组件 Spark Core Spark Core 实现了 Spark 的基本功能,包含任务调度.内存管理.错误恢复.与存储系统交互等模块. Spark Core 中还包含了对弹性分布式数据集(resilient distributed dataset

Spark 概述及其高可用集群部署

Spark入门一. 学习目标目标1:熟悉Spark相关概念目标2:搭建一个Spark集群二. Spark概述 2.1什么是Spark(官网:http://spark.apache.org) Spark是一种快速.通用.可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目.目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL.Spark Str

第1节 Spark概述：1 - 4

Spark入门一. 课程目标目标1:熟悉Spark相关概念目标2:搭建一个Spark集群目标3:编写简单的Spark应用程序二. Spark概述 2.1什么是Spark(官网:http://spark.apache.org) Spark是一种快速.通用.可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目.目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包

Spark 概述

Apache Spark 是一个快速的.多用途的集群计算系统.在 Java,Scala,Python 和 R 语言以及一个支持常见的图计算的经过优化的引擎中提供了高级 API.它还支持一组丰富的高级工具,包括用于 SQL 和结构化数据处理的 Spark SQL,用于机器学习的 MLlib,用于图形处理的 GraphX 以及 Spark Streaming. 下载从该项目官网的下载页面获取 Spark,该文档用于 Spark 2.0.2 版本.Spark 使用了用于 HDFS 和 YRAN

spark 概述与安装

概述 spark 是一个快速的通用集群计算系统.它提供了丰富的高水平的api供java,scala和python调用. 安装到官网下载最新版本spark-1.3.1 http://spark.apache.org/downloads.html,这里以这个版本的安装为列,下载后解压,进入到软件根目录,它有两种安装方式,一种通过mvn,另一种通过sbt,两种区别不到,以mvn安装为列说明,执行下面命令 build/mvn -Pyarn -Phadoop-2.4 -Dhadoop.version=2

spark概述随笔 // todo

1.spark是一个apache开源项目 2.spark可以提升程序运行速度,spark在100TB数据比赛中战胜hadoop,并且只使用了十分之一的机器. 3.spark提供了java,scala和python语言api支持 4.spark可以与hadoop生态系统和数据源很好的集成. 5.spark可以运行在yarn和mesos管理的集群上. 6.spark核心由spark sql.spark streaming.mllib.graphX组成. 7.spark core是基本引擎,用于大规模

Spark全面精讲视频_Spark2.0视频

Spark全面精讲(基于Spark2版本+含Spark调优+超多案例) 课程观看地址:http://www.xuetuwuyou.com/course/149 课程出自学途无忧网:http://www.xuetuwuyou.com/ 课程分五个阶段,共115课时! 第一阶段 Spark内核深度剖析第00节课-课程特色和学习方式第一节课-Spark概述(四大特性) 第二节课-Spark入门第三节课-什么是RDD? 第四节课-spark架构第五节课-linux环境准备(虚拟机,linux)

猜你喜欢

android多cpu架构适配开篇

简介:做项目的时候经常会使用到so文件.例如使用高德地图,其SDK中就包含了armeabi.armeabi-v7a.arm64-v8a.x86等其他文件夹,里面通常放着同样名称.同样数量的so文件.实 ...

JavaScript的callee 属性

返回正被执行的 Function 对象,即指定的 Function 对象的正文. [function.]arguments.callee 备注可选 function 参数是当前执行的 Functio ...

集训 0620

T1: 要求你在一颗树上做背包,并且遍历这棵树的每个节点,内存要求不能超过20M. 嗯...很坑,在写了分块之后,我发现被卡了,O2下1.2秒正好,非O2下3秒左右,时限1.7秒,哔了狗了. 能得60 ...

Unity录音

上周做过Unity录音,(不知道的可以到网上查找一下,代码挺多的),不过只能录制麦克风的声音,项目需要同时录制背景音和麦克风传进去的声音,经过探索,现已可以录制: 首先需要知道,即使用电脑录音,想录制 ...

Signalr简单入门，使用注意点

注意点:1,创建proxy代理时候,继承了hub的类,方法名在js中,同名,但是默认首字母是小写,2,js中代理毁掉方法的名称和继承了hub的类的方法中的Clients.All.的对象名称要一致(名称 ...

而体育上的故事

http://weheartit.com/touhuanfang/collections/76692931-2015-01-07/ http://weheartit.com/jiazefan/c ...

Python全栈开发之12、html

从今天开始,本系列的文章会开始讲前端,从htnl,css,js等,关于python基础的知识可以看我前面的博文,至于python web框架的知识会在前端学习完后开始更新. 一.html相关概念 ht ...

201509280825_《css3——media query整理2》

1.Smartphones (竖板和横板) @media only screen and (min-device-width : 320px) and (max-device-width : 480p ...

Apache Tomcat Architecture

Architecture Overview Overview This page provides an overview of the Tomcat server architecture. Ter ...

存储过程与事务

USE BOOK GO --删除表 IF OBJECT_ID('tb_Money') IS NOT NULL DROP TABLE tb_Money GO --创建表 CREATE TABLE tb_ ...

我的开发环境

设计一宿主机 macbook 客户机1 windows 7 64bit 客户机2 CentOS 6.3 64bit 客户机3 Fedora 17 64bit 设计二宿主机 macbook 客户机 ...

python2.7连接mysql数据库，并从插入数据

需要先导入mysqldb这个模块 import MySQLdbconn= MySQLdb.connect( host='localhost', #主机,127.0.0.1 port = 3306, # ...

拿搬东西来解释udp tcpip bio nio aio aio异步

[群主]雷欧纳德简单理解 tcpip是有通信确认的面对面通信有打招呼的过程有建立通道的过程有保持通道的确认有具体传输 udp是看到对面的人好像在对面等你就往对面扔东西[群主]雷欧 ...

Android中Task任务栈的分配

首先我们来看下Task的定义,Google是这样定义Task的:a task is what the user experiences as an "application." I ...

险致战机在北京上空出意外

http://www.zhihu.com/people/gasas06488http://www.zhihu.com/people/gasas06488/askshttp://www.zhihu.co ...

Android中ScrollView嵌套ListView只显示一行的解决方案

Android中ScrollView嵌套ListView只显示一行的解决方案解决方案1: 直接把包含ListView控件的ScrollView控件从布局文件中去除,留下ListView控件,这是最简 ...

[转] offsetParent 到底是哪一个？

正文不同情况没有已定位的父节点,且自身position:relative的DIV元素的offsetParent为BODY 没有已定位的父节点,且自身position: absolute的DIV元素 ...

[css3]叉叉旋转效果

.close_frame{display:inline-block;height:14px;width:14px;background:url("../images/closeiframe. ...

你好大

lll public static void main(String[]args){ System.out.println("helloworld!"); } //这是一个代码块 ...

etcd学习记录

参考资料: etcd:从应用场景到实现原理的全方位解读 etcd:用于服务发现的键值存储系统 Etcd学习(一)安装和.NET客户端测试 Etcd学习(二)集群搭建Clustering

专题

随机推荐

© 2025 憋错料 | info#biecuoliao.com | 10 q. 0.026 s.