分分钟理解大数据基础之Spark

一背景

Spark 是 2010 年由 UC Berkeley AMPLab 开源的一款基于内存的分布式计算框架，2013 年被Apache 基金会接管，是当前大数据领域最为活跃的开源项目之一

Spark 在 MapReduce 计算框架的基础上，支持计算对象数据可以直接缓存到内存中，大大提高了整体计算效率。特别适合于数据挖掘与机器学习等需要反复迭代计算的场景。

二特性

高效：Spark提供 Cache 机制，支持需要反复迭代的计算或者多次数据共享，基于Spark 的内存计算比 Hadoop MapReduce 快100倍。

易用：Spark提供 20 多种数据集操作类型，并支持使用 Python 和 Scala 脚本开发应用。

先进架构：Spark采用 Scala 语言编写，基于 DAG 图的执行引擎，减少多次计算之间中间结果写到 HDFS 的开销。

三应用场景

Spark之上有四种应用工具库。

Spark Streaming: 用于流式计算。

MLlib：用于机器学习（聚类、协同过滤等）。

Spark SQL：用于处理结构化数据。

GraphX：用于图和图并行计算的API。

目前主要应用在广告精准投放系统、日志报表即时查询、以及推荐系统等业务场景。这些应用场景的共同特点是计算量大且效率要求高。

四部署模式

Spark有三种部署模式。

Standalone：使用Spark自带的集群管理器。

Spark on Mesos：使用 Mesos 管理资源。

Spark on YARN：使用 YARN 管理资源。

五任务流程

Spark重要组件包括 Driver Program（Driver）和Executor。以 Standalone（Driver 运行在 Client）模式为例介绍任务执行流程。

客户端运行用户程序，启动 Driver。

Driver将作业转换为DAG图(类似数据处理的流程图)，根据策略将DAG图划分为多个Stage，最终生成一系列最小可执行的Task。

Driver根据Task的需求，向Master申请运行Task所需的资源。

Master为Task调度分配满足需求的Worker节点，在Worker节点启动Exeuctor。

Exeuctor启动后向Driver注册。

Driver将Task调度到Exeuctor执行。

Executor执行结果写入文件或返回Driver。

很多初学者，对大数据的概念都是模糊不清的，大数据是什么，能做什么，学的时候，该按照什么线路去学习，学完往哪方面发展，想深入了解，想学习的同学欢迎加入大数据学习qq群：458345782，有大量干货（零基础以及进阶的经典实战）分享给大家，并且有清华大学毕业的资深大数据讲师给大家免费授课，给大家分享目前国内最完整的大数据高端实战实用学习流程体系。

原文地址：http://blog.51cto.com/14042734/2317197

时间： 2024-12-14 09:32:27

分分钟理解大数据基础之Spark的相关文章

【原创】大数据基础之Spark（7）spark读取文件split过程（即RDD分区数量）

spark 2.1.1 spark初始化rdd的时候,需要读取文件,通常是hdfs文件,在读文件的时候可以指定最小partition数量,这里只是建议的数量,实际可能比这个要大(比如文件特别多或者特别大时),也可能比这个要小(比如文件只有一个而且很小时),如果没有指定最小partition数量,初始化完成的rdd默认有多少个partition是怎样决定的呢? 以SparkContext.textfile为例来看下代码: org.apache.spark.SparkContext /** * Re

【原创】大数据基础之Spark（4）RDD原理及代码解析

一简介 spark核心是RDD,官方文档地址:https://spark.apache.org/docs/latest/rdd-programming-guide.html#resilient-distributed-datasets-rdds官方描述如下:重点是可容错,可并行处理 Spark revolves around the concept of a resilient distributed dataset (RDD), which is a fault-tolerant colle

大数据实时处理-基于Spark的大数据实时处理及应用技术培训

随着互联网.移动互联网和物联网的发展,我们已经切实地迎来了一个大数据的时代.大数据是指无法在一定时间内用常规软件工具对其内容进行抓取.管理和处理的数据集合,对大数据的分析已经成为一个非常重要且紧迫的需求.目前对大数据的分析工具,首选的是Hadoop/Yarn平台,但目前对大数据的实时分析工具,业界公认最佳为Spark.Spark是基于内存计算的大数据并行计算框架,Spark目前是Apache软件基金会旗下,顶级的开源项目,Spark提出的DAG作为MapReduce的替代方案,兼容HDFS.H

成都大数据Hadoop与Spark技术培训班

成都大数据Hadoop与Spark技术培训班中国信息化培训中心特推出了大数据技术架构及应用实战课程培训班,通过专业的大数据Hadoop与Spark技术架构体系与业界真实案例来全面提升大数据工程师.开发设计人员的工作水平,旨在培养专业的大数据Hadoop与Spark技术架构专家,更好地服务于各个行业的大数据项目开发和落地实施. 2015年近期公开课安排:(全国巡回开班) 08月21日——08月23日大连 09月23日——09月25日北京 10月16日——10月18日成都 11月27日——11月2

区块链这些技术与h5房卡斗牛平台出售，大数据基础软件干货不容错过

在IT产业发展中,包括CPU.操作系统h5房卡斗牛平台出售官网:h5.super-mans.com 企娥:2012035031 vx和tel:17061863513 h5房卡斗牛平台出售在内的基础软硬件地位独特,不但让美国赢得了产业发展的先机,成就了产业巨头,而且因为技术.标准和生态形成的壁垒,主宰了整个产业的发展.错失这几十年的发展机遇,对于企业和国家都是痛心的. 当大数据迎面而来,并有望成就一个巨大的应用和产业机会时,企业和国家都虎视眈眈,不想错再失这一难得的机遇.与传统的IT产业一样,大

大数据基础教程：创建RDD的二种方式

大数据基础教程:创建RDD的二种方式 1.从集合中创建RDD val conf = new SparkConf().setAppName("Test").setMaster("local") val sc = new SparkContext(conf) //这两个方法都有第二参数是一个默认值2 分片数量(partition的数量) //scala集合通过makeRDD创建RDD,底层实现也是parallelize val

网易大数据平台的Spark技术实践

网易大数据平台的Spark技术实践作者王健宗网易的实时计算需求对于大多数的大数据而言,实时性是其所应具备的重要属性,信息的到达和获取应满足实时性的要求,而信息的价值需在其到达那刻展现才能利益最大化,例如电商网站,网站推荐系统期望能实时根据顾客的点击行为分析其购买意愿,做到精准营销. 实时计算指针对只读(Read Only)数据进行即时数据的获取和计算,也可以成为在线计算,在线计算的实时级别分为三类:Real-Time(msec/sec级).Near Real-Time(min/hours

DT大数据梦工厂Spark机器学习相关视频资料

大数据未来几年发展的重点方向,大数据战略已经在十八届五中全会上作为重点战略方向,中国在大数据方面才刚刚起步,但是在美国已经产生了上千亿的市场价值.举个例子,美国通用公司是一个生产飞机发动机的一个公司,这家公司在飞机发动机的每一个零部件上都安装了传感器,这些传感器在飞机发动机运作的同时不断的把发动机状态的数据传到通用公司的云平台上,通用公司又有很多数据分析中心专门接受这些数据,根据大数据的分析可以随时掌握每一家航空公司发动机的飞行状况,可以告知这些航空公司发动机的哪些部件需要检修或保养,避免飞机事

大数据学习，大数据发展趋势和Spark介绍

大数据是随着计算机技术.通信技术.互联网技术的发展而产生的一种现象.以前我们没有实现人和人之间的连接,产生的数据没有现在这么多:或者说没有把产生的数据记录下来:即使记录下来,我们也没有很好的工具对这些数据进行处理.分析和挖掘.而随着大数据技术的发展,我们开始逐渐地拥有这种能力,来发掘数据中的价值.大数据技术在2012年之前是以MapReduce为代表的批处理技术:2013年之后,则是以Spark为代表的大数据处理引擎:展望未来,大家越来越关注人工智能和大数据的结合,希望通过人工智能技术从大数据中