Spark-Unit1-spark概述与安装部署

一、Spark概述

　　spark官网：spark.apache.org

　　Spark是用的大规模数据处理的统一计算引擎，它是为大数据处理而设计的快速通用的计算引擎。spark诞生于加油大学伯克利分校AMP实验室。

　　mapreduce（MR）与spark的对比：

　　　　1.MR在计算中产生的结果存储在磁盘上，spark存储在内存中；

　　　　2.磁盘运行spark的速度是MR的10倍，内存运行spark是MR的100多倍；

　　　　3.spark并不是为了替代Hadoop，而是为了补充Hadoop；

　　　　4.spark没有存储，但他可以继承HDFS。

　　Spark启用的是内存分布式数据集，而Scala语言可以轻松的处理分布式数据集，Scala语言可以说是为Spark而生的，而Spark 的出现推动了Scala语言的发展。

二、Spark特点

　　1.速度快

　　　　磁盘运行spark的速度是MR的10倍，内存运行spark是MR的100多倍；

　　　　Spark使用最先进的DAG调度程序，查询优化器和物理执行引擎，实现批处理和流处理的高性能。

　　　　注释：DAG：有向无环图，上一个RDD的计算结果作为下一个RDD计算的初始值，可以迭代成千上万次。

　　　　　　查询优化器：指的是spark sql

　　　　　　　批处理：spark sql

　　　　　　　流处理：spark streaming

　　2.便于使用

　　　　支持Java/Scala/python/R/SQL编写应用程序

　　3.通用性高

　　　　不仅支持批处理、流处理，

　　　　还支持机器学习（MLlib:machine learning library）和图形计算（GraphX）

　　4.兼容性高

　　　　Spark运行在Hadoop，Apache Mesos。Kubernetes，独立或云端。它可以访问各种数据源。

　　　　Spark实现了Standalone模式作为内置的资源管理和调度框架。

三、Spark的安装部署

　　1.准备工作：

　　　　新建三台虚拟机（建议2G内存，1G也可以）/使用远程连接工具连接 / 关闭防火墙 / 修改主机名

　　　　/ 修改映射文件 / 设置免密登陆 / 安装jdk（1.8以上版本）

　　2.在官网下载spark 安装包（我是2.2.0版本）

　　　　然后上传到Linux系统，解压，删包，重命名

　　3.修改spark部分配置文件

　　　　进入spark->conf

　　　　1）重命名spark-env.sh.template 为 spark-env.sh，进入该文件

　　　　添加配置信息：

　　　　export JAVA_HOME=/root/sk/jdk1.8.0_132　　　　//jdk安装路径

　　　　export SPARK_MASTER_HOST=spark-01　　　　//spark主节点机器名

　　　　export SPARK_MASTER_PORT=7077　　　　　 //spark主机点端口号

　　　　2）重命名slaves.template(好像是这个)为slaves，进入该文件

　　　　删除最后一行“localhost”

　　　　添加:spark-02

　　　　　　 spark-03　　　　//其他两台从节点worker，便于一键启动

　　4.发送修改好的spark解压文件夹到其他两台机器

　　　　scp -r sprk sprk-02:$PWD

　　5.启动spark，访问web页面

　　　　在spark 的sbin目录下输入命令：

　　　　./start-all.sh

　　　　然后通过ip:端口号访问UI界面，如：

　　　　192.168.50.186:8080

四、Spark的UI界面详解
　　 URL：统一资源定位符，spark-master的访问地址
　　REST URL：可以通过rest的方式访问集群
　　Alive Workers：存活的worker数量
　　cores in use：可以使用的核心数量
　　 Memory in use：可以使用的内存大小
　　Applications：正在运行和已经完成的应用程序
　　Driver：通过driver提交的任务情况
　　Status：节点的状态

原文地址：https://www.cnblogs.com/HelloBigTable/p/10261420.html

时间： 2025-01-11 11:38:31

Spark-Unit1-spark概述与安装部署的相关文章

spark概述和安装部署

1.spark概述 1.什么是spark 基于内存的计算引擎,它的计算速度非常快.但是spark仅仅只涉及到数据的计算,没有涉及到数据的存储. 2.为什么学习spark 比mapreduce计算速度快很多. 3.spark特点 1.速度快比mapreduce在内存中快100x,在磁盘中快10x 1.由于mapreduce每次job的中间结果数据都会落地到磁盘中,而spark每次中间结果数据可以不落地(可以保存在内存中) 2.mapreduce任务对应都会产生一些map任务和reduce任务,这

Spark、Shark集群安装部署及遇到的问题解决

1.部署环境 OS:Red Hat Enterprise Linux Server release 6.4 (Santiago) Hadoop:Hadoop 2.4.1 Hive:0.11.0 JDK:1.7.0_60 Python:2.6.6(spark集群需要python2.6以上,否则无法在spark集群上运行py) Spark:0.9.1(最新版是1.0.2) Shark:0.9.1(目前最新的版本,但是只能够兼容到spark-0.9.1,见shark 0.9.1 release) Zo

大数据学习之Storm实时计算概述及安装部署33

一:Storm概述网址:http://storm.apache.org/ ApacheStorm是一个免费的开源分布式实时计算系统.Storm可以轻松可靠地处理无限数据流,实现Hadoop对批处理所做的实时处理.Storm非常简单,可以与任何编程语言一起使用,并且使用起来很有趣! Storm有许多用例:实时分析,在线机器学习,连续计算,分布式RPC,ETL等.风暴很快:一个基准测试表示每个节点每秒处理超过一百万个元组.它具有可扩展性,容错性,可确保您的数据得到处理,并且易于设置和操作. Sto

Flume的概述和安装部署

一.Flume概述 Flume是一种分布式.可靠且可用的服务,用于有效的收集.聚合和移动大量日志文件数据.Flume具有基于流数据流的简单灵活的框架,具有可靠的可靠性机制和许多故障转移和恢复机制,具有强大的容错能力.Flume使用简单的的可扩展数据模型,循环在线分析应用程序. 二.Flume的作用数据的来源大致有三类: 1.爬虫 2.日志数据 =>使用Flume进行获取传输 3.传统数据库 =>使用Sqoop进行数据迁移三.Flume架构 1.source:数据源接收webser端的数据

Spark安装部署（local和standalone模式）

Spark运行的4中模式: Local Standalone Yarn Mesos 一.安装spark前期准备 1.安装java $ sudo tar -zxvf jdk-7u67-linux-x64.tar.gz -C /opt/service/ export JAVA_HOME=/opt/service/jdk1.7.0_67 export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH export CLASSPATH=.:$JAVA_HOME/l

使用docker安装部署Spark集群来训练CNN（含Python实例）

使用docker安装部署Spark集群来训练CNN(含Python实例) 本博客仅为作者记录笔记之用,不免有很多细节不对之处. 还望各位看官能够见谅,欢迎批评指正. 博客虽水,然亦博主之苦劳也. 如需转载,请附上本文链接,不甚感激! http://blog.csdn.net/cyh_24/article/details/49683221 实验室有4台神服务器,每台有8个tesla-GPU,然而平时做实验都只使用了其中的一个GPU,实在暴遣天物! 于是想用spark来把这些GPU都利用起来.听闻d

【原创 Spark动手实践 1】Hadoop2.7.3安装部署实际动手

目录: 第一部分:操作系统准备工作: 1. 安装部署CentOS7.3 1611 2. CentOS7软件安装(net-tools, wget, vim等) 3. 更新CentOS7的Yum源,更新软件速度更快 4. CentOS 用户配置,Sudo授权第二部分:Java环境准备 1. JDK1.8 安装与配置第三部分:Hadoop配置,启动与验证 1. 解压Hadoop2.7.3更新全局变量 2. 更新Hadoop配置文件 3. 启动Hadoop 4. 验证Hadoop =========

【Spark学习】Spark 1.1.0 with CDH5.2 安装部署

[时间]2014年11月18日 [平台]Centos 6.5 [工具]scp [软件]jdk-7u67-linux-x64.rpm spark-worker-1.1.0+cdh5.2.0+56-1.cdh5.2.0.p0.35.el6.noarch.rpm spark-core-1.1.0+cdh5.2.0+56-1.cdh5.2.0.p0.35.el6.noarch.rpm spark-history-server-1.1.0+cdh5.2.0+56-1.cdh5.2.0.p0.35.el6.

Hadoop2.2集群安装配置-Spark集群安装部署

配置安装Hadoop2.2.0 部署spark 1.0的流程一.环境描写叙述本实验在一台Windows7-64下安装Vmware.在Vmware里安装两虚拟机分别例如以下主机名spark1(192.168.232.147),RHEL6.2-64 操作系统,usernameRoot 从机名spark2(192.168.232.152).RHEL6.2-64 操作系统,usernameRoot 二.环境准备 1.防火墙禁用.SSH服务设置为开机启动.并关闭SELINUX 2.改动hosts文件