Spark的介绍和集群部署

介绍

  1.spark处理大数据的统一分析计算引擎;

    a.速度:在迭代循环的计算模型下,spark比Hadoop快100倍;
    b.易用性:spark提供多种语言的API,如Java、Python、Scala、R、SQL等
    c.扩展性:在spark RDD基础上,提供一整套的分析计算模型:spark SQL、spark Stresaming、spark MLLib和图计算;
    d.运行: spark支持在hadoop、Hadoop, Apache Mesos, Kubernetes, standalone, or in the cloud.
  2.spark安装部署:
    0).版本选型:spark2.1.2。依赖scala2.11.8
    1).下载spark2.1.2.tar.gz
    2).解压安装:
      $>cd /home/hyxy/soft/
      $>cp /mnt/hgfs/2.安装环境/download/apache-spark/spark-2.1.2-bin-hadoop2.7.tgz .
      $>tar -zxvf spark-2.1.2-bin-hadoop2.7.tgz
      $>ln -s spark-2.1.2-bin-hadoop2.7 spark
    3).配置环境变量
      修改【~/.bash_profile】,在文件尾部追加以下内容:
        #spark install
        export SPARK_HOME=/home/hyxy/soft/spark
        export PATH=$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH
        $>source ~/.bash_profile
    4).至此,单机版搭建完成!
      $>spark-shell
      访问WebUI:HTTP://master:4040

集群模式部署

  

  0.说明:如果现有的集群框架中存在MR的相关应用,同时相关的MR无法转换为Spark应用的,集群选型为Spark On Yarn;
      如果现有的集群框架中只有Spark应用,那么建议采用spark Standalone模式;
  1.spark可以运行在不同的计算引擎上,所以集群模式安装分不同种情况:
      说明:spark的Standalone模式和Spark on Yarn占比比较多。
        a.spark的Standalone集群模式安装
          1.复制三个文件,并修改:
            $>cp spark-env.sh.template spark-env.sh
              添加以下内容,注意:“=”附近无空格:
                export JAVA_HOME=/home/hyxy/soft/jdk
                export SPARK_MASTER_HOST=master
                export SPARK_MASTER_PORT=7077
                $>cp slaves.template slaves
              添加工作节点(Worker),如下:
                master
                slave1
                slave2
                $>cp spark-defaults.conf.template spark-defaults.conf
          2.远程scp复制spark安装目录至其它节点:slave1和slave2;
            $>scp -r ~/soft/spark-2.1.2-bin-hadoop2.7/ [email protected]:/home/hyxy/soft/
            $>ln -s spark-2.1.2-bin-hadoop2.7 spark //在Slave1节点上
          3.分别修改slave1、slave2等的环境变量;
          4.开启spark Standalone集群的守护进程
            $>start-master.sh //开启spark的Master守护进程
            $>start-slaves.sh //开启spark的Worker守护进程
          5.测试
            访问WebUI界面:http://master:8080
            $>spark-shell --master spark://master:7077
            观察WebUI的网页说明;
      b.Spark on Yarn集群模式安装
        1).修改spark-env.sh文件,添加以下内容:
          export HADOOP_CONF_DIR=/home/hyxy/soft/hadoop/etc/hadoop
        2).测试:
        开启hadoop:
          $>zkserver.sh start
          $>start-dfs.sh
          $>start-yarn.sh
        启动spark:
          $>spark-shell --master yarn-client
        3).注意:抛异常,资源调用超出上限,修改默认校验
          修改{HADOOP_HOEM/etc/hadoop}/yarn-site.xml
            <property>
              <name>yarn.nodemanager.pmem-check-enabled</name>
              <value>false</value>
            </property>

            <property>
              <name>yarn.nodemanager.vmem-check-enabled</name>
              <value>false</value>
            </property>
        分发至集群其它节点,重启Hadoop,即可!!

原文地址:https://www.cnblogs.com/lyr999736/p/9550139.html

时间: 2024-07-30 00:14:21

Spark的介绍和集群部署的相关文章

Spark概述及集群部署

Spark概述 什么是Spark (官网:http://spark.apache.org) Spark是一种快速.通用.可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目.目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL.Spark Streaming.GraphX.MLlib等子项目,Spark是基于内存计算的大数据并行计算框架.Spark基

Spark 概述及其高可用集群部署

Spark入门 一. 学习目标 目标1:熟悉Spark相关概念 目标2:搭建一个Spark集群 二. Spark概述 2.1什么是Spark(官网:http://spark.apache.org) Spark是一种快速.通用.可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目.目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL.Spark Str

Spark修炼之道(进阶篇)——Spark入门到精通:第一节 Spark 1.5.0集群搭建

作者:周志湖 网名:摇摆少年梦 微信号:zhouzhihubeyond 本节主要内容 操作系统环境准备 Hadoop 2.4.1集群搭建 Spark 1.5.0 集群部署 注:在利用CentOS 6.5操作系统安装spark 1.5集群过程中,本人发现Hadoop 2.4.1集群可以顺利搭建,但在Spark 1.5.0集群启动时出现了问题(可能原因是64位操作系统原因,源码需要重新编译,但本人没经过测试),经本人测试在ubuntu 10.04 操作系统上可以顺利成功搭建.大家可以利用CentOS

Spark standalone安装(最小化集群部署)

Spark standalone安装-最小化集群部署(Spark官方建议使用Standalone模式)        集群规划:    主机        IP                    软件      进程    sc1        192.168.1.61    spark    Master.Worker    sc2        192.168.1.62    spark    Worker    sc3        192.168.1.63    spark    W

Hadoop记录-Apache hadoop+spark集群部署

Hadoop+Spark集群部署指南 (多节点文件分发.集群操作建议salt/ansible) 1.集群规划节点名称 主机名 IP地址 操作系统Master centos1 192.168.0.1 CentOS 7.2Slave1 centos2 192.168.0.2 CentOS 7.2Slave2 centos2 192.168.0.3 Centos 7.22.基础环境配置2.1 hostname配置1)修改主机名在192.168.0.1 root用户下执行:hostnamectl set

_00024 妳那伊抹微笑_云计算之ClouderaManager以及CHD5.1.0集群部署安装文档V1.0

博文作者:妳那伊抹微笑 博客地址:http://blog.csdn.net/u012185296 博文标题:_00024 妳那伊抹微笑_云计算之ClouderaManager以及CHD5.1.0集群部署安装文档V1.0 个性签名:世界上最遥远的距离不是天涯,也不是海角,而是我站在妳的面前,妳却感觉不到我的存在 技术方向:Flume+Kafka+Storm+Redis/Hbase+Hadoop+Hive+Mahout+Spark ... 云计算技术 转载声明:可以转载, 但必须以超链接形式标明文章

大数据技术之_10_Kafka学习_Kafka概述+Kafka集群部署+Kafka工作流程分析+Kafka API实战+Kafka Producer拦截器+Kafka Streams

第1章 Kafka概述1.1 消息队列1.2 为什么需要消息队列1.3 什么是Kafka1.4 Kafka架构第2章 Kafka集群部署2.1 环境准备2.1.1 集群规划2.1.2 jar包下载2.2 Kafka集群部署2.3 Kafka命令行操作第3章 Kafka工作流程分析3.1 Kafka 生产过程分析3.1.1 写入方式3.1.2 分区(Partition)3.1.3 副本(Replication)3.1.4 写入流程3.2 Broker 保存消息3.2.1 存储方式3.2.2 存储策

万台规模下的SDN控制器集群部署实践

目前在网络世界里,云计算.虚拟化.SDN.NFV这些话题都非常热.今天借这个机会我跟大家一起来一场SDN的深度之旅,从概念一直到实践一直到一些具体的技术. 本次分享分为三个主要部分: SDN & NFV的背景介绍 SDN部署的实际案例 SDN控制器的集群部署方案 我们首先看一下SDN.其实SDN这个东西已经有好几年了,它强调的是什么?控制平面和数据平面分离,中间是由OpenFlow交换机组成的控制器,再往上就是运行在SDN之上的服务或者是应用.这里强调两个,控制器和交换机的接口——我们叫做南向接

入门初探+伪集群部署

Kafka入门初探+伪集群部署 Kafka是目前非常流行的消息队列中间件,常用于做普通的消息队列.网站的活性数据分析(PV.流量.点击量等).日志的搜集(对接大数据存储引擎做离线分析). 全部内容来自网络,可信度有待考证!如有问题,还请及时指正. 概念介绍 在Kafka中消息队列分为三种角色: producer,即生产者,负责产生日志数据. broker,存储节点,负责按照topic中的partition分区,均匀分布式的存储分区. consumer,即消费者,负责读取使用broker中的分区.