CentOs 7 安装Spark

环境:

centos7

hadoop 2.7.3

java 1.8

scala

下载:

http://spark.apache.org

解压到安装目录

可以自由选择,我安装到hadoop同一目录

配置:(cd spark安装目录/conf)

cp log4j.properties.template log4j.properties
cp  spark-env.sh.template spark-env.sh
cp slaves.template  slaves

在spark-env.sh文件后面添加如下信息指定hadoop和spark、scala环境

export SPARK_DIST_CLASSPATH=$(/home/hadoop/hadoop-2.7.3/bin/hadoop classpath)
export SPARK_HOME=/home/hadoop/spark
export SCALA_HOME=/home/hadoop/scala

在slaves 文件末尾添加 slave机器

启动:

sbin/start-master.sh   sbin/start-slaves.sh

查看spark是否运行:

http://yourIp:8080

运行实例application

(主机url在http://yourIp:8080显示)

bin/spark-shell  --matser  spark://master:7077

[[email protected] spark]$ bin/spark-shell --master spark://master:7077
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/home/hadoop/spark/jars/slf4j-log4j12-1.7.16.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/home/hadoop/hadoop-2.7.3/share/hadoop/common/lib/slf4j-log4j12-1.7.10.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]
17/06/06 04:01:17 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
17/06/06 04:01:29 WARN ObjectStore: Failed to get database global_temp, returning NoSuchObjectException
Spark context Web UI available at http://10.12.1.102:4040
Spark context available as ‘sc‘ (master = spark://master:7077, app id = app-20170606040119-0002).
Spark session available as ‘spark‘.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  ‘_/
   /___/ .__/\_,_/_/ /_/\_\   version 2.1.1
      /_/

Using Scala version 2.11.8 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_112)
Type in expressions to have them evaluated.
Type :help for more information.

scala>

官方示例:http://spark.apache.org/docs/latest/quick-start.html

scala> var textfile=sc.textFile("hdfs://master:9000/user/lihb/in/*.log")
textfile: org.apache.spark.rdd.RDD[String] = hdfs://master:9000/user/lihb/in/*.log MapPartitionsRDD[1] at textFile at <console>:24

scala> textfile.first()
res5: String = #Software: IIS Advanced Logging Module

scala> textfile.count()
res7: Long = 32583

scala> val wordCounts=textfile.flatMap(line=>line.split(" ")).map(word=>(word,1)).reduceByKey((a,b)=>a+b)
wordCounts: org.apache.spark.rdd.RDD[(String, Int)] = ShuffledRDD[4] at reduceByKey at <console>:26

scala> wordCounts.collect()
res8: Array[(String, Int)] = Array((/space/attentionto/99335/,1), (01:41:27.777,1),  (01:45:...
scala>
时间: 2024-11-06 07:20:48

CentOs 7 安装Spark的相关文章

centos部署单机spark大数据环境(一)--【安装mysql】

最近在工作上,需要在centos上面装spark大数据环境,特此记录一下单机spark部署步骤: 一.Centos7安装mysql 1.官网下载mysql-5.5.61-linux-glibc2.12-x86_64.tar.gz安装包 (使用在线安装,受网络影响,推荐离线安装) 下载地址:https://dev.mysql.com/downloads/mysql/5.5.html#downloads 2.centos7卸载自带mariadb 因为centos7后,系统自带了mariadb,会和安

安装spark笔记

centOS 准备三台机器 hadoop-1,hadoop-2,hadoop-3 提前安装好 jdk,python,host name,ssh 安装scala 下载 scala rpm包 在/home/${user}/soft/下 wget http://www.scala-lang.org/files/archive/scala-2.9.3.rpm(不使用,安装后没找到安装后目录) rpm -ivh scala-2.9.3.rpm 在http://www.scala-lang.org/down

Ubuntu 14.10 下安装Spark

Spark 是一种与 Hadoop 相似的开源集群计算环境,不过最近非常火.下面介绍安装步骤. 1 安装scala 1.1 我选用的是2.11.4,下载地址http://www.scala-lang.org/download/ 1.2 解压到文件夹 tar -xzvf scala-2.11.4.tgz 1.3 设置环境变量 sudo nano /etc/profile export SCALA_HOME=/home/liucc/software/spark/scala-2.11.4 export

Cloudera Manager (centos)安装详细介绍

文章全部来自:Cloudera Manager (centos)安装详细介绍http://www.aboutyun.com/thread-9190-1-1.html(出处: about云开发) 这里已经有很多关于CDH的文章,此篇虽然不是把所有的问题都描述了.但是整体的过程还算描述的比较清楚.问题导读: 1.安装需要做哪些准备? 2.如何安装CM? 3.如何通过CM安装CDH? 4.CM及CDH安装的过程都包含什么? 相信通过这篇文章大家都对Cloudera Manager及CDH安装有一个整体

centos yum安装ftp 及解决vsftp错误500 OOPS: cannot change directory:/home/**

centos yum安装ftp 及解决vsftp错误500 OOPS: cannot changedirectory:/home/**   1.查看服务器有没有安装ftp包 rpm -qa |grep vsftp 2.yum  安装 yum -y install vsftpd 3.启动vsftp的服务 service vsftpd start 4.关闭防火墙 service iptables stop 5.测试匿名访问 修改配置文件 vsftpd.conf [[email protected]

Centos下安装memcached+memcached教程

Memcached 是一个高性能的分布式内存对象缓存系统,用于动态Web应用以减轻数据库负载.它通过在内存中缓存数据和对象来减少读取数据库的次数,从而提高动态.数据库驱动网站的速度.Memcached基于一个存储键/值对的hashmap.其守护进程(daemon )是用C写的,但是客户端可以用任何语言来编写,并通过memcached协议与守护进程通信. Memcache是一个高性能的分布式的内存对象缓存系统,通过在内存里维护一个统一的巨大的hash表,它能够用来存储各种格式的数据.简单的说就是将

CentOS Docker 安装

CentOS Docker 安装 Docker支持以下的CentOS版本: CentOS 7 (64-bit) CentOS 6.5 (64-bit) 或更高的版本 前提条件 目前,CentOS 仅发行版本中的内核支持 Docker. Docker 运行在 CentOS 7 上,要求系统为64位.系统内核版本为 3.10 以上. Docker 运行在 CentOS-6.5 或更高的版本的 CentOS 上,要求系统为64位.系统内核版本为 2.6.32-431 或者更高版本. 使用 yum 安装

CentOS下安装Filezilla软件

CentOS下安装Filezilla软件 说到Centos大家都是非常熟悉了,当然Filezilla也是日常中应用的软件,但是在linux下安装怎么操作呢.安装Filezilla有多个方式,但用户应该最喜欢用的就是下载安装包,然后执行安装.安装Filezilla前需要,下载安装包,然后需要安装编译器,以上工作准备好后,还需要解压,所以比较零碎,所以我就没选择通过安装包进行过安装,在此我通过rpm进行安装,首选是下载所需文件,然后进行yum安装.具体见习: 首选是安装Rpm,在centos下执行以

Centos 6安装Cacti监控网络流量

Centos 6安装Cacti监控网络流量 1.操作系统的安装,这个就不用写教程了吧(略)我个人用的是CentOS6.5最小化安装装好系统以后关闭防火墙和selinux#service iptables stop     /*关闭防火墙服务*/#chkconfig iptables off    /*永久性关闭*/ #vim /etc/sysconfig/selinux   /*把SELINUX=enforcing改为SELINUX=disabled*/ 2.安装cacti依赖的软件 #yum