Linux下Spark框架配置(Python)

简述

    Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。由于spark带有Python的API,而本人比较专于Python语言。因此在此分享一下我在配置spark的方法以及心得。

配置过程

步骤一:

下载scala压缩包,进入链接http://www.scala-lang.org/,点击download下载scala,并解压到当前目录下。

下载jdk压缩包,进入链接http://www.oracle.com/technetwork/java/javase/downloads/index.html,下载最新版jdk,若为64位系统请下载jdk-8u91-linux-x64.tar.gz(本人下载版本为8u91,系统为64位),32位系统下载jdk-8u91-linux-i586.tar.gz,下载完成后解压到当前目录下。

下载spark压缩包,进入链接https://spark.apache.org/downloads.html,选择当前最新版本人为1.6.2,点击下载。

步骤二:

  1.打开命令行窗口。

  2.执行命令    sudo -i

  3.进入到解压文件所在目录

  4.将j解压文件转移到opt目录下

    执行 mv jdk1.8.0_91 /opt/jdk1.8.0_91

    执行 mv scala-2.11.8  /opt/scala-2.11.8

    执行 mv spark-1.6.2-bin-hadoop2.6  /opt/spark-hadoop

步骤三:

配置环境变量,编辑/etc/profile,执行以下命令

    sudo gedit /etc/profile

在文件最下方增加(注意版本):

#Seeting JDK JDK环境变量

export JAVA_HOME=/opt/jdk1.8.0_91

export JRE_HOME=${JAVA_HOME}/jre

export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib

export PATH=${JAVA_HOME}/bin:${JRE_HOME}/bin:$PATH

#Seeting Scala Scala环境变量

export SCALA_HOME=/opt/scala-2.11.8

export PATH=${SCALA_HOME}/bin:$PATH

#setting Spark Spark环境变量

export SPARK_HOME=/opt/spark-hadoop/

#PythonPath 将Spark中的pySpark模块增加的Python环境中

export PYTHONPATH=/opt/spark-hadoop/python

保存文件, 重启电脑,使/etc/profile永久生效,临时生效,打开命令窗口,执行 source /etc/profile  在当前窗口生效

步骤四:

测试安装结果

打开命令窗口,切换到Spark根目录

执行 ./bin/spark-shell,打开Scala到Spark的连接窗口

  执行结果如上,则无误

执行./bin/pyspark ,打开Python到Spark的连接窗口

则安装无误

  • Python安发Spark应用
    • 前面已设置PYTHONPATH,将pyspark加入到Python的搜寻路径中
    • 打开Spark安装目录(/opt/spark-hadoop),在/opt/spark-hadoop/Python/lib文件夹下解压py4j,并复至到/opt/spark-hadoop/Python目录下。

在pycharm中测试,出现如下红色字眼,则配置成功。

参考至:http://www.open-open.com/lib/view/open1432192407317.html

时间: 2025-01-18 16:43:41

Linux下Spark框架配置(Python)的相关文章

关于Linux下Spark的配置

1 如果你是用scala,当我没说.这个随意都能搞得定 2 如果你是用python,你可以继续往后看. 因为spark的全量的安装包自己带的hadoop的环境,所以不需要自己去再配一个hadoop.[如果你有的话,则得确保版本兼容之类的时期] 单独解压缩一个spark的包,然后去修改相应的配置文件.[反正我是没有去配yarn的和hadoop的,直接默认,这里面坑太多了] 3 别忘记安装pyspark和py4j,anaconda 直接用pip就好.如果是anaconda用户,记得创建一个pytho

Linux下git安装配置

一.Linux下git安装配置 2013-07-28 20:32:10|  分类: 默认分类 |  标签:linux  git  server  |举报|字号 订阅 http://abomby.i.sohu.com/blog/view/168755260.htm http://www.linuxidc.com/Linux/2011-12/48555.htm Git是分布式的版本控制系统,实际上是不需要固定的服务器的,Git与svn的最大区别是,它的使用流程不需要联机,可以先将对代码的修改,评论,

linux下ejabberd框架搭建

ejabberd为erlang的IM的开源框架,一直想找个时间研究研究: 1.下载Ejabberd安装包 wget http://www.process-one.net/downloads/ejabberd/2.1.13/ejabberd-2.1.13-linux-x86_64-installer.run 2.下载完成后,给安装包加权限,否则无法安装 [[email protected] xmpp]# chmod +x ejabberd-2.1.13-linux-x86_64-installer

Linux下Redis服务器安装配置

说明:操作系统:CentOS1.安装编译工具yum install wget  make gcc gcc-c++ zlib-devel openssl openssl-devel pcre-devel kernel keyutils  patch perl 2.安装tcl组件包(安装Redis需要tcl支持)cd /usr/local/src #进入软件包存放目录wget  http://downloads.sourceforge.net/tcl/tcl8.6.6-src.tar.gztar 

Linux下PHP安装配置MongoDB数据库连接扩展

说明: 操作系统:CentOS 5.X 64位 MongoDB数据库服务器: IP地址:192.168.21.130 Web服务器: IP地址:192.168.21.127 PHP安装路径:/usr/local/php 实现目的: 安装PHP的MongoDB数据库扩展,通过PHP程序连接MongoDB数据库 具体操作: 一.安装PHP的MongoDB数据库扩展(在Web服务器192.168.21.127上操作) 下载地址:http://pecl.php.net/get/mongo-1.5.1.t

VMware Linux 下 Nginx 安装配置 - nginx.conf 配置 [负载两个 Tomcat] (三)

首先启动Nginx 1. 转到 nginx 目录: /usr/local/nginx; 启动 nginx: /usr/local/nginx/nginx ubuntu 前要加 sudo; 关健配置 http 配置块下,一般设置在 zgip on 下: upstream localhost { #绿色对应 #ip_hash; server localhost:8090; server localhost:8080; } server / { location / { proxy_connect_t

PHP扩展类ZipArchive实现压缩解压Zip文件和文件打包下载 && Linux下的ZipArchive配置开启压缩

PHP ZipArchive 是PHP自带的扩展类,可以轻松实现ZIP文件的压缩和解压,使用前首先要确保PHP ZIP 扩展已经开启,具体开启方法就不说了,不同的平台开启PHP扩增的方法网上都有,如有疑问欢迎交流.这里整理一下常用的示例供参考. 一.解压缩zip文件 ? 1 2 3 4 5 6 7 8 9 10 11 $zip = new ZipArchive;//新建一个ZipArchive的对象 /* 通过ZipArchive的对象处理zip文件 $zip->open这个方法的参数表示处理的

Linux下IP地址配置

ifconfig -a 查看linux下的网卡配置 dhclient dhcp获得IP vi /etc/sysconfig/netwaork-scripts/ifcfg-eth0 IPADDR=192.168.199.200NETMASK=255.255.255.0GATEWAY=192.168.199.1DNS1=192.168.199.1DNS2=223.5.5.5 service network restart ifdown eth0ifup eth0

Linux下SVN服务器安装配置及客户端安装说明

原文地址:http://wenku.baidu.com/link?url=h3dVAMx4azpOXEND5HQEE6nliE8-zc0GSQ03yv4cUs1vXMALXF64UsK7kT7kXm_zf7k6J6EHSszq4ZU_Tyn0JimTKV8SzI9Ac4veaxCG3im Linux 下 SVN 服务器安装配置 第一章 安装 1. 采用源文件编译安装.源文件共两个,为: subversion-1.6.1.tar.gz ( subversion 源文件) subversion-de