pyspark 安装配置【linux && win】

一、windows 安装
1、下载spark
    spark-2.3.1-bin-hadoop2.7.tgz

2、配置spark 环境变量
set SPARK_HOME=d:\spark2.3.1
set PATH=%SPARK_HOME%\bin;%PATH%

3、安装python的pyspark模块
pip install pyspark -i https://pypi.tuna.tsinghua.edu.cn/simple/ 

4、下载安装hadoop 或者 组件
1)下载hadoop软件包,并配置环境变量
set HADOOP_HOME=d:\hadoop
set PATH=%HADOOP_HOME%\bin;%PATH%

2)下载hadoop-common-2.2.0-bin-master.zip(自己百度) 并配置环境变量
下载后是文件名是hadoop-common-2.2.0-bin-master.zip,随便解压到一个目录,设置HADOOP_HOME环境变量,指向 d:\hadoop (解压后的下载文件), 并将HADOOP_HOME加到系统变量PATH中
set HADOOP_HOME=d:\hadoop
set PATH=%HADOOP_HOME%\bin;%PATH%

二、linux 环境
1、下载spark
    spark-2.3.1-bin-hadoop2.7.tgz
    tar -zxvf  spark-2.3.1-bin-hadoop2.7.tgz

2、配置spark 环境变量
vi ~/.bash_profile
#将以下代码添加到文件中
export SPARK_HOME=/tools/spark2.3.1
export PATH=$SPARK_HOME/bin:$PATH
export PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATH 

3、安装python的pyspark模块
   pip install pyspark -i https://pypi.tuna.tsinghua.edu.cn/simple/ 

注释:1、如果想在python项目中使用spark 功能,python开发环境除了安装pyspark 模块外,还需要同时安装spark软件包才能正常使用。2、linux 环境只需要安装jdk、spark、pyspark(python模块)即可;windows 环境还需要额外安装hadoop组件,否则运行报错。

原文地址:https://www.cnblogs.com/songfucai/p/9360402.html

时间: 2024-08-07 16:32:28

pyspark 安装配置【linux && win】的相关文章

SVN的安装配置(linux)

转载自  http://gavinshaw.blog.51cto.com/385947/277489 虽然说是SVN系列,但是想要真正的理解一个前人花费多年时间去做的一个工程,并不是短时间之内可以做到的!还有就是看别人的文章 终究不及自己做一遍来的深刻, 另外要说的一点就是,人们写的文章只能作为参考,权威的,还是官方的文档.(一点写在前面的废话!) 当然了了解一个事物,最好的莫过于搞一个来自己动手摸索.就像是当初接触linux的时候一样,让我看了半天的那一大堆命令,还不如在自己的机器上敲个十遍!

安装配置linux (Ubuntu server)

昨晚安装好了ububtu 14.04 server 64-bit   今天就得配置服务器了  上午安装了  mysql  phpmyadmin  apache php5   tomcat  jdk还算顺利 1. 在宿主机的windows安装了一个 Xshell 相应的在linux里也要安装ssh服务 这样就可以在windows和虚拟机的linux间传递文件,在windows下载的安装文件可以传递到虚拟机中的linux里. 2. 安装好apache后 在宿主windows里浏览测试 3. 安装ap

MediaWiki安装配置(Linux)

       1:MediaWiki简介          MediaWiki 应用程序最为人所知之处就是它是 Wikipedia背后的引擎.很多人都发现 MediaWiki提供了一个可用的环境来在工作组.甚至整个组织以及在线社区之间共享信息.MediaWiki让用户可以通过博客.wiki 以及文件来共享信息.它还允许使用一个标记云来保护所上载的文件,标记文件以便轻松定位,以及定位专家.更多信息,请参见参考资料.        那么,如果想要引入一些不想手动更新的定制信息并插入到您的 wiki页

Mac+Parallels+iTerm安装配置Linux Centos7

最近由于学习需要,需要在mac上安装linux,因此搜刮博客资料,选择Parallels+iTerm来安装连接centos7.其中Parallels是vmstation在mac上的替代,而iTerm则是xshell的替代,下面简单的配置一下. Parallels安装centos7 (1)Parallels新建,选择镜像文件安装,需提前准备镜像文件. (2)选择准备好的镜像文件,继续. (3)不要勾选快速安装,不要勾选快速安装,不要勾选快速安装.第一次安装勾选了,结果傻瓜式一站到底安装完成,都没有

Nexus安装配置(Linux)

.搭建nexus私服 1.解压nexus-oss-webapp-1.8.0-bundle.tar.gz文件到指定目录 Java代码 #tar -zvxf nexus-oss-webapp-1.8.0-bundle.tar.gz 2.启动nexus Java代码 #cd /opt/maven/nexus-oss-webapp-1.8.0/bin/jsw 选择自己机器的版本: #cd linux-x86-32/ #./nexus start 重启: #./nexus restart 停止: #./n

Tomcat指定jdk的安装配置-Linux

系统的openjdk是1.6* 的,已经有一个项目在使用.新项目上线需要使用jdk1.7的,这时需要指定tomcat运行使用的jdk环境变量,如下: tomcat下载链接:http://pan.baidu.com/s/1geUrWrx  密码:lpy1 jdk下载链接:http://pan.baidu.com/s/1kUSNRGN密码:viub 系统指定tomcat使用jdk有2中方法,一种是多个用户模式,修改当前的用户系统环境变量:二种是指定jdk的路径,同一用户下放多个tomcat和多个jd

安装配置Linux Squid代理服务器

1.代理服务器的工作机制 代理服务器的工作机制像生活中的代理商,假设自己的机器为A,想获得的数据由服务器B提供,代理服务器为C,那么连接过程是,A需要B的数据,并直接和C连接:C接受到A的数据请求之后,与B建立连接,下载A所请求的B上的数据到本地:然后将此数据发送至A,完成代理任务. 2.squid工作流程 客户端向代理服务器发送一个数据需求封包 代理服务器接受之后,对比这个封包的来源与预计要前往的目标是否合法,如果来源与目标都是合法的,那么代理服务器将开始为客户端计算机获取信息 代理服务器到自

Rsyslog日志服务安装配置

rsyslog服务端配置  centos6.4 x64系统  系统自带rsyslog 5.8版本 rsyslog 是一个 syslogd 的多线程增强版. 现在Fedora和Ubuntu, rhel6默认的日志系统都是rsyslog了 rsyslog负责写入日志, logrotate负责备份和删除旧日志, 以及更新日志文件 ################################### #首先部署好lamp环境,详情见lamp安装文档 #更新系统时间   rsyslog-mysql是rs

全套Oracle数据库安装实施视频课程套餐[涉及RAC,Linux,Win,ASM,Udev,FS]

全套Oracle数据库安装实施视频课程套餐[涉及RAC,Linux,Win,ASM,Udev,FS] 套餐介绍:高薪必学的Oracle数据库实施教程. 基础:Oracle数据库基础体系结构,ASM,RAC集群架构与概念. 实战:VMware/Windows2008/Linux操作系统安装, Windows/Linux操作系统上Oracle 11g R2 RAC集群安装与单机布署,Linux上ASM基于udev与asmlib的配置,Linux上Oracle11g基于文件系统及ASM与GRID布署,