pyspark 安装配置【linux && win】

一、windows 安装
1、下载spark
    spark-2.3.1-bin-hadoop2.7.tgz

2、配置spark 环境变量
set SPARK_HOME=d:\spark2.3.1
set PATH=%SPARK_HOME%\bin;%PATH%

3、安装python的pyspark模块
pip install pyspark -i https://pypi.tuna.tsinghua.edu.cn/simple/ 

4、下载安装hadoop 或者 组件
1）下载hadoop软件包，并配置环境变量
set HADOOP_HOME=d:\hadoop
set PATH=%HADOOP_HOME%\bin;%PATH%

2）下载hadoop-common-2.2.0-bin-master.zip（自己百度） 并配置环境变量
下载后是文件名是hadoop-common-2.2.0-bin-master.zip,随便解压到一个目录,设置HADOOP_HOME环境变量，指向 d:\hadoop (解压后的下载文件), 并将HADOOP_HOME加到系统变量PATH中
set HADOOP_HOME=d:\hadoop
set PATH=%HADOOP_HOME%\bin;%PATH%

二、linux 环境
1、下载spark
    spark-2.3.1-bin-hadoop2.7.tgz
    tar -zxvf  spark-2.3.1-bin-hadoop2.7.tgz

2、配置spark 环境变量
vi ~/.bash_profile
#将以下代码添加到文件中
export SPARK_HOME=/tools/spark2.3.1
export PATH=$SPARK_HOME/bin:$PATH
export PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATH 

3、安装python的pyspark模块
   pip install pyspark -i https://pypi.tuna.tsinghua.edu.cn/simple/ 

注释：1、如果想在python项目中使用spark 功能，python开发环境除了安装pyspark 模块外，还需要同时安装spark软件包才能正常使用。2、linux 环境只需要安装jdk、spark、pyspark（python模块）即可；windows 环境还需要额外安装hadoop组件，否则运行报错。

原文地址：https://www.cnblogs.com/songfucai/p/9360402.html

时间： 2024-10-11 04:27:24

pyspark 安装配置【linux && win】的相关文章

SVN的安装配置(linux)

转载自 http://gavinshaw.blog.51cto.com/385947/277489 虽然说是SVN系列,但是想要真正的理解一个前人花费多年时间去做的一个工程,并不是短时间之内可以做到的!还有就是看别人的文章终究不及自己做一遍来的深刻, 另外要说的一点就是,人们写的文章只能作为参考,权威的,还是官方的文档.(一点写在前面的废话!) 当然了了解一个事物,最好的莫过于搞一个来自己动手摸索.就像是当初接触linux的时候一样,让我看了半天的那一大堆命令,还不如在自己的机器上敲个十遍!

安装配置linux （Ubuntu server）

昨晚安装好了ububtu 14.04 server 64-bit 今天就得配置服务器了上午安装了 mysql phpmyadmin apache php5 tomcat jdk还算顺利 1. 在宿主机的windows安装了一个 Xshell 相应的在linux里也要安装ssh服务这样就可以在windows和虚拟机的linux间传递文件,在windows下载的安装文件可以传递到虚拟机中的linux里. 2. 安装好apache后在宿主windows里浏览测试 3. 安装ap

MediaWiki安装配置(Linux)

1:MediaWiki简介 MediaWiki 应用程序最为人所知之处就是它是 Wikipedia背后的引擎.很多人都发现 MediaWiki提供了一个可用的环境来在工作组.甚至整个组织以及在线社区之间共享信息.MediaWiki让用户可以通过博客.wiki 以及文件来共享信息.它还允许使用一个标记云来保护所上载的文件,标记文件以便轻松定位,以及定位专家.更多信息,请参见参考资料. 那么,如果想要引入一些不想手动更新的定制信息并插入到您的 wiki页

Mac+Parallels+iTerm安装配置Linux Centos7

最近由于学习需要,需要在mac上安装linux,因此搜刮博客资料,选择Parallels+iTerm来安装连接centos7.其中Parallels是vmstation在mac上的替代,而iTerm则是xshell的替代,下面简单的配置一下. Parallels安装centos7 (1)Parallels新建,选择镜像文件安装,需提前准备镜像文件. (2)选择准备好的镜像文件,继续. (3)不要勾选快速安装,不要勾选快速安装,不要勾选快速安装.第一次安装勾选了,结果傻瓜式一站到底安装完成,都没有

Nexus安装配置(Linux)

.搭建nexus私服 1.解压nexus-oss-webapp-1.8.0-bundle.tar.gz文件到指定目录 Java代码 #tar -zvxf nexus-oss-webapp-1.8.0-bundle.tar.gz 2.启动nexus Java代码 #cd /opt/maven/nexus-oss-webapp-1.8.0/bin/jsw 选择自己机器的版本: #cd linux-x86-32/ #./nexus start 重启: #./nexus restart 停止: #./n

Tomcat指定jdk的安装配置-Linux

系统的openjdk是1.6* 的,已经有一个项目在使用.新项目上线需要使用jdk1.7的,这时需要指定tomcat运行使用的jdk环境变量,如下: tomcat下载链接:http://pan.baidu.com/s/1geUrWrx 密码:lpy1 jdk下载链接:http://pan.baidu.com/s/1kUSNRGN密码:viub 系统指定tomcat使用jdk有2中方法,一种是多个用户模式,修改当前的用户系统环境变量:二种是指定jdk的路径,同一用户下放多个tomcat和多个jd

安装配置Linux Squid代理服务器

1.代理服务器的工作机制代理服务器的工作机制像生活中的代理商,假设自己的机器为A,想获得的数据由服务器B提供,代理服务器为C,那么连接过程是,A需要B的数据,并直接和C连接:C接受到A的数据请求之后,与B建立连接,下载A所请求的B上的数据到本地:然后将此数据发送至A,完成代理任务. 2.squid工作流程客户端向代理服务器发送一个数据需求封包代理服务器接受之后,对比这个封包的来源与预计要前往的目标是否合法,如果来源与目标都是合法的,那么代理服务器将开始为客户端计算机获取信息代理服务器到自

Rsyslog日志服务安装配置

rsyslog服务端配置 centos6.4 x64系统系统自带rsyslog 5.8版本 rsyslog 是一个 syslogd 的多线程增强版. 现在Fedora和Ubuntu, rhel6默认的日志系统都是rsyslog了 rsyslog负责写入日志, logrotate负责备份和删除旧日志, 以及更新日志文件 ################################### #首先部署好lamp环境,详情见lamp安装文档 #更新系统时间 rsyslog-mysql是rs

全套Oracle数据库安装实施视频课程套餐[涉及RAC,Linux,Win,ASM,Udev,FS]

全套Oracle数据库安装实施视频课程套餐[涉及RAC,Linux,Win,ASM,Udev,FS] 套餐介绍:高薪必学的Oracle数据库实施教程. 基础:Oracle数据库基础体系结构,ASM,RAC集群架构与概念. 实战:VMware/Windows2008/Linux操作系统安装, Windows/Linux操作系统上Oracle 11g R2 RAC集群安装与单机布署,Linux上ASM基于udev与asmlib的配置,Linux上Oracle11g基于文件系统及ASM与GRID布署,