Win7 单机Spark和PySpark安装

欢呼一下先。软件环境菜鸟的我终于把单机Spark 和 Pyspark 安装成功了。加油加油！！！

1. 安装方法参考：

已安装Pycharm 和 Intellij IDEA。

win7 PySpark 安装：

http://blog.csdn.net/a819825294/article/details/51782773

win7 Spark安装：

http://blog.csdn.net/a819825294/article/details/51627083

2. 遇到的那些问题：

1) Scala 需要安装两次：

Scala 本地安装，然后配置环境。在cmd 输入 scala 验证是否成功。

Intellij IDEA 安装scala插件。

2) 提示 no Module SDK for Scala

no Module SDK for Scala
(in IntelliJ Idea)

方案：点击该提示，选择download SDK 添加即可。

3）

15/05/27 11:20:53 INFO SecurityManager: SecurityManager: authentication disabled; ui acls disabled; users with view permissions: Set(lenovo); users with modify permissions: Set(lenovo)
Exception in thread "main" java.lang.NoSuchMethodError: scala.collection.immutable.HashSet$.empty()Lscala/collection/immutable/HashSet;

Scala 和 Spark BAN版本不兼容的问题。　

方案：重新下载安装Scala.

4)

Exception in thread "main" java.lang.ClassNotFoundException: WordCount
    at java.net.URLClassLoader$1.run(URLClassLoader.java:366)
    at java.net.URLClassLoader$1.run(URLClassLoader.java:355)
    at java.security.AccessController.doPrivileged(Native Method)
    at java.net.URLClassLoader.findClass(URLClassLoader.java:354)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:425)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:358)
    at java.lang.Class.forName0(Native Method)
    at java.lang.Class.forName(Class.java:270)
    at org.apache.spark.deploy.SparkSubmit$.launch(SparkSubmit.scala:289)
    at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:55)
    at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)

方案： 确认一下路径是否正确，以及类的大小写是否有误。　　

5）

14/07/02 19:59:31 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
14/07/02 19:59:31 ERROR Shell: Failed to locate the winutils binary in the hadoop binary path
java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.
	at org.apache.hadoop.util.Shell.getQualifiedBinPath(Shell.java:318)
	at org.apache.hadoop.util.Shell.getWinUtilsPath(Shell.java:333)
	at org.apache.hadoop.util.Shell.<clinit>(Shell.java:326)
	at org.apache.hadoop.util.StringUtils.<clinit>(StringUtils.java:76)
	at org.apache.hadoop.security.Groups.parseStaticMapping(Groups.java:93)
	at org.apache.hadoop.security.Groups.<init>(Groups.java:77)
	at org.apache.hadoop.security.Groups.getUserToGroupsMappingService(Groups.java:240)
	at org.apache.hadoop.security.UserGroupInformation.initialize(UserGroupInformation.java:255)
	at org.apache.hadoop.security.UserGroupInformation.setConfiguration(UserGroupInformation.java:283)
	at org.apache.spark.deploy.SparkHadoopUtil.<init>(SparkHadoopUtil.scala:36)
	at org.apache.spark.deploy.SparkHadoopUtil$.<init>(SparkHadoopUtil.scala:109)
	at org.apache.spark.deploy.SparkHadoopUtil$.<clinit>(SparkHadoopUtil.scala)
	at org.apache.spark.SparkContext.<init>(SparkContext.scala:228)
	at org.apache.spark.SparkContext.<init>(SparkContext.scala:97)

方案：

下载 winutils.exe 文件，然后设置环境变量

intellij IDEA 版 Scala:

System.setProperty("hadoop.home.dir","E:\\zhuangji\\winutil\\")

Pycharm 版Python:

import os
os.environ["HADOOP_HOME"]="E:\\zhuangji\\winutil\\"

当然也可以在计算机---〉右键属性--〉环境变量。。。

但是不知道即使重启了计算机还是依然报错。最后在代码中设置环境变量，问题解决。

6）按照3的步骤重新安装后还是同样的错误。

检查后发现，Intellij IDEA的library中出现多个版本的Scala, 显然新安装的Scala 并未取代旧的Scala.

需要删除旧的scala。

时间： 2024-10-08 14:18:27

Win7 单机Spark和PySpark安装的相关文章

centos部署单机spark大数据环境（一）--【安装mysql】

最近在工作上,需要在centos上面装spark大数据环境,特此记录一下单机spark部署步骤: 一.Centos7安装mysql 1.官网下载mysql-5.5.61-linux-glibc2.12-x86_64.tar.gz安装包 (使用在线安装,受网络影响,推荐离线安装) 下载地址:https://dev.mysql.com/downloads/mysql/5.5.html#downloads 2.centos7卸载自带mariadb 因为centos7后,系统自带了mariadb,会和安

Spark介绍，安装

1.简单介绍和安装: (1)Spark使用scala编写,运行在JVM(java虚拟机)上.所以,安装Spark需要先安装JDK.安装好java后,到官网下载安装包(压缩文件):http://spark.apache.org/downloads.html ,当前使用的版本是:spark-1.6.1-bin-hadoop2.4.tgz. (2)解压,查看目录内容: tar -zxvf spark-1.6.1-bin-hadoop2.4.tgz cd spark-1.6.1-bin-hadoop2.

Hadoop：Hadoop单机伪分布式的安装和配置

http://blog.csdn.net/pipisorry/article/details/51623195 因为lz的linux系统已经安装好了很多开发环境,可能下面的步骤有遗漏. 之前是在docker中配置的hadoop单机伪分布式[Hadoop:Hadoop单机伪分布式的安装和配置 ],并且在docker只有root用户,所有没有权限问题存在. 这里直接在linux下配置,主要是为了能用netbeans ide调试hadoop程序,并且使用的用户就是开机时登录的用户pika. 本教程配置

pyspark 安装配置【linux && win】

一.windows 安装 1.下载spark spark-2.3.1-bin-hadoop2.7.tgz 2.配置spark 环境变量 set SPARK_HOME=d:\spark2.3.1 set PATH=%SPARK_HOME%\bin;%PATH% 3.安装python的pyspark模块 pip install pyspark -i https://pypi.tuna.tsinghua.edu.cn/simple/ 4.下载安装hadoop 或者组件 1)下载hadoop软件包,并

spark集群安装并集成到hadoop集群

前言最近在搞hadoop+spark+python,所以就搭建了一个本地的hadoop环境,基础环境搭建地址hadoop2.7.7 分布式集群安装与配置本篇博客主要说明,如果搭建spark集群并集成到hadoop 安装流程安装spark需要先安装scala 注意在安装过程中需要对应spark与scala版本, spark 也要跟hadoop对应版本,具体的可以在spark官网下载页面查看下载sacla并安装 https://www.scala-lang.org/files/archive

WIN7 （64 位）安装AutoCAD2012失败解决方法

win7 64位,在安装AutoCAD 2012时安装不了,具体看了一下是因为Framework4.0安装失败,因为本机已经安装了Framework4.5, 打开log日志最后一行如下: .NET Framework Runtime 4.0 Failed Installation aborted, Result=1603 解决方法: 用记事本打开安装文件夹下的setup.ini在DOTNET Begin下的每个子项最后面一行加上 IGNORE_FAILURE=YES(表示忽略dotnet

Win7下Python2.7环境安装paramiko模块（转）

Win7下Python2.7环境安装paramiko模块,经过安装并测试成功,整理文档如下: 1.下载安装Windows版本的Python2.7,我默认装在C:\Python27 我的python已经安装,这里不做python2.7的安装步骤的详解 2.下载PyCrypto2.6 for Python 2.7 64bit 地址为: http://www.voidspace.org.uk/python/modules.shtml#pycrypto 以管理员权限执行安装程序,一路Next即可 3.下

【转】Win7+Ubuntu12.04.1硬盘安装错误及解决方案----不错

原文网址:http://blog.csdn.net/ys_073/article/details/8310115 前言: 说起来了,为了在Win7上进行硬盘安装Ubuntu浪费了整整一个晚上的时间.装的时候,不是这里的问题,就是那里的问题.但归根结底都是些小问题,只是被铺天盖地千篇一律的博客或帖子给误导了. 问题: 1.提示:filesystem type is ntfs, partition type 0x7 当时也没有提示是错误,所以我就没有管它.因为我的电脑的所有盘都是NTFS格式的.可是

Spark 个人实战系列(1)--Spark 集群安装

前言: CDH4不带yarn和spark, 因此需要自己搭建spark集群. 这边简单描述spark集群的安装过程, 并讲述spark的standalone模式, 以及对相关的脚本进行简单的分析. spark官网: http://spark.apache.org/downloads.html *)安装和部署环境: 172.16.1.109~172.16.1.111三台机器(对应域名为tw-node109~tw-node111), centos6.4, 已部署cdh4 目标是: 搭建一个spar