Win7 单机Spark和PySpark安装

欢呼一下先。软件环境菜鸟的我终于把单机Spark 和 Pyspark 安装成功了。加油加油!!!

1. 安装方法参考:

已安装Pycharm 和 Intellij IDEA。

win7 PySpark 安装:

http://blog.csdn.net/a819825294/article/details/51782773

win7 Spark安装:

http://blog.csdn.net/a819825294/article/details/51627083

2. 遇到的那些问题:

1) Scala 需要安装两次:

Scala 本地安装,然后配置环境。在cmd 输入 scala 验证是否成功。

Intellij IDEA 安装scala插件。

2) 提示 no Module SDK for Scala
no Module SDK for Scala
(in IntelliJ Idea)

方案:点击该提示,选择download SDK 添加即可。

3)
15/05/27 11:20:53 INFO SecurityManager: SecurityManager: authentication disabled; ui acls disabled; users with view permissions: Set(lenovo); users with modify permissions: Set(lenovo)
Exception in thread "main" java.lang.NoSuchMethodError: scala.collection.immutable.HashSet$.empty()Lscala/collection/immutable/HashSet;

Scala 和 Spark BAN版本不兼容的问题。 

方案:重新下载安装Scala.

4)
Exception in thread "main" java.lang.ClassNotFoundException: WordCount
    at java.net.URLClassLoader$1.run(URLClassLoader.java:366)
    at java.net.URLClassLoader$1.run(URLClassLoader.java:355)
    at java.security.AccessController.doPrivileged(Native Method)
    at java.net.URLClassLoader.findClass(URLClassLoader.java:354)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:425)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:358)
    at java.lang.Class.forName0(Native Method)
    at java.lang.Class.forName(Class.java:270)
    at org.apache.spark.deploy.SparkSubmit$.launch(SparkSubmit.scala:289)
    at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:55)
    at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)

方案: 确认一下路径是否正确,以及类的大小写是否有误。  

5)
14/07/02 19:59:31 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
14/07/02 19:59:31 ERROR Shell: Failed to locate the winutils binary in the hadoop binary path
java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.
	at org.apache.hadoop.util.Shell.getQualifiedBinPath(Shell.java:318)
	at org.apache.hadoop.util.Shell.getWinUtilsPath(Shell.java:333)
	at org.apache.hadoop.util.Shell.<clinit>(Shell.java:326)
	at org.apache.hadoop.util.StringUtils.<clinit>(StringUtils.java:76)
	at org.apache.hadoop.security.Groups.parseStaticMapping(Groups.java:93)
	at org.apache.hadoop.security.Groups.<init>(Groups.java:77)
	at org.apache.hadoop.security.Groups.getUserToGroupsMappingService(Groups.java:240)
	at org.apache.hadoop.security.UserGroupInformation.initialize(UserGroupInformation.java:255)
	at org.apache.hadoop.security.UserGroupInformation.setConfiguration(UserGroupInformation.java:283)
	at org.apache.spark.deploy.SparkHadoopUtil.<init>(SparkHadoopUtil.scala:36)
	at org.apache.spark.deploy.SparkHadoopUtil$.<init>(SparkHadoopUtil.scala:109)
	at org.apache.spark.deploy.SparkHadoopUtil$.<clinit>(SparkHadoopUtil.scala)
	at org.apache.spark.SparkContext.<init>(SparkContext.scala:228)
	at org.apache.spark.SparkContext.<init>(SparkContext.scala:97)

方案:

下载 winutils.exe 文件,然后设置环境变量

intellij IDEA 版 Scala:

System.setProperty("hadoop.home.dir","E:\\zhuangji\\winutil\\")

Pycharm 版Python:

import os
os.environ["HADOOP_HOME"]="E:\\zhuangji\\winutil\\"

当然也可以在计算机---〉右键属性--〉环境变量。。。

但是不知道即使重启了计算机还是依然报错。最后在代码中设置环境变量,问题解决。

6)按照3的步骤重新安装后还是同样的错误。

检查后发现,Intellij IDEA的library中出现多个版本的Scala, 显然新安装的Scala 并未取代旧的Scala.

需要删除旧的scala。

时间: 2024-10-08 14:18:27

Win7 单机Spark和PySpark安装的相关文章

centos部署单机spark大数据环境(一)--【安装mysql】

最近在工作上,需要在centos上面装spark大数据环境,特此记录一下单机spark部署步骤: 一.Centos7安装mysql 1.官网下载mysql-5.5.61-linux-glibc2.12-x86_64.tar.gz安装包 (使用在线安装,受网络影响,推荐离线安装) 下载地址:https://dev.mysql.com/downloads/mysql/5.5.html#downloads 2.centos7卸载自带mariadb 因为centos7后,系统自带了mariadb,会和安

Spark介绍,安装

1.简单介绍和安装: (1)Spark使用scala编写,运行在JVM(java虚拟机)上.所以,安装Spark需要先安装JDK.安装好java后,到官网下载安装包(压缩文件):http://spark.apache.org/downloads.html ,当前使用的版本是:spark-1.6.1-bin-hadoop2.4.tgz. (2)解压,查看目录内容: tar -zxvf spark-1.6.1-bin-hadoop2.4.tgz cd spark-1.6.1-bin-hadoop2.

Hadoop:Hadoop单机伪分布式的安装和配置

http://blog.csdn.net/pipisorry/article/details/51623195 因为lz的linux系统已经安装好了很多开发环境,可能下面的步骤有遗漏. 之前是在docker中配置的hadoop单机伪分布式[Hadoop:Hadoop单机伪分布式的安装和配置 ],并且在docker只有root用户,所有没有权限问题存在. 这里直接在linux下配置,主要是为了能用netbeans ide调试hadoop程序,并且使用的用户就是开机时登录的用户pika. 本教程配置

pyspark 安装配置【linux &amp;&amp; win】

一.windows 安装 1.下载spark spark-2.3.1-bin-hadoop2.7.tgz 2.配置spark 环境变量 set SPARK_HOME=d:\spark2.3.1 set PATH=%SPARK_HOME%\bin;%PATH% 3.安装python的pyspark模块 pip install pyspark -i https://pypi.tuna.tsinghua.edu.cn/simple/ 4.下载安装hadoop 或者 组件 1)下载hadoop软件包,并

spark集群安装并集成到hadoop集群

前言 最近在搞hadoop+spark+python,所以就搭建了一个本地的hadoop环境,基础环境搭建地址hadoop2.7.7 分布式集群安装与配置 本篇博客主要说明,如果搭建spark集群并集成到hadoop 安装流程 安装spark需要先安装scala 注意在安装过程中需要对应spark与scala版本, spark 也要跟hadoop对应版本,具体的可以在spark官网下载页面查看 下载sacla并安装 https://www.scala-lang.org/files/archive

WIN7 (64 位)安装AutoCAD2012失败解决方法

win7 64位,在安装AutoCAD 2012时安装不了,具体看了一下是因为Framework4.0安装失败,因为本机已经安装了Framework4.5, 打开log日志最后一行如下: .NET Framework Runtime 4.0 Failed Installation aborted, Result=1603 解决方法: 用记事本打开安装文件夹下的setup.ini在DOTNET Begin下的每个子项最后面一行加上     IGNORE_FAILURE=YES(表示忽略dotnet

Win7下Python2.7环境安装paramiko模块(转)

Win7下Python2.7环境安装paramiko模块,经过安装并测试成功,整理文档如下: 1.下载安装Windows版本的Python2.7,我默认装在C:\Python27 我的python已经安装,这里不做python2.7的安装步骤的详解 2.下载PyCrypto2.6 for Python 2.7 64bit 地址为: http://www.voidspace.org.uk/python/modules.shtml#pycrypto 以管理员权限执行安装程序,一路Next即可 3.下

【转】Win7+Ubuntu12.04.1硬盘安装错误及解决方案----不错

原文网址:http://blog.csdn.net/ys_073/article/details/8310115 前言: 说起来了,为了在Win7上进行硬盘安装Ubuntu浪费了整整一个晚上的时间.装的时候,不是这里的问题,就是那里的问题.但归根结底都是些小问题,只是被铺天盖地千篇一律的博客或帖子给误导了. 问题: 1.提示:filesystem type is ntfs, partition type 0x7 当时也没有提示是错误,所以我就没有管它.因为我的电脑的所有盘都是NTFS格式的.可是

Spark 个人实战系列(1)--Spark 集群安装

前言: CDH4不带yarn和spark, 因此需要自己搭建spark集群. 这边简单描述spark集群的安装过程, 并讲述spark的standalone模式, 以及对相关的脚本进行简单的分析. spark官网: http://spark.apache.org/downloads.html *)安装和部署 环境: 172.16.1.109~172.16.1.111三台机器(对应域名为tw-node109~tw-node111), centos6.4, 已部署cdh4 目标是: 搭建一个spar