1、下载spark 解压到 D盘,现在的版本是1.2.1
2、下载scala 安装到d:\Program Files (x86)\scala\
安装好scala后需要配置环境变量
修改path这个变量,把Scala的bin目录也放进去D:\Program Files (x86)\scala\bin(现在版本的scala会自动修改系统的环境变量,提示的时候选择不阻止)
测试是否配置成功,在命令行中输入scala -version
3、按照Spark官方的安装指南,在解压的目录下,运行:sbt/sbt package或者sbt assembly
可能会出现错误,这是由于sbt版本的问题,下载windows环境下的sbt,安装好后将sbt的文件复制到spark目录下。
再次cmd在spark目录下运行sbt package
4、遇到git不是内部命令错误的解决方法是:安装windows版本的git工具,安装好后配置环境变量。
找到git安装路径中bin的位置,如:D:\Program Files(x86)\Git\bin
找到git安装路径中git-core的位置,如:D:\Program Files(x86)\Git\libexec\git-core;
加入到环境变量中;
5、安装好后再运行sbt package
由于sbt需要从国外下载Spark的依赖包,必须设置代理:
cmd命令行添加:set HTTP_PROXY=http://localhost:8123
6、编译成功后在spark下运行spark-shell
出现D:\program file (x86)不是内部活外部命令的错误,这是由于空格问题产生的,只需要在cmd进入spark目录下的过程中将D:\Program File (x86)则改为progra~2(
D:\Program File则改为progra~1)即可。
再次输入spark-shell,现在可以开始spark windows之旅了!!