说明,由于spark是用scala写的。因此,不管是在看源码还是在写spark有关的代码的时候,都最好是用scala。那么作为一个程序员首先是必须要把手中的宝剑给磨砺了。那就是创建好编写scala的代码环境。在这里由于我个人之前比较熟悉eclipse(虽然觉得他有点掉档次,踏实工具嘛,当然最好是选择自己最熟悉的辣)。好了,那么我想实现的就是在eclipse中创建maven工程来管理spark的scala的代码。在这个过程中,遇到了几个问题:
1、如何在eclipse中安装scala的插件
安装scala的插件可以在scala-IDE的官网上下载:http://scala-ide.org/,写在好了之后,相应的IDE往往是集成最新的版本的scala,如果你是纯粹的写scala的代码的话,是没有任何问题的。但是如果写有关spark的代码的话,就可能需要安装scala-2.10了。
实际上你可以直接下载对应的Scala For Eclipse的IDE即可。
2、如何用maven工程写scala的代码
往往上面在创建maven工程的时候,会没有scala-archetype-simple的模型,因此需要手动添加自定义的catalog,添加的方法就是如下所示:
步骤:window-->preferences--->maven--->Archetype 接下来的操作如下图所示:
网址:http://repo1.maven.org/maven2/archetype-catalog.xml
下一步:
3、最后一个问题最重要,由于spark是用scala2.10.4写的,那么你在写有关spark的代码的时候,当然也必须用scala2.10.4咯
ok,现在可以创建了maven的scala的工程了,但是还有一个小小的问题,原因是spark是用scala-2.10.x写的。因此,你在创建maven工程写spark的scala的代码的时候,需要修改一下对应的pom.xml中scala的版本即可。如下所示:
将上面的红色部分的版本进行修改,修改成如下所示:
保存即可。此时你创建的开发spark的环境已经搭建好了。接下来就愉快的玩spark吧