windows环境下RStudio下运行sparkR方法(local模式)

在RStudio中通过加载SparkR包来使用SparkR中的相关函数,但是因为每个人的hadoop及spark的版本都不同,所以需要编译适应不同版本的SparkR包。

1.资源准备

Rtools,R,Rstudio,SparkR-pkg-master源代码包,maven(用来编译源码)

2.软件安装及源码获取

》Rtools:安装好后 将Rtools及gcc-4.6.3对应的安装bin目录(如:Rtools\bin,及Rtools\gcc-4.6.3\bin ),放入系统环境变量path中。在命令提示符窗口中输入gcc --help,出现相应的信息则安装成功。

》 maven:下载maven包,将其bin配置到path。命令提示符输入mvn -version可以看到相关信息则配置成功.

》R与Rstudio安装

》 在github的官方网站(https://github.com/amplab-extras/SparkR-pkg)上下载zip包,将其解压。

3.在window环境下对SparkR-pkg-master源码进行编译,使之能被R使用。

》因为window系统下执行的是bat文件。所以需要对SparkR-pkg-master的install-dev.bat文件进行简单的修改:

将记录行 R.exe CMD INSTALL --library=".\lib" pkg\   中的R.exe改为本机上安装后的位置即指向可执行的R.exe,如:E:\stall_palce\R-3.3.0\R\bin\R.exe

》SparkR-pkg-master默认对应的是hadoop,spark版本为1.0.4及1.1.0,所以当版本不一致时,可以通过修改SparkR-pkg-master/pkg/src目录下的build.sbt文件,将其中对应的版本值改为自己要的版本:如改为hadoop为2.6.0,spark为1.5.1时。

val defaultHadoopVersion = "2.6.0"

val defaultSparkVersion = "1.5.1"

 
 

》打开命令提示符,进入到SparkR-pkg-master目录,输入install-dev,其会执行,最后在SparkR-pkg-master目录下生成一个新的目录lib,其中有编译后的SparkR,将编译后的SparkR复制到R的library下,即可在Rstudio通过library(SparkR)导入来开启SparkR的历程啦。(过程有点漫长,有点耐心)。

简单的wordcount示例测试-》可参考博客http://www.cnblogs.com/hseagle/p/3998853.html

注:在编译时,程序会自动到C盘找Rtools下的gcc.exe。找不到会报编译失败的错误,但我不知道设置的参数在哪里,所以将安装后的Rtools复制到c盘解决了这个error。

时间: 2024-11-07 05:20:19

windows环境下RStudio下运行sparkR方法(local模式)的相关文章

Windows环境的apache下Virtual Host 设置

1.找到C:\Windows\System32\drivers\etc下的hosts文件,在文件最后增加以下内容: 127.0.0.1 mysite.net 需要注意的是,此hosts文件可能会不让保存,解决的方法是将此hosts文件拷贝至其它位置(比如桌面),修改完毕后拷贝回来,将原文件覆盖即可. 2.打开Apache的配置文件httpd.conf,找到Include conf/extra/httpd-vhosts.conf这行,如果这一句前面有#的话,将其去掉. 3.打开Apache中con

提高VMware虚拟机下服务系统运行性能方法

因测试环境物理资源有限,往往公司会提供一台配置相对不错的物理服务器让我们在该服务器里面安装多个虚拟主机,如果物理服务器是linux之类的操作系统可以使用docker容器,如果使用的是wind2008等服务操作系统,部分会选择使用VM虚拟机,对于部分测试人员来说使用wind2008等服务操作系统当宿主机,然后在主机里面安装对应的不同类型的VM 虚拟操作系统相对比较容易,但是性能方面也是成为一大问题,下面是关于VM虚拟软件使用前一些优化配置方法建议,提供参考,可以大大提高VMware虚拟机的运行速度

ubuntu下tomcat监视运行进度方法

如果你一直在Windows下使用Tomcat,那么你一定会知道:在运行Tomcat的时候,会弹出新的控制台窗口,然 后相关的服务器状态信息以及程序运行过程中输出的信息都会在这个新窗口中显示出来.但是到了Linux,自带的shell文件并不会打开一个新的终端窗 口,这使得一些Linux新手(包括我)调试程序的时候遇到不少麻烦.这个问题该如何解决呢?首 先,我们得知道那些在Windows的控制台中显示的信息到现在都跑到哪里去了.这个问题不难,就在logs目录的两个文件中,一个是 catalina.o

windows环境下使用apxs编译添加apache模块

windows环境下使用apxs编译添加apache模块 简介说明:本文使用mod_limitipconn模块为例. 环境: windows7 x86系统 apache 2.4.18 目标: 在windows环境下,利用mod_limitipconn0.24源码.apxs为apache2.4.18添加mod_limitipconn模块. 分析: limitipconn模块最新版已经支持apache2.4了.但是没有编译好的对应版本.因此需要自己动手编译模块.在windows下要实现这个目标,需要

mr本地运行的几种模式

MR程序的几种提交运行模式 本地模型运行 1/在windows的eclipse里面直接运行main方法,就会将job提交给本地执行器localjobrunner执行 ----输入输出数据可以放在本地路径下(c:/wc/srcdata/) ----输入输出数据也可以放在hdfs中(hdfs://主机名:9000/wc/srcdata) 2/在linux的eclipse里面直接运行main方法,但是不要添加yarn相关的配置,也会提交给localjobrunner执行 ----输入输出数据可以放在本

【转+修正】在Windows和Rstudio下本地安装SparkR

(根据最新情况进行修正) 毋庸置疑,Spark已经成为最火的大数据工具,本文详细介绍安装SparkR的方法,让你在5分钟之内能在本地使用. ?环境要求:java 7+ .R 及 Rstudio                  Rtools (下载地址:https://cran.r-project.org/bin/windows/Rtools/) 第一步:下载Spark ?在浏览器打开 http://spark.apache.org/,点击右边的绿色按钮“Download Spark” 你会看到

MinGW在Windows环境下配合命令提示符运行C/C++

http://jingyan.baidu.com/article/4853e1e5787d6b1909f726f8.html 在电脑中配置MinGW环境. 具体参见我的另一篇分享经验--MinGW在Windows环境下的配置: http://jingyan.baidu.com/article/6b97984da0bd8a1ca2b0bf90.html 2 打开命令行提示符. 具体参见我的另一篇分享经验--Windows环境下如何打开命令行提示符 : http://jingyan.baidu.co

Circos在windows环境下运行的详细教程

#################################################################################### 一.下载安装circos及perl ##################################################################################### 1. 安装Perl运行circos需要Perl来编译其各种code,unix环境默认安装Perl的,而对于windows用

关于Windows_8.1/Windows 7下普通用户运行软件提示需要输入管理员密码解决方法

关于Windows_8.1/Windows 7下普通用户运行软件提示需要输入管理员密码解决方法 1. 问题起因 最近遇到一个比较棘手问题,顺丰速运修改了快递单填写方式,必须要安装他们公司开发的一个软件(软件名叫"速打线下用户专用版"),这个软件非常奇葩,只要是普通用户运行该软件,就弹出"用户控制"的对话框要求输入管理员密码,要么就把用户账户加入管理员组才能正常运行,作为一家比较有规模的企业,怎么可能随便开放管理员权限啊!这样做将会有无尽麻烦(如果你是管理员,你懂的)