在CentOS上安装并运行SparkR

环境配置——

  • 操作系统:CentOS 6.5
  • JDK版本:1.7.0_67
  • Hadoop集群版本:CDH 5.3.0

安装过程——

1、安装R

yum install -y R

2、安装curl-devel(非常重要!否则无法进行RCurl包的安装,进而无法安装devtools)

yum install -y curl-devel

3、设置必要的环境变量(非常重要!这里必须设置成Hadoop环境对应的版本和Yarn对应的版本,否则用Spark与Hadoop HDFS数据通信会报Hadoop 连接器版本不匹配)

vi + /etc/profile

...
export USE_YARN=1
export SPARK_VERSION=1.1.0
export SPARK_YARN_VERSION=2.5.0-cdh5.3.0
export SPARK_HADOOP_VERSION=2.5.0-cdh5.3.0

4、进入R命令行,安装R包(最后一步安装SparkR时,需要安装很多依赖包,过程很漫长,可能需要重试多次才能成功)

install.packages("RCurl")
install.packages("devtools")
library(devtools)
install_github("amplab-extras/SparkR-pkg", subdir="pkg")

5、大功告成,安装完毕!现在用SparkR读取HDFS中的文件:

library(SparkR)
sc <- sparkR.init(master = "local", "RwordCount")
lines <- textFile(sc, "hdfs://quickstart.cloudera:8020/test/test.txt")
words <- flatMap(lines, function(line) {
    strsplit(line, " ")[[1]]
})
wordCount <- lapply(words, function(word) {
    list(word, 1L)
})
counts <- reduceByKey(wordCount, "+", 2L)
output <- collect(counts)
for (count in output) {
    cat(count[[1]], ": ", count[[2]], "\n")
}

参考资料:

时间: 2024-08-29 19:56:01

在CentOS上安装并运行SparkR的相关文章

在CentOS上安装GO运行环境及其开发工具LiteIDE

早在五年前,我就想着要是微软出一套基于C语言的易于开发的Web框架该多好,那性能肯定比Asp.Net要高很多.后来知道有个PHP性能不错,但是又由于讨厌在HTML页面里面写蛋疼的后台代码,于是一度很鄙视PHP.最近由于云计算的风行,GO语言也被追捧,下面我就在CentOS系统上安装GO运行时和开发工具做尝试. 一.安装GO运行环境 1.安装GO运行环境,必须确保机子上已经安装了GCC编译器.想知道机子上有没有安装GCC简单,只需输入"gcc --version"查看即可,如果提示了GC

centos上安装php运行环境

可以参考,但我安装的过程不完全一样http://www.cnblogs.com/liulun/p/3535346.html 我先安装的apache,直接执行的yum -y install httpd 我查看了apache相关的包 安装apache完毕 测试 然后安装的php,直接执行的yum -y install php 然后发现访问php文件直接显示源码了,就又执行了 yum -y install httpd-devel yum -u install php-devel 然后访问成功了 然后装

CentOS上安装Hadoop2.7,添加数据节点,运行wordcount

安装hadoop的步骤比较繁琐,但是并不难. 在CentOS上安装Hadoop2.7 1. 安装 CentOS,注:图形界面并无必要 2. 在CentOS里设置静态IP,手工编辑如下4个文件 /etc/hosts /etc/sysconfig/netwok /etc/hostname /etc/sysconfig/network-scripts/ifcfg-eno1677773 3. 关闭防火墙 Close firewalld systemctl stop firewalld.service #

Linux系统入门学习:在CentOS上安装phpMyAdmin

问题:我正在CentOS上运行一个MySQL/MariaDB服务,并且我想要通过网络接口来用phpMyAdmin来管理数据库.在CentOS上安装phpMyAdmin的最佳方法是什么? phpMyAdmin是一款以PHP为基础,基于Web的MySQL/MariaDB数据库管理工具.虽然已经存在着一些诸如Adminer的轻量级数据库管理工具, 但是phpMyAdmin还是更加广泛应用于网站管理员之中来进行各种MySQL/MariaDB的管理任务.它支持几乎所有MySQL数据库/表的相关操作,比如浏

NoSql1 在Linux(CentOS)上安装memcached及使用

前言:       今天是初五,生活基本要从过年的节奏中回归到正常的生活了,所以想想也该想想与工作有关的事情了.我之前在工作中会经常使用memcached和redis,但是自己一直没有时间系统的好好看下这部分的基础知识,所以现在打算好好把这两部分的基础再看一看.我会把看到的东西努力记录下来,给自己以后留个参考,如果能帮助到大家,自然是更好了~. 1.在Linux(CentOS)上安装memcached及使用.http://www.cnblogs.com/PurpleDream/p/4298208

centos上安装git

按照这篇文章 安装依赖: yum install curl yum install curl-devel yum install zlib-devel yum install openssl-devel yum install perl yum install cpio yum install expat-devel yum install gettext-devel 下载git源码包: https://github.com/git/git/releases 安装: cd /git源码包解压路径

在Centos上安装RabbitMQ流程(转)

在Centos上安装RabbitMQ流程------------------------ 1. 需求 由于项目中要用到消息队列,经过ActiveMQ与RabbitMQ的比较,最终选择了RabbbitMQ做为我们的消息系统,但是ActiveMQ在效率和可扩展性上都不错,只是网上很多人反应它会时常崩溃,而且随着消息并发数的增加,时常会出现连接很慢的情况.   目前我测试的服务器系统信息如下: LSB Version:    :core-3.1-amd64:core-3.1-ia32:core-3.1

在CentOS上安装tomcat

先从tomcat网站上下载最新的gz安装包 文件名:apache-tomcat-8.0.8.tar.gz 将文件上传到/usr/local目录中 执行解压缩 tar zxvf apache-tomcat-8.0.8.tar.gz 将目录apache-tomcat-8.0.8命名为tomcat mv apache-tomcat-8.0.8 tomcat 运行/usr/local/tomcat/bin/startup.sh就会启动tomcat 配置自动启动脚本: #!/bin/bash # chkc

centos上安装supervisor来管理dotnetcore等应用程序

supervisor 介绍: 这是一款用python编写的进程管理工具,可以守护他管理的所有进程,防止异常退出,以及提供一个可视化的web界面来手动管理,打开关闭重启各种应用,界面如下: 关于在centos上安装supervisor: 1.通过yum安装: yum install supervisor 2.配置supervisor: 我们去用vim编辑/etc/supervisord.conf这个文件,可以看到有很多选项 第一个节点是UnixSocket,是unix进程间通信的,默认开启,后面本