基于CDH5.4的Spark1.4.1下SparkR的部署

[Author]: kwu (和讯大数据)

基本CDH5.4的Spark1.4.1下SparkR的部署,R与Spark的结合为数据分析提供高效的解决方案,Hadoop的中hdfs为数据分析提供分布式存储。本文介绍集成安装的步骤:

1、集群的环境

CDH5.4+Spark1.4.1

配置环境变量

#java
export JAVA_HOME=/usr/java/jdk1.7.0_67-cloudera
export JAVA_BIN=$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$PATH:$JAVA_HOME/bin
export JAVA_LIBRARY_PATH=/opt/cloudera/parcels/CDH/lib/hadoop/lib/native
export MAVEN_HOME=/opt/softwares/apache-maven-3.3.3
export PATH=$PATH:$MAVEN_HOME/bin

#rhadoop
export HADOOP_HOME=/opt/cloudera/parcels/CDH/lib/hadoop
export HADOOP_CONF_DIR=/etc/hadoop/conf
export HADOOP_CMD=/usr/bin/hadoop
export HADOOP_STREAMING=/opt/cloudera/parcels/CDH/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming-2.6.0-mr1-cdh5.4.0.jar
export HIVE_HOME=/opt/cloudera/parcels/CDH/lib/hive
export R_HOME=/usr/lib64/R

#spark
export SPARK_HOME=/opt/modules/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
export LANG=zh_CN.UTF-8

2、R语言环境最新版本R-3.2.2

1) 安装R前需要打的补丁

yum -y install gcc-gfortran
yum -y install gcc gcc-c++
yum -y install readline-devel
yum -y install libXt-devel

2) 下载R安装需要的软件包,注意这里不要使用yum安装,否则造成java版本不一致的情况。

需要下载的包:

R-3.2.2.tar.gz

rJava_0.9-7.tar.gz

rhdfs_1.0.8.tar.gz

下载链接: http://pan.baidu.com/s/1nt5qkJn

3)  安装R-3.2.3

解压安装包

tar zxfv R-3.2.2.tar.gz

编译安装

./configure
make && make install

4) 安装rJava与rhdfs

R CMD INSTALL "rJava_0.9-7.tar.gz"

R CMD INSTALL "rhdfs_1.0.8.tar.gz"

5)设置native

export JAVA_LIBRARY_PATH=/opt/cloudera/parcels/CDH/lib/hadoop/lib/native

native下面的libhadoop.so.0 及 libhadoop.so.1.0.0拷贝到 /usr/lib64

6)注意以上步骤,需要集群中所有的节点都要安装。

3、运行sparkR

最新版本的Spark1.4.1在编译时,就集成了sparkR的组件:

启动sparkR

/opt/modules/spark/bin/sparkR --master spark://10.130.2.20:7077 --executor-memory 8g --total-executor-cores 45 --conf spark.ui.port=54089

启动时分配相应的内存、CPU资源及UI的端口

1)启动日志:

开始显示R的版本,这与原来的R启动显示一致

启动完毕出现 Welcome to SparkR 则为成功运行sparkR

2) 在spark集群监控页面查看:

SparkR与集群中的任务一样,出现在Running Applications的列表中

ok , 基于CDH5.4的Spark1.4.1下SparkR的部署完毕,以上提到命令及安装包本人亲测试并运行成功。转载请注明和讯大数据,谢谢。

版权声明:本文为博主原创文章,未经博主允许不得转载。

时间: 2024-10-10 06:10:35

基于CDH5.4的Spark1.4.1下SparkR的部署的相关文章

【VMware虚拟化解决方案】 基于Win2012 R2 WDS下ESXI全自动部署解决方案

一.项目需求: 近期因项目需要准备部署100台ESXI主机,可是存在一个问题,这100台主机分别位于不同城市之间,包括上海.广州.重庆.北京等,如果去到现场进行安装,非常的费力费时,根本不可能在一个星期内完成此项目需求,这将影响整个项目的进度安排.为此对客户的网络环境进行了分析,公司总部与其它分公司之前采用10M专线进行连接,这对我来说是一件很让我兴奋的消息,我们可以通过PXE实现ESXI的全自动安装,按照一台机大约25分钟的时候计算,并行进行5台机的部署,25*(100/5)=500分钟即可完

实现一个基于 SharePoint 2013 的 Timecard 应用(下)

现在,基于 Timecard 数据来一点儿数据分析. 应用需求 对于 Timecard,分析下面 2 个方面: 对于单个项目,分析其中每个成员的工时占比,以此了解工作量分配,为组间人员调度提供参考. 对于整个公司,分析每周 Timecard 的总工时变化趋势,以此了解公司人员的利用率.过高,如100%(甚至超过 100%),或者过低的利用率都是不可取的. 应用设计 对于第一种分析,选择饼图比较合适.因为是针对每个项目的,所以,还要提供一个选择项目的选项.比如下面这样: 从设计图可以看出来,我们需

基于spark1.4.1的sparkR的实例操作

[Author]: kwu 基于spark1.4.1的sparkR的实例操作,sparkR的操作基本语法与R一致,其中添加了rJava.rhdfs.SparkR的依赖库的支持. 1.集群启动SparkR 输入 bdcmagicR 关于启动脚本的封装参看 : http://blog.csdn.net/bdchome/article/details/48092499 2.加载依赖库 library("rJava") library("rhdfs") library(&q

基于HBase Hadoop 分布式集群环境下的MapReduce程序开发

HBase分布式集群环境搭建成功后,连续4.5天实验客户端Map/Reduce程序开发,这方面的代码网上多得是,写个测试代码非常容易,可是真正运行起来可说是历经挫折.下面就是我最终调通并让程序在集群上运行起来的一些经验教训. 一.首先说一下我的环境: 1,集群的环境配置请见这篇博文. 2,开发客户机环境:操作系统是CentOS6.5,JDK版本是1.7.0-60,开发工具是Eclipse(原始安装是从google的ADT网站下载的ADT专用开发环境,后来加装了Java企业开发的工具,启动Flas

CentOS 7 下Django项目部署教程(基于uwsgi和Nginx)

本文主要介绍如何在Linux平台上部署Django相关项目,关于Django项目的部署在互联网论坛上有很多的资料,笔者在查阅众多资料并经过实践后发现结果并不如意(或多或少总是遇到一些问题,往往与资料的预期不相符).在浏览了许多资料后笔者整理得出了部署Django项目的一般性方法,部署的方法有很多种,在此笔者选择了较为常用的基于uwsgi和Nginx的部署方案. 一.前提准备 部署前主要是需要做一些与服务器相关的准备工作,本次教程的服务器采用了阿里云的 CentOS 7.3 64位,当然作为资料学

Win10 IoT C#开发 2 - 创建基于XAML的UI程序 及 应用的三种部署方法

原文:Win10 IoT C#开发 2 - 创建基于XAML的UI程序 及 应用的三种部署方法 Windows 10 IoT Core 是微软针对物联网市场的一个重要产品,与以往的Windows版本不同,是为物联网设备专门设计的,硬件也不仅仅限于x86架构,同时可以在ARM架构上运行. 上一章我们讲了Raspberry安装Win10 IoT系统及搭建Visual Studio 2015开发环境的方法(http://www.cnblogs.com/cloudtech/p/5562120.html)

Linux系统下Jsp环境部署

-------本文大纲 简介 Jsp环境部署 Tomcat目录结构 SHOP++网上商城系统安装 --------------- 一.简介 JSP JSP(Java Server Pages)是由Sun Microsystems公司倡导.许多公司参与一起建立的一种动态网页技术标准.在传统的网页HTML文件(*.htm,*.html)中插入Java程序段(Scriptlet)和JSP标记(tag),从而形成JSP文件(*.jsp).简单地说,jsp就是可能包含了java程序段的html文件(由ja

Centos7.4下用Docker-Compose部署WordPress

原文:Centos7.4下用Docker-Compose部署WordPress 前言 最近在学习Docker相关知识,通过阅读第一本Docker书后,正想着手实战用一下这个技术,但又不太敢直接在项目环境下动手.考虑足足三秒钟之后决定买个阿里云ECS搭建一个属于自己的基于Docker的WordPress博客Daniel Fu's hut传送门. 本博客搭建环境(阿里云ECS的购买与基本的安全组配置等工作在文中省略,各位看官可自行研究): 阿里云ECS Centos 7.4 部署工具: Docker

【微服务那些事】Microservices场景下的持续部署

近两年作者在海外交付中参与 microservices 下的团队,为客户提升 Finance 系统的扩展性.作者所在团队,3 对开发(pair programming, 2 个 dev 为 pair)为客户支撑着 11 个 services,持续部署流水线(CD pipeline)是其中必不可少的一个技术实践.本次分享作者将从实践的角度分享 microservices 架构下的持续部署(CD). 内容概述 1. microservice 概述:简要介绍 microservice 架构下的挑战 2