在CDH上用外部Spark2.2.1安装和配置 CarbonData

在CDH上用外部Spark2.2.1 (hadoop free版本)standalone 模式安装和配置 CarbonData

=====================================================================

cdh中外部spark(standalone模式安装)

=====================================================================

5、把安装包和配置文件拷贝到其他机器

--------------------------------------------------------------------------

复制hdfs、hive等配置文件到spark的conf目录

--------------------------------------------------------------------------

spark-env.sh文件最后新增的配置

export SPARK_HOME=/opt/cloudera/parcels/spark2.2.1/lib/spark2

export SPARK_DAEMON_CLASSPATH=$SPARK_HOME/jars/*:$SPARK_HOME/carbonlib/*

# - 这里的dsd为spark的master主机

export SPARK_MASTER_HOST=dsd

export JAVA_HOME=/usr/java/jdk1.8.0_112

export HADOOP_CONF_DIR=/etc/hadoop/conf

export YARN_CONF_DIR=/etc/hadoop/conf.cloudera.yarn/

# Passing a Hadoop configuration directory

export SPARK_DIST_CLASSPATH=$(hadoop --config /etc/hadoop/conf classpath)

--------------------------------------------------------------------------

spark-defaults.conf文件最后新增的配置

spark.driver.extraJavaOptions="-Dcarbon.properties.filepath = /opt/cloudera/parcels/spark2.2.1/lib/spark2/conf/carbon.properties"

spark.executor.extraJavaOptions="-Dcarbon.properties.filepath = /opt/cloudera/parcels/spark2.2.1/lib/spark2/conf/carbon.properties"

--------------------------------------------------------------------------

slaves文件最后新增的配置(把所有的spark节点都加入,包括master)

dsf

dse

dsd

dsb

ddf

--------------------------------------------------------------------------

分发安装包:

scp -r /opt/cloudera/parcels/spark2.2.1 [email protected]:/opt/cloudera/parcels/

=====================================================================

=====================================================================

=====================================================================

编译需要版本的carbondata

=====================================================================

参考:

http://www.zhuyongpeng.cn/1557.html

中文文档

http://carbondata.iteblog.com/installation-guide.html

--------------------------------------------------------------------------

编译carbondata的cdh版本安装包:直接用官网的apache版本,装上去启动不了。

到安装目录下去看一下spark的版本 #不要看cloudera manager的包管理上面的版本,那个是错误的

直接在centos上编译、在window上编译不知道有没有区别。2种都试了。都不行,最终发现不是编译的carbondata有问题。是cdh集成的spark有问题。怎么试都不行。

最终换成原版的spark2.2.1(hadoop free版本的)

解决maven仓库默认不支持cdh

目前maven仓库中没有支持cdh的相关依赖。cloudera自己建立了一个相关的仓库。要想利用maven添加相关依赖,则必须单独添加cloudera仓库。

一、项目的pom.xml文件里面, 添加仓库配置

<repositories>

<repository>

<id>cloudera</id>

<url>https://repository.cloudera.com/artifactory/cloudera-repos/</url>

</repository>

</repositories>

三、在国内使用maven中央仓库一般会有网络问题,所以大部分人会使用aliyun仓库或者其他开源的仓库。

所以需要修改setting.xml (以下配置中 *,!cloudera 表示除了aliyun仓库还使用cloudera仓库)

<mirror>

<id>nexus-aliyun</id>

<mirrorOf>*,!cloudera</mirrorOf>

<name>Nexus aliyun</name>

<url>

http://maven.aliyun.com/nexus/content/groups/public

</url>

</mirror>

四、若未设置自动更新maven项目,则需更新maven项目,然后等待下载相关依赖。完成之后便可以使用cdh进行开发啦

--------------------------------------------------------------------------

在centos下编译

---------------------------

安装thrift-0.9.3,此步骤较为繁琐,需要其他库的支持。没有详细记录。

yum install automake bison flex g++ git libboost-all-dev libevent-dev libssl-dev libtool make pkg-config

下载thrift-0.9.3

http://archive.apache.org/dist/thrift/0.9.3/thrift-0.9.3.tar.gz

tar -xzvf thrift-0.9.3.tar.gz

---------------------------

安装mvn

tar zxvf apache-maven-3.5.3-bin.tar.gz -C /root/ssss/

vim /etc/profile #添加mvn的配置信息

export M2_HOME=/root/ssss/apache-maven-3.5.3/ export PATH=$PATH:$M2_HOME/bin

source /etc/profile

mvn -version

---------------------------

mvn -Pwindows -Dmaven.test.skip=true -Pspark-2.2 -Dspark.version=2.2.1 clean package

下载了好几次才完整的下载了所有依赖jar包。

http://repo1.maven.org/maven2/org/apache/spark/spark-streaming_2.11/2.2.0/

=====================================================================

=====================================================================

=====================================================================

spark集成carbondata

=====================================================================

编译 CarbonData 工程,并且从 carbondata-parent-1.4.0\assembly\target\scala-2.11路径获取 apache-carbondata-1.4.0-bin-spark2.2.0.cloudera2-hadoop2.7.2.jar。

最后将这个 jar 复制到 $SPARK_HOME/carbonlib 文件夹。

注意: 如果 $SPARK_HOME 路径下不存在 carbonlib 文件夹,请事先创建它。

压缩 carbonlib 文件夹的内容到tar.gz 文件中,并将这个压缩文件移到 carbonlib 文件夹下面。

cd /opt/cloudera/parcels/spark2.2.1/lib/spark2/ tar -zcvf carbonlib.tar.gz carbonlib/ mv carbonlib.tar.gz carbonlib/

--------------------------------------------------------------------------

--------------------------------------------------------------------------

3.1、到carbondata的源码当中找到carbon.properties配置文件,并拷贝到spark的配置文件目录

3.2、将下面的配置添加到 $SPARK_HOME/conf/carbon.properties 文件中:

carbon.storelocation=hdfs://nameservice1/ddhome/carbondata

carbon.badRecords.location=hdfs://nameservice1/ddhome/carbondata/badRecords

--------------------------------------------------------------------------

4、在hdfs中建立上面配置的hdfs://nameservice1/ddhome/carbondata目录。

hadoop fs -mkdir -p /ddhome/carbondata

hadoop fs -mkdir -p /ddhome/carbondata_badRecords

hadoop fs -mkdir -p /ddhome/carbondata_data

授予访问目录的权限,否则文件写入不了

hadoop fs -chmod -R 777 /ddhome/carbondata

hadoop fs -chmod -R 777 /ddhome/carbondata_badRecords

hadoop fs -chmod -R 777 /ddhome/carbondata_data

=====================================================================

--------------------------------------------------------------------------

6、启动:验证安装

启动:standalone集群:有效

/opt/cloudera/parcels/spark2.2.1/lib/spark2/sbin/start-all.sh

关闭:standalone集群:有效

/opt/cloudera/parcels/spark2.2.1/lib/spark2/sbin/stop-all.sh

=====================================================================

#spark-submit提交普通任务jar进行测试

成功 --supervise(出现错误重启driver)提交作业的端口是6066(restful接口)

/opt/cloudera/parcels/spark2.2.1/lib/spark2/bin/spark-submit --class com.ziyun.DpiGet2Hiveparquet --master spark://192.168.101.218:6066 --deploy-mode cluster --supervise /home/usr/sparkjob/zy-just-spark-1.0.0.jar first --conf spark.network.timeout=300

这种用7077端口也可以提交成功

/opt/cloudera/parcels/spark2.2.1/lib/spark2/bin/spark-submit --class com.ziyun.DpiGet2Hiveparquet --master spark://192.168.101.218:7077 --deploy-mode client /root/zy-just-spark-1.0.0.jar first --conf spark.network.timeout=300

=====================================================================

目前配置standalone模式的spark是否支持hive(spark任务提示一些错误:需要给sparksession添加一些配置

.enableHiveSupport() //开启hive支持

.config("spark.sql.warehouse.dir", "/user/hive/warehouse"))

hadoop fs -chmod -R 777 /user/hive/warehouse #给配置的目录加入权限

/opt/cloudera/parcels/spark2.2.1/lib/spark2/bin/spark-submit --class com.ziyun.MRecKqmj --master spark://192.168.101.217:7077 --deploy-mode client /root/zy-just-spark-1.0.0.jar first --conf spark.network.timeout=300

测试普通任务能否写入hdfs:新spark(standalone) ##按照后面添加了jar之后,可以正常写入的

/opt/cloudera/parcels/spark2.2.1/lib/spark2/bin/spark-submit --class com.ziyun.MRecKqmjTest --master spark://192.168.101.217:7077 --deploy-mode client /root/zy-just-spark-1.0.0.jar first --conf spark.network.timeout=300

独立模式提示找不到hive的classes。需要拷贝这2个jar到spark的jars目录下

最后是把cloudera manager上集成的spark2.2.0.cloudera2版本中相关hive和spark的jar复制到新装的spark的jar目录。

把mysql的驱动jar也拷贝过去。在hive里面也是有的。

后面又提示缺失thriftserver。最终是解压了一个spark自带hadoo2.6(cm版本的hadoop也是基于2.6)版本的jar,把它里面的jar也拷贝到新装的spark的jars目录下。

跑普通spark任务就可以了。

原文地址:https://www.cnblogs.com/double-kill/p/9610159.html

时间: 2024-07-31 07:20:14

在CDH上用外部Spark2.2.1安装和配置 CarbonData的相关文章

Windows 系统上Qt Creator的调试器安装与配置

在线安装Qt后发现使用的是Visual Studio的预编译版,缺少调试器(Debugger),而使用MSVC的Qt对应的原生调试器是CDB(对应MinGW的Qt使用GDB调试器).本文介绍如何下载安装CDB,并在Qt Creator配置之. 示例环境:XP x86 + Visual Studio 2010 + Qt 5.4.0 选择合适的Windows Driver Kit(WDK) CDB已经不再作为独立软件包,而是WDK中的一部分.虽然WDK是对应不同的Windows版本的,但是因为我们只

Linux上的桌面及VNC的安装和配置

服务端环境:CentOS 6.7客户端环境:Windows 7 1.服务器安装VNC服务端 2.编辑vnc配置文件 3.设定VNC的密码 4.查看vnc的会话信息 5.客户端测试vnc连接 Reference 1.服务器安装VNC服务端 可以直接rpm安装vnc的服务端: rpm -ivh tigervnc-server-1.1.0-16.el6.x86_64.rpm 如果rpm安装时发现有依赖,建议直接使用yum安装,轻松解决依赖问题: yum install tigervnc-server

0028-如何在CDH未启用认证的情况下安装及使用Sentry

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看. 1.文档编写目的 CDH平台中的安全,认证(Kerberos/LDAP)是第一步,授权(Sentry)是第二步.如果要启用授权,必须先启用认证.但在CDH平台中给出了一种测试模式,即不启用认证而只启用Sentry授权.但强烈不建议在生产系统中这样使用,因为如果没有用户认证,授权没有任何意义形同虚设,用户可以随意使用任何超级用户登录HiveServer2或者Impala,并不会做密码校验.注:本文档仅适用于测试环境. 本文档主要描述如

PHP在linux上执行外部命令

PHP在linux上执行外部命令 一.PHP中调用外部命令介绍二.关于安全问题三.关于超时问题四.关于PHP运行linux环境中命令出现的问题 一.PHP中调用外部命令介绍在PHP中调用外部命令,可以用,1>调用专门函数.2>反引号.3>popen()函数打开进程,三种方法来实现: 方法一:用PHP提供的专门函数(四个):PHP提供4个专门的执行外部命令的函数:exec(), system(), passthru(), shell_exec()1)exec()原型: string exe

cdh 上安装spark on yarn

在cdh 上安装spark on yarn 还是比较简单的,不需要独立安装什么模块或者组件. 安装服务 选择on yarn 模式:上面 Spark 在spark 服务中添加 在yarn 服务中添加 getWay 后重新 启动服务端 用hdfs 用户进入 spark bin 目录 cd /opt/cloudera/parcels/CDH/lib/spark/bin 执行 ./spark-submit --class org.apache.spark.examples.SparkPi --maste

Tomcat在Linux上的安装与配置

Tomcat在Linux上的安装与配置 1.  jdk下载地址: http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html tomcat下载地址:http://tomcat.apache.org/download-70.cg 2.jdk安装与配置.(rpm包)    (1)jdk安装    rpm包:    # rpm -ivh jdk-7u79-linux-x64.rpm tar.gz

linux上tomcat安装及配置

一.检查linux机器上是否有自带的jdk Java -version检查下就可以,如果有版本低的话可以先卸载掉 jdk安装与配置. (1)jdk安装 将jdk1.7.tar.gz安装包上传到安装主机(本地可通过xftp客户端) 解压缩包: #tar -xvzf jdk1.7.tar.gz -C /opt/rh   #解压缩包到指定目录下. (2)配置环境变量 # vi /etc/profile export JAVA_HOME=/opt/rh/jdk1.7.0_79 export PATH=$

java环境--JDK和Tomcat在linux上的安装和配置

Tomcat在Linux上的安装与配置 以下使用的Linux版本为: Redhat Enterprise Linux 7.0 x86_64,Tomcat版本为tomcat-7.0.54.1.下载JDK与Tomcat.    jdk下载地址:    http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html    tomcat下载地址:    http://tomcat.apache.org

CDH使用之CM 5.3.x安装

前言:CM全称Cloudera Manager,Cloudera开发公司的产品.其主要功能是对CDH集群进行监控,大大改善原生ApacheHadoop的安装.配置复杂和需要使用第三方开源的监控工具所带来的诸多问题.其中,CDH是Cloudera公司的开源产品,可以不依靠CM独立安装.CM有free版本,提供60天在收费版中才能使用的高级功能的免费使用期限.本文CM安装基于CentOS 6.5,各个系统版本之前可能存在细微的差别,读者请自行查阅,理论上也使用于Red Hat系统. 一.