kettle6.1 连接hadoop2.6.0-CDH5.5.0

kettle6.1 连接hadoop2.6.0-CDH5.5.0

参考官网链接:http://wiki.pentaho.com/display/BAD/Configuring+Pentaho+for+your+Hadoop+Distro+and+Version

1,hadoop version 查看版本信息 ,如下图

2,去官网验证版本是否支持,如下图

3,获取链接信息,即你需要连接的hdfs或者hive的信息(此处我只考虑hdfs和hive)

链接信息,自己确认。

遇到的问题:

kettle连接可以预览表,却不能获取数据,获取数据报错如下:

hive端也是同样的报错:

因为我用的是apacth—hadoop,后来检查发现居然是hdfs没启动。。。

启动过后,kettle界面预览数据:

命令行界面显示如下:

应该是正常了。

时间: 2024-11-05 09:02:05

kettle6.1 连接hadoop2.6.0-CDH5.5.0的相关文章

spark cdh5编译安装[spark-1.0.2 hadoop2.3.0 cdh5.1.0]

前提你得安装有Hadoop 我的版本hadoop2.3-cdh5.1.0 1.下载maven包 2.配置M2_HOME环境变量,配置maven 的bin目录到path路径 3.export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m" 4.到官方下载spark-1.0.2.gz压缩包.解压 5.进入spark解压包目录 6.执行./make-distribution.sh --hadoop

CDH5.2.0升级到CDH5.3.3

公司有一个Spark on Yarn集群,基于CM5.2.0+CDH5.2.0搭建,Spark的版本是1.1.0.为了使用Spark1.2.0的一些特性,决定将集群版本升级到CM5.3.3+CDH5.3.3.之所以升级CM,是因为CM的版本号必须大于等于CDH的版本号.下面分成两个步骤介绍升级过程:CM升级和CDH升级. 1 CM升级过程介绍     1.1 admin用户登陆http://10.10.244.137:7180/cmf/home,关闭集群服务和Cloudera managemen

Pentaho Kettle 6.1连接CDH5.4.0集群

作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 欢迎转载 最近把之前写的Hadoop MapReduce程序又总结了下,发现很多逻辑基本都是大致相同的,于是想到能不能利用ETL工具来进行配置相关逻辑来实现MapReduce代码自动生成并执行,这样可以简化现有以及之后的一部分工作.于是选取了上手容易并对Hadoop支持的比较成熟的Pentaho Kettle来测试,把一些配置过程和遇到的坑记录下来. Kettle可以在官网下载到,但是官网会让你注册才能下载而

【甘道夫】Win7环境下Eclipse连接Hadoop2.2.0

准备: 确保hadoop2.2.0集群正常运行 1.eclipse中建立java工程,导入hadoop2.2.0相关jar包 2.在src根目录下拷入log4j.properties,通过log4j查看详细日志 log4j.rootLogger=debug, stdout, R log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLa

hadoop2.3.0cdh5.0.2 升级到cdh5.7.0

后儿就放假了,上班这心真心收不住,为了能充实的度过这难熬的两天,我决定搞个大工程.....ps:我为啥这么期待放假呢,在沙发上像死人一样躺一天真的有意义嘛....... 当然版本:hadoop2.3.0cdh5.0.2 机器:   nn dn jn rm nm jh hmaster hregionserver mast1 是 是 是 是 是   是 是 mast2 是 是 是 是 是   是 是 mast3   是 是   是 是   是 目标版本:hadoop2.6.0cdh5.7.0 升级方

[开发]Win7环境下Eclipse连接Hadoop2.2.0

准备: 确保hadoop2.2.0集群正常运行 1.eclipse中建立mven工程,并编辑pom文件如下 <dependencies> <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-client</artifactId> <version>0.96.2-hadoop2</version> </dependency&g

Centos-6.5安装CDH-5.9.0教程

Centos-6.5安 本文是为了帮助想以Cloudera搭建自己大数据管理和运行平台的朋友,由于Cloudera有多种安装方式,经过多次的尝试和研究,本文介绍的是其中一种更容易安装成功的方式,供大家参考. Cloudera的介绍可参考官方文档 cloudera介绍 包含cloudera的各个工程项目,这里就不再细说,直接进入正题. 一.准备工作 1.下载CDH相关文件 Cloudera Manager :http://archive.cloudera.com/cm5/cm/5/cloudera

cdh4.6.0到cdh5.2.0 upgrade和rollback问题小结

upgrade小结:1.dfsadmin -upgradeProgress status 在cdh5.2.0中没有,在4.6.0有(见源码org.apache.hadoop.hdfs.tools.DFSAdmin)升级的时候不能通过这个看到升级状态rollingUpgrade这个参数在4.6.0中不存在,在5.2.0中有,可以用于滚动升级2.在cdh5.2.0中执行upgrade,nn中调用的命令是 hadoop-daemon.sh start namenode -upgrade 最终调用org

CDH5.2.0集群优化配置

HDFSdfs.block.size HDFS中的数据block大小,默认是64M,对于较大集群,可以设置为128或264M dfs.datanode.socket.write.timeout/dfs.socket.timeout 增加dfs.datanode.socket.write.timeout和dfs.socket.timeout两个属性的设置(默认300),比如30000,避免可能出现的IO超时异常 dfs.datanode.max.transfer.threads 增加datanod