kettle连接hadoop&hdfs图文详解

1 引言：

项目最近要引入大数据技术，使用其处理加工日上网话单数据，需要kettle把源系统的文本数据load到hadoop环境中

2 准备工作：

1 首先

要了解支持hadoop的Kettle版本情况，由于kettle资料网上较少，所以最好去官网找,官网的url:

http://wiki.pentaho.com/display/BAD/Configuring+Pentaho+for+your+Hadoop+Distro+and+Version

打开这个url 到页面最下面的底端，如下图：

archive 下面的from PDI 4.3 、 from PDI 4.4 、 from PDI 5.0 即表示支持hadoop的pdi 版本。pdi即pentaho data integration 又称kettle。PDI 4.3 、 PDI 4.4 、 PDI 5.0 即是kettle 4.3 、4.4、 5.0 ,这个版本号包括比其更高的版本（即kettle 5.0.X ，5.1，5.2也支持hadoop）。

2 其次

不同的kettle版本支持的hadoop版本不一样，以5.1为例子，下面的链接是5.1的支持情况

http://wiki.pentaho.com/display/BAD/Configuring+Pentaho+for+your+Hadoop+Distro+and+Version

下图为链接打开的页面的中间部分：

determine the proper shim for hadoop Distro and version 大概意思是为hadoop版本选择合适的套件。表格上面的一行：apache、cloudera、hortonworks、intel、mapr指的是发行方。点击他们来选择你想连接的hadoop的发行方。上图以apache hadoop为例：

Version 指版hadoop版本号，shim 指kettle提供给该hadoop套件的名称，Download 里面的 included in 5.0,5.1 指kettle的5.0、5.1版本安装包里面已经有内置的插件，一句话来讲就是kettle5.1及5.0版本已有插件提供支持apache hadoop版本0.20.x 。不需要额外下载。NS 是不支持的意思图片下面也有解释。

上图说明的是对 cloudera的 hadoop支持的情况，Download 里面 download的蓝色字体超链接的说明是要除了下kettle的安装包外另外下载的，带 included in 5.0,5.1 说明 kettle 5.0,5.1版本的本身就支持（内置有插件）。

由上面两图得到的结论是 kettle 5.1 支持 apache hadoop 0.20.x版本及cloudera hadoop CDH4.0 到CDH5。

3 试验运行：

1 首先配置工作

当前我用的hadoop 版本是hadoop-2.2.0-cdh5.0 所以用kettle 5.1 且其内置有hadoop插件。去kettle官网下载：

解压之后就是：

下载好之后，现在就需要做配置的工作了，配置的工作在kettle安装文件里面做：

配置办法参考：http://wiki.pentaho.com/display/BAD/Hadoop

进页面之后先点击collapse 收缩所有的菜单树如上图。 Configuring Pentaho for your Hadoop Distro and Version 意思是为hadoop 版本做配置点击进去：页面的上面就是上面说过的kettle对hadoop的支持情况。

我们到页面的中间部分去，如下图：

1 意思是你想要连接的hadoop发行版已经被kettle支持了，但是没有内置插件，需要下载，这种情况最好看下：Install Hadoop Distribution Shim

2 意思是你想连接的hadoop发行版还有没有被kettle支持，可以自己填写相应的信息要求pentaho 开发一个。

还有1种情况就是上面说的hadoop发行版已经被kettle支持了且有内置的插件。

3 就是配置了。

3.1 stop application 就是如果kettle在运行先停掉他。

3.2 打开安装文件夹我们这边是kettle 所以就是spoon那个的文件路径：

3.3 编辑 plugin.properties文件

3.4 改一个配置值下图画圈的地方

改成对应你hadoop的shim值（上图的表格里面的shim）我这边是cdh50:

改之后保存：

至此配置工作做完。

2 然后开发脚本工作

下面开始开发脚本官方参考：http://wiki.pentaho.com/display/BAD/Loading+Data+into+HDFS

打开 kettle 运行spoon.bat

:

新建一个kjb文件拖一个开始图元

再拖一个

hadoop copy files即是 load数据到 hdfs里面。

copy files里面的配置：

意思是当前kjb脚本所在路径在我这边文件夹是：

目标文件是 hdfs://ip:hdfs端口/路径

填之前可以点击browse 按钮测试

如下图：填好server 和port后点击connect 如果没有报错出现红框里面的hdfs://......... 就说明连接成功了（如下图）。

注意只要连接成功，说明kettle对hadoop的配置就没有问题。

可以运行脚本试试了：

如上图，脚本运行成功。

在hadoop home bin下面查看:

文件成功load.

至此，kettle load文本数据到hdfs成功！

4 备注：

所有的步骤都可以参考官网：

http://wiki.pentaho.com/display/BAD/Hadoop

上图 1 是配置 2 是加载数据到hadoop 集群 3 是加载数据到hdfs 还有其他到 hive 到hbase等。

时间： 2024-08-04 01:48:07

kettle连接hadoop&hdfs图文详解的相关文章

kettle入门(三) 之kettle连接hadoop&hdfs图文详解（转）

1 引言: 项目最近要引入大数据技术,使用其处理加工日上网话单数据,需要kettle把源系统的文本数据load到hadoop环境中 2 准备工作: 1 首先要了解支持hadoop的Kettle版本情况,由于kettle资料网上较少,所以最好去官网找,官网的url: http://wiki.pentaho.com/display/BAD/Configuring+Pentaho+for+your+Hadoop+Distro+and+Version 打开这个url 到页面最下面的底端,如下图: ar

kettle入门(三) 之kettle连接hadoop&hdfs图文详解

1 引言: 项目最近要引入大数据技术,使用其处理加工日上网话单数据,需要kettle把原始文本数据load到hadoop环境中 2 准备工作: 1 首先要了解支持hadoop的Kettle版本情况,由于kettle资料网上较少,所以最好去官网找,官网的url: http://wiki.pentaho.com/display/BAD/Configuring+Pentaho+for+your+Hadoop+Distro+and+Version 打开这个url 到打开页面最下面的底端如下图: arc

全网最详细的hive-site.xml配置文件里如何添加达到Hive与HBase的集成，即Hive通过这些参数去连接HBase（图文详解）

不多说,直接上干货! 一般,普通的情况是 <configuration> <property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql://master:3306/metastore?createDatabaseIfNotExist=true</value> </property> <property> <name>

FineBI学习系列之FineBI与HBase数据连接（图文详解）

不多说,直接上干货! 这是来自FineBI官网提供的帮助文档 http://help.finebi.com/http://help.finebi.com/doc-view-584.html 目录: 1.描述 2.操作 3.注意事项 1.描述 Hbase作为大数据平台的重要组成部分,在数据存储方面起到了至关重要的作用,因此BI连接Hbase也是必不可少的功能之一.FineBI提供的方法是通过phoenix连接hbase,下面我们将详细介绍如何进行连接. 2.操作 2.1 配置信息驱动 URL

FineBI学习系列之FineBI与IBM DB2数据连接（图文详解）

不多说,直接上干货! 这是来自FineBI官网提供的帮助文档 http://help.finebi.com/http://help.finebi.com/doc-view-562.html 目录: 1.描述 2.操作 3.注意事项 1.描述 IBM DB2主要应用于大型应用系统,具有较好的可伸缩性,可支持从大型机到单用户环境,应用于所有常见的服务器操作系统平台下. DB2提供了高层次的数据利用性.完整性.安全性.可恢复性,以及小规模到大规模应用程序的执行能力,具有与平台无关的基本功能和SQL命令

FineBI学习系列之FineBI与IBM Informix数据连接（图文详解）

不多说,直接上干货! 这是来自FineBI官网提供的帮助文档 http://help.finebi.com/http://help.finebi.com/doc-view-563.html 目录: 1.描述 2.操作 1.描述 Informix是IBM公司出品的关系数据库管理系统(RDBMS)家族.作为一个集成解决方案,它被定位为作为IBM在线事务处理(OLTP)旗舰级数据服务系统.下面我们介绍如何在FineBI中连接Informix数据库. 2.操作 2.1 配置信息驱动 URL

大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建图文详解

引言在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试.其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式.至于为什么先写单机的搭建,是因为作为个人学习的话,单机已足以,好吧,说实话是自己的电脑不行,使用虚拟机实在太卡了... 整个的集群搭建是在公司的测试服务搭建的,在搭建的时候遇到各种各样的坑,当然也收获颇多.在成功搭建大数据集群之后,零零散散的做了写笔记,然后重新将这些笔记整理了下来.于是就有了本篇博文. 其实我在搭

【运维基本功】centos6.5下巧用netstat命令的参数分析TCP连接与关闭过程，图文详解

前言使用centos6.5系统自带的 netstat,grep,watch等命令,来分析网络连接状态,要求对 TCP 有限状态机的概念有较深入的理解. 同时,这也是除了使用强大的专业第三方协议分析器,如 wireshark 以外,最有效的办法. 写本博文的目的其中之一就是要告诉大家,不使用 wireshark 等第三方工具,自己也能做到一定粒度的网络连接,状态分析,调试等等. 用到的命令总结如下: watch -n 1 -d 'netstat -antupeo | grep --color 8

大数据学习系列之五 ----- Hive整合HBase图文详解

引言在上一篇大数据学习系列之四 ----- Hadoop+Hive环境搭建图文详解(单机) 和之前的大数据学习系列之二 ----- HBase环境搭建(单机) 中成功搭建了Hive和HBase的环境,并进行了相应的测试.本文主要讲的是如何将Hive和HBase进行整合. Hive和HBase的通信意图 Hive与HBase整合的实现是利用两者本身对外的API接口互相通信来完成的,其具体工作交由Hive的lib目录中的hive-hbase-handler-*.jar工具类来实现,通信原理如下图

猜你喜欢

Feekood语言介绍

Feekood是一种人工智能脚本技术,旨在建立一个开放的脚本语言平台,解决一系列的应用软件快速开发的问题. Feekood结合了面向对象设计(OOP).面向过程设计各自的优势,在传统程序设计逻辑的基础 ...

C++占位符

C++下基本类型所占位数和取值范围: 符号属性长度属性基本型所占位数取值范围输入符举例 ...

项目质量管理与人力资源管理要点梳理

一.项目质量管理:1.项目质量规划的方法/技术和工具,并简要描述: 答:7个,效益/成本分析,基准比较,流程图,实验设计,质量成本分析,质量功能展开(质量要求转为技术要求),过程决策程序图法(应急预案 ...

厦门海沧区磁盘只有1TB的解决方案

1.为WINDOWS 2008 r2 服务器增加5个1T的硬盘 2.打开命令提示符,并键入 diskpart. 3.在“DISKPART”提示符下,键入 list disk.记下要进行脱机的磁盘编号. ...

本地计算机上的Apple Mobile Device服务启动后停止。某些服务在未由其他服务或程序使用时将自动停止

解决办法:1.开始——运行——regedit.exe,打开注册表编辑器,删除以下两个键: HKEY_LOCAL_MACHINE\System\CurrentControlSet\Services\Wi ...

如何对HashMap按键值排序

Java中HashMap是一种用于存储“键”和“值”信息对的数据结构.不同于Array.ArrayList和LinkedLists,它不会维持插入元素的顺序. 因此,在键或值的基础上排序HashMap ...

如何让程序以管理员身份运行

一.让所有程序都以管理员身份运行直接启用administrator账户,因为在administrator账户下本身就是超级管理员权限,就无所谓点右键“以管理员身份运行”了(但这样会导致系统安全性有所 ...

[Android]Android5.0实现静默接听电话功能

原因: android曾经能够通过AIDL进行静默接听.可是5.0以后就被谷歌给屏蔽了.这时候我们仅仅能通过其它方式实现了. 解决方式: try { Runtime.getRuntime().exec ...

Web开发中需要了解的东西【转载】

在StackExchange上有人问了这样一个问题:What should every programmer know about web development?(关于Web开发,什么是所有程序员需 ...

fork小续

pid_t pid = fork(); 1.根据fork的返回值区分父子进程: fork 函数返回两次, >0 表示父进程,返回值为子进程ID; =0 表示子进程; <0 出错. 可用代码 ...

90后正在统治互联网？

90后互联网创始人孙宇晨在<彭博商业周刊>的专栏里,以最近走红的脸萌软件为例,指出90后正在重新塑造互联网.孙宇晨曾经与蒋方舟一起以"互联网下的蛋:中国九零后精英"为题 ...

Swift 圆角设置

故事面板中设置圆角(storyboard) Key Path layer.borderWidth(边框宽度) layer.cornerRadius(圆角弧度) layer.borderColor(边框 ...

对抗静态分析——运行时修复dex

对抗静态分析——运行时修复dex 本文来源:i春秋社区-分享你的技术,为安全加点温度零.写在前面这个系列本来题目想写对抗反编译,可是想想对抗反编译的这个范围有点大,总结如下灵魂作图 <ig ...

[2016-03-19][UVALive][3971][Assemble]

时间:2016-03-19 13:55:17 星期六题目编号:[2016-03-19][UVALive][3971][Assemble] 题目大意:给定若干个电脑零件的价格和质量,求在总价不超过b的 ...

Path Sum II 二叉树路径之和之二

Given a binary tree and a sum, find all root-to-leaf paths where each path's sum equals the given su ...

JavaWeb-过滤器Filter学习(四)敏感词过滤实例

通过Filter来实现留言板的敏感词过滤- 思路很简单,我们这里的敏感词是直接先放进去的,实际项目中,肯定是存在数据库中.在Filter 过滤器中,我们先拿到用户提交的留言,如果出现了敏感词,我们就用 ...

08_控制线程_后台线程（守护线程）

[后台线程] 后台线程(Daemon Thread):运行在后台,他的任务是为其它的线程提供服务,又称为"守护线程".JVM的垃圾回收线程就是典型的后台线程. [ 特征 ] 如果所 ...

JNI_C#

1. 基本就是通过 JAVA --> C/C++ --> C#的DLL 2. (1).自己写 JNI与 C#的DLL 通信 http://www.cnblogs.com/yinhaimi ...

【BZOJ】【1049】【HAOI2006】数字序列

DP 第一问比较水……a[i]-=i 以后就变成最长不下降子序列问题了,第二问这个结论好神奇,考试的时候怎么破?大胆猜想,不用证明?TAT 题解:http://pan.baidu.com/share/ ...

SGU 197 Nice Patterns Strike Back || ZOJ 2317 Nice Patterns Strike Back

题目链接~~> 做题感悟:做了这题感觉学习了不少东西,首先是关于状态压缩推公式学会了. 解题思路: 构造矩阵: B[ i ][ j ] (i , j 为状态,0 <= i ,j < ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.021 s.