KETTLE集群搭建

KETTLE集群搭建

说明:

本文档基于kettle5.4

一、集群的原理与优缺点

1.1集群的原理

Kettle集群是由一个主carte服务器和多个从carte服务器组成的,类似于master-slave结构,不同的是’master’处理具体任务,只负责任务的分发和收集运行结果。

Master carte结点收到请求后,把任务分成多个部分交给slave
carte执行,slave执行完毕后把结果交给mater 进行汇总,再由mster返回结果。

1.2集群的优点

和其它系统的集群一样,有以下优点:

1)多服务器运行,加快处理速度,对于大数据量的操作更明显

2)防止单点失败,一台服务器故障后其它服务器还可以运行

1.3集群的缺点

1)采用主从结构,不具备自动切换主从的功能。所以一旦主节点宕机,整个系统不可用

2)对网络要求高,节点之间需要不断的传输数据

3)需要更多的服务器,而且主节点没有处理能力

1.4 适用场景

适合于:

1)需求kettle能时刻保持正常运行的场景

2)大批量处理数据的场景

二、集群搭建

2.1 配置子服务器

2.1.1 配置主服务器

打开ketlle目录,找到pwd目录,里面有4个XML文件,分别是子服务器的配置文件和密码文件:

Carte-config-master-8080.xml是主服务器的配置文件。编辑该文件,根据情况修改其中的name\hostname\port\master等属性。Name是服务器的名称,hostname是主机名或者IP,port是端口号,Master表明是否是主服务器。此外,加上两行:

<username>cluster</username>

<password>cluster</password>

在<master>Y<mater>之下

接着启动主服务器,在kettle目录中打开cmd窗口,执行carte
localhost 8080:

至此,主服务器配置完成。

2.1.2 配置从服务器

剩下的三个为从服务器的配置文件。以carte-config-8081.xml为例。打开该文件:

发现该文件有<master>和<slaveserver>两层标签,<master>标签表示该服务器要连接的主服务器的信息,保持与carte-config-master.xml一致。<slaveserver>标签是从服务器的信息,按照需要更改即可。

然后启动slave1-8081从服务器:

按照同样的方法,配置slave2-8082\slave3-8083并启动。(本实验只配置一主两从)

2.2 建立集群

2.2.1 在spoon中创建子服务器。

打开spoon.bat,新建一个转换。选择主对象树-子服务器,右键新键子服务器:

把xml中的信息复制过来,保证与xml中的信息一模一样。按照这种文件配置master slave1-8081 slave2-8082。

2.2.2 建立集群

在主对象树中选择kettle集群schemas,填写schema名称,端口、sokects缓存大小、sockets刷新时间间隔、socketts数据是否压缩。在右边点击选择子服务器,选择需要的子服务器。

Schema名称即集群的名称。

端口即集群对外服务的端口.

sockets缓存大小:sockets缓存

Sockets刷新时间间隔:达到多少行记录时刷新到子服务器。

Sockets数据是否压缩:如果网络状况差,则建议选择。网络良好时不用选择。

2.3 执行转换

配置完集群后,选择转换中的执步骤”排序记录“,右键该步骤,选择”集群”,选择刚才配置的集群。

选择然后会发现排序纪录多出”CX2”,表示有2个子服务器来执行。在一个三个子服务器的集群中,主服务器负责任务分发、结果收集,转换任务由从服务器执行,故只有两个节点执行。

执行该转换:

在命令台中,主服务器:

从服务器1:

从服务器2:

可以看到各个子服务器的执行情况。

至此,集群搭建成功。

三、问题记录。

1.注意:这里配置的是本地集群。如果是异机集群,需要把.kettle下的repositories.xml复制到从机的

实例上。

来自为知笔记(Wiz)

时间: 2024-10-02 00:30:38

KETTLE集群搭建的相关文章

redis3.0集群搭建

Redis集群搭建 redis cluster介绍 节点自动发现.集群容错slave选举.Cluster管理.集群配置管理. 集群中的每个Redis节点需要2个TCP连接端口,如6379端口用于Client连接,16379端口用于集群数据通信 集群采用Hash Slot方案,而不是一致性哈希,共16384个Hashslot.如果有3台机器,那么NodeA在0-5500,NodeB 在5501-11000,NodeC在11001-16384.这种设计下,添加,删除新Node比较方便. 由于Hash

rabbitmq集群搭建(centos6.5)

一:rabbitmq的安装: 参考:http://www.blogjava.net/hellxoul/archive/2014/06/25/415135.html http://blog.haohtml.com/archives/15249 说明:修改机器名字后再安装(为后面集群做准备) vi /etc/sysconfig/network 修改名字 vi /etc/hosts 修改地址映射表,如192.168.1.112   rabbitmq-node1.com rabbitmq-node1 #

linux 下heartbeat简单高可用集群搭建

Heartbeat 项目是 Linux-HA 工程的一个组成部分,它实现了一个高可用集群系统.通过Heartbeat我们可以实现双机热备,以实现服务的持续性. linux下基于heartbeat的简单web服务的高可用集群搭建 首先规划好两台主机作为heartbeat的双机热备,命名为node1.lvni.cc(主) ;node2.lvni.cc, node1的eth0IP :192.168.157.148  Vip eth0:0:192.168.157.149 node2的eth0IP :19

mysql5.7 MGR集群搭建

mysql5.7 MGR集群搭建部署 此文章由队员(谆谆)拟写 此文章来自 乌龟运维 官网 wuguiyunwei.com QQ群 602183872 最近看了一下mysql5.7的MGR集群挺不错的,有单主和多主模式,于是乎搭建测试了一下效果还不错,我指的不错是搭建和维护方面都比较简单.网上绝大多数都是单主模式,当然我这里也是,为了加深印象,特意记录一下搭建过程,等以后再去尝试多主模式,相信大家现在数据库的瓶颈基本都是在写,读写分离虽然是一种可行的解决方案,但是如果数据量很大,写一样会有问题,

MySQL主从复制、读写分离、高可用集群搭建

MySQL主从复制.读写分离.高可用集群搭建  一.服务介绍   1.1 Keepalived     Keepalived,见名知意,即保持存活,其目的是解决单点故障,当一台服务器宕机或者故障时自动切换到其他的服务器中.Keepalived是基于VRRP协议实现的.VRRP协议是用于实现路由器冗余的协议,VRRP协议将两台或多台路由器设备虚拟成虚拟设备,可以对外提供虚拟路由器IP(一个或多个),即漂移IP(VIP). 1.2 ProxySQL ProxySQL是一个高性能,高可用性的MySQL

Mosquitto搭建Android推送服务(二)Mosquitto集群搭建

文章钢要: 1.进行双服务器搭建 2.进行多服务器搭建 一.Mosquitto的分布式集群部署 如果需要做并发量很大的时候就需要考虑做集群处理,但是我在查找资料的时候发现并不多,所以整理了一下,搭建简单的Mosquitto集群模式. 首先集群需要2台以上的Mosquitto服务器.安装方式同上. 先了解下Mosquitto集群模式的逻辑图,如下: 可以看出,无论在那台服务器中订阅了信息,无论在那台服务器上发布信息,订阅者都可以收到发布的信息.那么下一步我们着手搭建集群服务器,为了方便只演示2台服

25.redis集群搭建笔记

###Redis集群### 0.准备 软件: redis-3.0.0.gem redis-3.0.0.tar.gz#源码 1.安装ruby环境 redis基于ruby槽位计算,hash算法技术,key是用hash存在的,key分布在数组的槽位内(16384个槽位),下标从0到2^N,并且采用链表解决冲突. yum install -y ruby yum install -y rubygems 2.安装ruby和redis的接口程序 cp redis-3.0.0.gem /usr/local/ g

elasticsearch2.2 集群搭建各种坑

目前生产环境的es版本是1.0版本,需要升级到最新的2.2版本,于是在测试环境进行部署集群测试,在测试过程中遇到的坑相当多,下面详细介绍下. 1. 版本升级到2.2后,必须建一个单独的账号用于启动elasticsearch,不可以使用root账号进行启动,否则会报以下错误 Exception in thread "main" java.lang.RuntimeException: don't run elasticsearch as root. 2. 如果需要通过ip进行访问es集群,

kafka学习(二)-zookeeper集群搭建

zookeeper概念 ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名 服务等.Zookeeper是hadoop的一个子项目,其发展历程无需赘述.在分布式应用中,由于工程师不能很好地使用锁机制,以及基于消息的协调机制 不适合在某些应用中使用,因此需要有一种可靠的.可扩展的.分布式的.可配置的协调机制来统一系统的状态.Zookeeper的目的就在于此. 1.角色 Zookeeper中的角色主要有以下三