kettle之mongodb数据同步

需求:

1.源数据库新增一条记录,目标库同时新增一条记录;

2.源数据库修改一条记录,目标库同时修改该条记录;

示例用到三个Kettle组件

下面详细说下每个组件的配置

Source:

本示例连接的是Mongodb数据库,四个字段,ID默认为主键,_id会系统自动生成暂时先不管。

本节点的详细说明,可见官网:http://wiki.pentaho.com/display/EAI/MongoDB+Input

值映射:

本步在本示例作用不大,只是为了测试效果。按照截图上进行配置即可

MongoDbOutput:

关键是这一步的配置

官网上对这个tab页的解释是这样的:

2.2 Selecting the write mode

The MongoDb output step provides a number of options that control what and how data is written to the target Mongo document collection. By default, data is inserted into the target collection. If the specified collection doesn‘t exist, it will be created before data is inserted. Selecting the Truncate option will delete any existing data in the target collection before inserting begins. Unless unique indexes are being used (see section on indexing below) then Mongo DB will allow duplicate records to be inserted. Mongo DB allows for fast bulk insert operations - the batch size can be configured using the Batch insert size field. If no value is supplied here, then the default size of 100 rows is used.

Selecting the Upsert option changes the write mode from insert to upsert (i.e. update if a match is found, otherwise insert a new record). Information on defining how records are matched can be found in the next section. Standard upsert replaces a matched record with an entire new record based on all the incoming fields specified in the Mongo document fields tab. Modifier update enables modifier ($ operators) to be used to mutate individual fields within matching documents. This type of update is fast and involves minimal network traffic; it also has the ability to update all matching documents, rather than just the first, if the Multi-update option is enabled

个人理解就是勾选上红色圈着的选项之后,源数据修改、添加了,在目标库里都会有相应的操作。不过还要设置下面的一步

ID为主键match field for update时一定要选择Y否则运行时出错。

同步过程最主要的就是上边列出的几步设置,当然如果想要再设置更强大的功能,可详细去研究官网的API

官网API地址:http://wiki.pentaho.com/display/EAI/

示例kri文件下载地址:http://files.cnblogs.com/nyzhai/mongodbTran.rar

时间: 2024-11-10 14:57:30

kettle之mongodb数据同步的相关文章

Kettle+MongoDB 数据同步到MySQL

Kettle+MongoDB 数据同步到MySQL 1.前言: MongoDB中的date类型以UTC(Coordinated Universal Time)存储,isodate类型,就等于GMT(格林尼治标准时)时间.而北京所处的是+8区,所以mongo shell会将当前的GMT+0800时间减去8,存储成GMT时间. 2.抽取作业概述 3.组件选择: 4.增量处理: 在MongoDB中查询如下是正确的: > db.xamessages.find({created_at:{$gte:ISOD

MongoDB副本集配置系列十一:MongoDB 数据同步原理和自动故障转移的原理

1:数据同步的原理: 当Primary节点完成数据操作后,Secondary会做出一系列的动作保证数据的同步: 1:检查自己local库的oplog.rs集合找出最近的时间戳. 2:检查Primary节点local库oplog.rs集合,找出大于此时间戳的记录. 3:将找到的记录插入到自己的oplog.rs集合中,并执行这些操作. 2:查看副本集的信息 gechongrepl:PRIMARY> rs.status() { "set" : "gechongrepl&quo

MongoDB 数据迁移和同步

MongoDB 数据迁移和同步 MongoDB的数据同步 复制 mongodb的复制至少需要两个实例.其中一个是主节点master,负责处理客户端请求,其余的都是slave,负责从master上复制数据. master写处理:master负责接收写请求,具体的流程为: 如果开启journal功能,则先将写请求记录到journal中,然后批量执行,同时将操作记录到oplog中: 如果未开启journal功能,则对每个写请求进行单独操作,然后写入oplog. 注:oplog是幂等的,当有累加操作in

MongoDB副本集配置系列十:MongoDB local库详解和数据同步原理

1:local库是MongoDB的系统库,记录着时间戳和索引和复制集等信息 gechongrepl:PRIMARY> use local switched to db local gechongrepl:PRIMARY> show tables me oplog.rs replset.minvalid slaves startup_log system.indexes system.replset temp 2:local库下的每个集合分别记录的内容 local库下面的me集合保存了服务器名称

MongoDB 数据自动同步到 ElasticSearch

我们产品中需要全文检索的功能,后端数据存储主要使用了 MySQL + MongoDB,而其中需要检索的内容是在 MongoDB 中的. MongoDB 本身是自带文本索引功能的,但是,不支持中文.术业有专攻,MongoDB 是数据存储应用,那么全文检索就使用专业的全文搜索引擎吧. 预选的几个选手有:Solr.ElasticSearch.Xapian.Sphinx.XunSearch.由于我们的数据量比较大,觉得现在单机已经有些力不从心了,MongoDB 也开始计划做分片,那么全文搜索如果自带分布

MongoDB -> kafka 高性能实时同步(采集)mongodb数据到kafka解决方案

写这篇博客的目的 让更多的人了解 阿里开源的MongoShake可以很好满足mongodb到kafka高性能高可用实时同步需求(项目地址:https://github.com/alibaba/MongoShake,下载地址:https://github.com/alibaba/MongoShake/releases).至此博客就结束了,你可以愉快地啃这个项目了.还是一起来看一下官方的描述: MongoShake is a universal data replication platform b

使用Kettle增量抽取MongoDB数据实践

需求: 增量抽取MongoDB数据并加载到MSSQL 由于不能使用关系型数据库的自定义SQL, 所以主要遇到的问题有: 增量时间的查询和参数控制 ETL的批次信息和调用参数的写入 第一个问题的解决如下: 使用命名参数在Query页中进行过滤, 一开始会担心${}的引用方式会用Mongo的语法冲突, 测试后发现运行正常 第二个问题: 先为结果增加常量值, 如常量值固定则直接写死, 不固定的常量值先设置为空串, 在后面使用字符串替换组件传入命名参数, 最后用字段选择把空串的常量值移除

利用触发器实现kettle数据同步

2016年8月17日 一.目的 通过触发器实现数据同步二.思路 1.在数据库需要同步的源表中建立一个insert触发器,当有新数据插入时,会自动将新插入数据的主键记录到临时表temp中.(当然也可以记录多个字段) 2.比较临时表temp和源表中的数据,匹配两个表中的主键值是否一致(也可以匹配多个字段),将符合条件的源表数据筛选出来,同步到目标表. 3.当同步完数据之后,清空temp表中的数据,进行下一轮同步.三.优缺点 1.优点 避免对相同数据的扫描,减少同步时间. 2.缺点 只在本地测试,未能

统一数据同步解决方案

每天进步一点点! 前段时间一个项目需要做数据同步,考虑到数据同步功能在很多地方都会涉及到,所以将功能提炼出来,做成统一的组件,供公司所有的项目使用,在此将实现方案记录下来,希望对其他人有用. 背景: 背景是这样的,互联网公司,做社区O2O产品的,目前需要做一套停车收费系统以及道闸控制系统,我们的产品中心数据肯定放在云端,处理缴费充值等业务:但停车收费系统在部署到物业公司小区,这就涉及到需要将云端的数据同步到局域网的服务器,同时也会涉及到局域网产生的数据同步到云端:而且局域网有可能是联网的,也可能